最新美国苹果id下载小火箭
在构建AI项目时,与其雇佣大量科学家进行松散的基础研究,不如将他们集中在具体的、现实的科学问题上,从而更有效地推动技术进步和实际应用。这种方法在OpenAI的成功实践中得到了验证,并且现在被用于指导Adept的构建。
模拟和强化学习环境提升AI模型性能:改进模型性能的关键在于有效利用更多的数据和计算资源,并将模型置于模拟和强化学习环境中,以解决复杂问题。
芯片和模型的垂直整合是未来AI发展的关键:垂直整合使企业能够在AI行业中脱颖而出,因为它将硬件和软件的开发紧密结合,从而最大化地提升性能和市场竞争力。
从RPA到AI agent的演变:传统RPA像工厂车间里的机器人,执行重复、固定的任务;而现代AI agent则像全自动驾驶汽车,能够在动态环境中进行思考、评估和计划,从而解决更复杂的问题。AI agent能够赋予人们去做新事物的能力,提供更多时间上的杠杆,并给他们更多的创造性机会。Adept关注的重点是如何让终端用户能够教会agent新的能力。
Harry Stebbings:David,我非常兴奋。我期待这次对话已经很久了,听说了很多关于你的好评。所以首先非常感谢你今天加入我。
David Luan:谢谢你邀请我,哈里。我看过你之前的一些很酷的节目,能参与进来真的是一种荣幸。
Harry Stebbings:你太客气了,我真的很感激。你在一些很厉害的公司工作过,算是一种锻炼,其中之一是Google Brain。我想从这里开始:当你回顾在Google Brain的时光时,你最大的收获是什么?这些经历是如何塑造你今天对构建Adept的看法的?
David Luan:Google Brain曾经,包括现在都是DeepMind的一部分,是一个非常神奇的地方。我认为这是AI研究方面进展的巅峰时期,每天都有新的论文出来,改变世界。2012年到2018年左右,Google Brain是非常主导的,并且做了很多惊人的工作,比如培养人才。那些发明了Transformer的人,那些开发了扩散模型的人,那些做了我们今天认为理所当然的所有新优化技术的人,当时都在Google Brain。就像那个时代的贝尔实验室。我学到了很多关于如何做纯粹的自下而上的基础研究,这在Google Brain是很常见的。
David Luan:是这样的,我对AI进展的看法有几个不同的阶段。我喜欢把2012年之前的时期称为史前时期。当然,领域里的老前辈们可能不喜欢我这么说。但在2012年之前,我们尝试的大多数事情都没有真正奏效。比如你会看到羊被识别成猫和狗,还有几乎说不出连贯话的聊天机器人。但我认为,从2012年到2017年或2018年之间,深度学习从一个没人相信的东西变成了这个领域的主导范式。在2012到2018年期间,进展的方式是什么?我的意思是,自下而上的基础研究是你雇佣最聪明的科学家。他们每天来工作,没有被要求实现任何短期目标。他们一起工作,思考,如果我们能解决AI中的这个技术难题,会是什么样子?比如,如何创建一个更好地理解如何生成图像的模型。他们出于好奇心和对名誉的兴趣,可能工作六个月左右,然后出来一篇解决问题的研究论文。这就是我的自下而上的意思,因为它是由所有这些研究人员之间的自然互动推动的。
Harry Stebbings:那接下来的阶段是什么?你刚才说到2012年到2018年,你如何分类接下来的阶段?
David Luan:在2017年Transformer出现了。我记得当时我在OpenAI负责工程工作,我和Ilia合作非常紧密。Ilia和我坐在一起,他说,Transformer是真实的,这将是下一个最重要的东西。我们让所有团队研究如何使用这个东西。大多数公众不知道的是,Transformer并不是OpenAI发明的,它是在Google发明的。但是Transformer做的是最新美国苹果id下载小火箭,它是第一次你有一个模型,可以普遍应用于任何机器学习任务。以前,如果你想理解图像,你会用卷积神经网络。如果你想生成文本,你会用RNNs。如果你想在人类上击败围棋,你会用树搜索或强化学习。所以你会用不同的模型来解决AI中的问题。然后Transformer成为了普遍适用的模型,是那个时代AI的基本元素。而一旦Transformer出现,你就不再需要做非常低层次的模型突破,因为它几乎适用于所有问题。然后你就可以用它来解决真正的大问题。
David Luan:这是一个很好的问题。就像ChatGPT是最终被煮熟的青蛙一样,Transformer是一个巨大的突破。从2017年到ChatGPT出来的每一年,语言模型都变得越来越好。我记得Alec Radford和其他几个人一起做了GPT-2。GPT-2出来时,我记得这是第一次有了一个非常聪明的通用模型。你可以说,嘿,写一篇关于某个名人在洛杉矶被捕的报纸文章,它会完美地完成,比如他们在Neiman Marcus商店等,这很有趣。但事实是,两件事必须发生:一是模型变得越来越聪明,但需要有一个最低可行的智能水平,你才会觉得有吸引力;第二是,它需要包装成消费者可以玩的方式。所以如果你回看一下,ChatGPT其实只是有更多聊天调教的GPT-3。但GPT-3 API在ChatGPT之前发布了一年多,但只有开发者可以玩它,因此没有能引发消费者病毒式传播的“啊哈”时刻。包装和智能必须存在,才能实现这种多样化的时刻。
Harry Stebbings:我们提到ChatGPT,在我们深入节目之前,我必须问你,你提到你在OpenAI的经历——这是一个变革的阶段,你也提到与Ilia合作。那么你在OpenAI的一个或两个最大的收获是什么,它们如何影响你对构建Adept的看法?
David Luan:首先回到我们之前讨论的AI进展阶段。OpenAI比DeepMind之外的任何人都早意识到,Transformer之后的AI下一个阶段将不是关于写研究论文,而是关于选择一个主要的未解决的科学问题并尝试解决它。因此,这导致我们建立了一种文化,而不是松散的研究人员联合体,而是围绕如何解决一个具体问题组建一个大型团队,比如控制机器人手,或击败人类在最受欢迎的电子游戏之一,或将GPT扩大到成为一个通用的推理和聊天引擎。这与非常学术的好奇心驱动的研究完全不同。我认为这是正确的框架,也是我们现在如何构建Adept的重要部分。
Harry Stebbings:所以这是将大量科学家集中在特定的现实问题上,而不是科学论文的创建。
David Luan:没错。这就像从雇佣1000人去思考如何组装小火箭,转变为创建阿波罗计划。更好的方法是说,我们的目标是登月,我们将雇佣多少人来解决登月问题。这与一个巨大的人群有机地自组织非常不同。
Harry Stebbings:你提到模型的过渡,GPT-2到GPT-3。当我们考虑今天的模型性能时,人们开始认为我们看到的是边际收益递减,更多的计算并不一定带来更好的性能。我最近和AI领域的一个知名人士聊过,他说OpenAI对他们最新发布的模型投放更多计算带来的性能提升感到失望。你认为我们现在看到的是边际收益递减吗?更多的计算并不一定带来更好的性能?
David Luan:我不这么认为,这完全取决于你使用的坐标系。巨型模型扩展的方式——如果你回顾从GPT-2到GPT-3到GPT-4的整个过程,你会发现每增加一个增量的GPU,确实有边际收益递减。但是每增加一倍的GPU,其收益是可以预测且一致的。所以这有点像对数曲线与直线之间的区别,取决于你使用的坐标系。换句话说,为了简单地扩展基础语言模型,你需要将用于该语言模型的计算量加倍,以使其在智能方面有可预测的一致提升。
Harry Stebbings:明白了。所以实际上,随着计算能力的增加,性能应该和会有更多的提升。是的,我和Alex Wang在节目中讨论过,他说,与其说是算法或计算,应该说数据才是AI模型性能的瓶颈。你怎么看?这是真的吗?
David Luan:让我换个方式说,我认为更好的方式是去思考。模型扩展与计算有两个部分,一部分是你简单地使模型变得更大,然后投入更多的数据和更多的GPU。如果我们回顾数据中心的CPU,很长一段时间我们有摩尔定律。每年芯片的性能都在以某种可预测的速度提升,每个人都说摩尔定律会消亡,我们已经到了极限,但每次都能通过。这在模型扩展上也一样。摩尔定律将保持这种情况,直到模型达到人类水平。即使你投入更多的数据和计算,也只是使现有的语言模型更大,它在智能上会有可预测的一致提升。
David Luan:让我给你一个具体的例子吧。现在假设你想训练一个LLM,使其在解决数学问题方面更好。你所做的方式是收集大量困难数学问题的正解并将其投入数据集中。你会想让模型在这个方面变得更聪明。但解决这个问题的一个更好的方法是,你给正在训练的模型提供一个定理证明和数学环境。比如,给它一个Jupyter notebook,或者有一个很多人使用的定理证明库。让模型直接访问这些工具,然后说,我希望你进行实验,我希望你尝试解决这个问题,然后反思:你做得好吗?这个问题解决了吗?如果没有,再试一次。所以现在你让模型在模拟世界中玩耍,基本上是收集解决数学问题的正反数据,然后使模型更聪明。改进模型性能的第二种方式现在才刚刚开始被挖掘,这也会吸收大量的计算资源。因此,我其实不担心计算资源的回报递减。
David Luan:一切都是一个S型曲线,不管是巨型模型还是基础模型的扩展。在过去几年里,我们处于改进最明显的阶段。你可以加倍花费,你的模型从1亿美元变成2亿美元,这是向世界提供更智能事物的最快最简单的方式。现在如果你进行10亿美元级别的训练,2亿美元、4亿美元的训练,非常难以筹集更多资金来让基础模型变得更大。因此,现在改进模型的关键路径正在转向这种更广泛的模拟/合成数据/RL循环路径。我认为这只是继续扩展成本太高的自然结果。
Harry Stebbings:就像是自己数据集的强化学习一样,不断重复相同的事情直到它正确。这是一个好的理解方式吗?
David Luan:这是一个好的理解方式。我认为一个好的思考方式是,在过去的几年里,当我们扩展LLM时,我们一直在做更多的无监督学习。你获取更多的数据,更多聪明的记者撰写文章,将其输入数据集中,使其变得更聪明。但问题是,按这种方式训练的模型只能与训练集中的最聪明的数据一样好。因为它的工作是模仿人在那种情况下会做什么。
但根本的问题是,如果你想解决真正的大问题,比如证明未被证明的数学定理,或者帮助你在工作中解决创造性问题。这些问题本质上不在训练集中,因为这是超人能力或者新颖的情况。
Harry Stebbings:这是否就是为什么我们没有看到我们希望或期望的agent的进展?因为很多人做的任务其实并没有编入数据,而是只停留在对话中、房间里或是白板上等等,而不是数据中。
David Luan:是的,我认为这是一个关键洞察。我认为聊天机器人,比如ChatGPT和agent,正在成为不同种类的技术。我认为它们会以非常不同的方式发挥作用,它们需要的东西也非常不同。
一个具体的例子是幻觉问题,在聊天机器人和图像生成器中出现幻觉是个好事,因为它为解决空白页问题提供了一个起点,给了你一些新奇和创造性的小工具。但如果你希望某个东西持续地帮你处理税务或所有的运输集装箱,你不希望它在过程中随机产生幻觉并编造东西。所以这些技术现在正以有趣的方式分化。
Harry Stebbings:你之前跟我提到过最低可行能力水平以及这是如何随模型规模变化的。当时我不太明白你的意思。所以我希望你能帮我解释一下。
David Luan:好的。最酷的事情,也是我喜欢从事AI工作的原因之一,是作为一名工程师或研究人员,你每天都像是在揭示关于智能工作方式的不为人知的秘密。这和编程非常不同。作为一名程序员,我到公司时,我知道我要构建的东西,我知道我可以构建它,我知道如果我足够聪明,我可以解决这个问题,并且我确切地知道我构建的系统的行为会是什么样。但AI的酷在于,你每天来公司,稍微调整一下模型,而你得到的结果实际上有些不可预测。你感觉更像是一名园丁,而不是工程师。
我觉得很酷的是,随着这些AI系统变得越来越大,架构和数据集得到了改进,模型的优缺点无法完全提前预测。你可以对一些事情进行估算,但回到早期的情况,当我们训练GPT-2时,我们在各种不同的规模上训练了GPT-2。在最小的规模下,模型根本无法进行三位数的算术计算。但随着模型变得越来越大,我们没有改变其他任何东西。我们只是看了更多的数据,然后使模型变得更大。然后在某个特定的规模上,突然间从不能进行三位数的算术计算变得非常擅长,并且能够可预测地越来越好地处理三位数的算术计算。这种“啊哈”时刻我们无法事先预知。这就是我所说的最低可行能力以及这是如何随着模型规模变化的。我们希望这些模型能够非常有用,能够帮助我们在科学上发现新事物或其他方面。但今天很难说,“嘿,如果我在这个模型上花费20亿美元的计算资源,并且拥有正确的数据,这肯定会发生。”这也是为什么我觉得在这个领域工作非常酷的原因。
Harry Stebbings:当我们考虑到模型改进实际带来的性能提升时,我认为有三种方法,其中之一是推理的突破。你如何看待推理突破的可能性?这需要什么?是否合理?
David Luan:推理是目前该领域中的一个问题,我认为我们中的很多人都有类似的解决方案思路,但实际上需要一些新的研究。因此,奇怪的是,今天在AI领域工作非常有趣,因为巨型模型扩展问题是众所周知的,并且真的取决于资源。所以你不觉得自己需要成为天才才能制造出新产品,只需进行纯模型扩展。但我认为纯模型扩展并不能解决推理问题。在我看来,推理的定义是能够组合现有的思想以发现一些新的思想。而我认为,要做到这一点,这不是通过简单地要求模型复述互联网上的数据来训练大型语言模型的能力。
我们解决推理问题的方法是回到我们之前讨论的例子,像定理证明。你需要给模型提供一个定理证明环境,让它尝试解决问题,就像人类数学家坐下来思考:“我知道哪些事实是对的?如何将它们组合起来证明我想要证明的东西?”
Harry Stebbings:是模型提供商解决推理问题吗?还是最终的消费者或供应商利用专有数据集来解决推理问题?
David Luan:我认为推理的通用能力需要在模型提供商层面解决。因为你实际上不仅在使用模型进行推理,还在尝试提高模型的推理能力,这意味着模型本身需要改变。
Harry Stebbings:这是否意味着我们不会看到模型的商品化?每个人都在谈论商品化,我们只是在不同模型之间切换。推理是否意味着这实际上不会发生?
David Luan:不,我实际上认为,解决这些推理能力在每个大型语言模型玩家的路线图上。我确实认为不会有那么多大型语言模型玩家。我猜长期稳定状态下大约会有5到7家最大规模的提供商,因为涉及的成本非常高。推理只是这些公司必须解决的另一个昂贵问题。但我认为他们都会解决它,因为我认为解决推理的方法是我们在这个领域中的许多人都非常有信心的。
David Luan:正如我们之前讨论的那样,训练一个基础模型,给它提供解决各种难题的环境,让模型尝试解决这些问题,并结合人类的输入,判断它的表现好坏。我认为这样可以解决问题。
Harry Stebbings:为什么没有人能够解决记忆问题?人们经常谈论这个问题,恕我直言,这让我感到困惑,因为计算机本来就有记忆。为什么在AI中记忆是个挑战?
David Luan:你可以把记忆分为两种:短期工作记忆和长期记忆。我认为人们在短期工作记忆方面取得了很大进展。如果你看看Gemini,情境长度大约是一百万个token,现在可能更多了。我其实不太记得了,可能是一百万个token。它能做的很酷的是,你可以给它看一段视频的片段,然后说:“嘿,把这个人做饭的步骤逐一写下来。”它会做到。这些东西很厉害,已经取得了很大进展,主要是因为计算的原因。
但我认为长期记忆问题,这回到我之前提到的另一个观点,我对模型构建的兴趣稍微小一些,对应用开发者更感兴趣。因为现在大家都在意识到大型语言模型本身不是产品。真正的产品是使用大型语言模型的整个软件系统。例如,我们应该找到让最终应用开发者能够负责如何构建用户偏好长期记忆的方法。我举个例子,假设我正在开发一个消费者旅行助手的公司,我应该能够告诉那个助手:“嘿,我真的讨厌靠过道的座位,因为有一次有人在飞机上把一个行李掉在我头上,我得了脑震荡。永远不要给我订靠过道的座位。”这种长期记忆,我认为应用提供商应该能够在整个系统中处理。
Harry Stebbings:我喜欢这个观点。大型语言模型本身不是产品,你提到会有5到7家核心提供商获胜。是什么区分了赢家和输家?这纯粹是资源和现金的游戏吗?
David Luan:我认为应该把它看成是一个多大程度上需要胜利的游戏,而我认为每个一级云提供商都需要在这里获胜。让我们看看相关动态:随着这些模型变得越来越聪明,它们变成了基本的计算原语。今天,基本的计算原语是EC2上的节点或存储,但将来更多的软件逻辑将由大型语言模型处理。没有人再关心基本计算原语是什么,你只需要访问这些模型并组合它们来为客户解决问题。因此,谁控制模型层,谁就控制所有底层计算资源。如果你在这里没有一个最先进的产品,你就会被排除在这个游戏之外。
我认为对于像Nvidia这样的公司来说,上升到堆栈非常重要。Nvidia现在在芯片方面做得非常出色。但每个主要云提供商和大型语言模型提供商都在努力制定自己的芯片战略,这样他们的利润率会更好。所以最终,如果你是一个开发者或终端用户,与一个提供商的ChatGPT对话,你真的在乎后端是Nvidia芯片还是AMD芯片还是Google的内部芯片吗?你不在乎。因此,界面上的控制权给了你对下游一切事物的巨大影响力。
Harry Stebbings:你认为我们会看到垂直堆栈的所有权吗?我们看到苹果谈论他们自己的芯片是他们新产品发布的一个重要部分。你认为我们会看到Nvidia真正进入模型层并具有显著优势吗?模型层也会进入芯片层并试图从不同的角度抢夺市场吗?
David Luan:这是我的预期。对我来说,从商业角度来看,AI有趣的是,它强迫我们思考哪些公司或产品会整合,哪些会分解。我实际上认为在模型构建者和芯片制造商之间会有很强的垂直整合压力。
Harry Stebbings:能不能详细说明一下?我喜欢芯片这个话题,我们可以在这里讨论一段时间。对这个行业来说,这是近年来最有趣的事情。
David Luan:当然了。我非常喜欢关于芯片的话题。我们可以在这里聊很长时间。这个话题太有趣了,简直是这段时间以来对这个行业发生的最有趣的事情。就像我们刚才谈到的那样,对于模型制造商来说,控制他们的芯片是多么重要。如果这真的是一个规模和资源的游戏,那么如果公司A比如说选择了Google的TPU,而TPU比其他芯片有20%的成本优势,那么Google就能够在模型训练上获得更大的成本优势,从而可以做得更大,投入更多的后期训练技巧,就像我们之前讨论的那些一样,获得优势。因此,公司B就会受到很大的压力,必须找到某种方法来赶上他们。类似地,如果你是一个芯片制造商,如果你没有在模型层面拥有一些东西,你就很容易被这些内部努力所商品化。
Harry Stebbings:当你想到Nvidia及其所做的事情时,你认为它进入模型领域是容易的事吗?是否存在如此复杂的情况,使得这些公司很难从芯片制造商转型为模型提供商?
David Luan:好吧,我认为我们在说的事情是一样的,确实非常困难。Nvidia在做这件事时也面临了巨大的挑战,但如果经济回报足够高,人们还是会去尝试的。我觉得Google的TPU是一个很好的例子。我是Nvidia的超级粉丝,Jensen是一个非常了不起的人,真是一个才华横溢的人。我认为Nvidia在这方面做得非常好。但我们也得承认,TPU团队在我在Google的时候还不到 500 人,他们的预算也非常紧张。然而他们每一代都能设计出相当不错的芯片,后来这些芯片被用于训练Gemini和Palm这样的模型,并且现在也被第三方使用。我觉得Google的这种强烈的意愿去确保他们有自己的第一方芯片是一个很好的反例,证明了芯片的主导地位并不是永恒不变的。
Harry Stebbings:曾经有人跟我说,苹果可能是这个比赛中的黑马,因为他们掌握了消费者和终端设备,可以在每个人的设备上离线运行模型,而不依赖于其他人。你怎么看这个观点?
David Luan:谈到苹果在这个领域的优势,我认为有两个方面的极大力量和影响力。一个是能够在边缘设备上免费运行智能模型,另一个是拥有尽可能最先进的模型。我认为苹果在前者上有巨大的优势。当我们考虑这些优势是否足够时,我认为这是一个非常复杂的问题。我把这看作是模型能力的同心圆。举几个具体的例子,一个十亿参数的模型具备一定的能力,能够在某些任务上表现出色,但在更高层次的任务上就可能表现一般。所以一些基本的能力,比如判断一条推文是积极还是消极,一个小模型就能做到。但那些需要大量推理能力的任务,比如为我的汽车设计一个3D部件,可能就需要像GPT-10这样的模型。因此,我认为苹果在那些注重隐私的小技能任务上会表现得非常出色,这些任务将在边缘设备上运行。
Harry Stebbings:我有点震惊于苹果与OpenAI的合作,特别是他们对这个合作关系的开放态度。他们持续强调,他们实际上会与其他公司保持关系,并且非常开放地表示可以在不同的供应商之间切换。我认为这可能是一个负面的信号,你怎么理解这种情况?
David Luan:我对OpenAI的印象非常深刻。在技术交付方面,我认为GPT-4o的真正科学进展可能比人们意识到的要大得多。我们正朝着一个未来发展,即我们将训练出能够接受任何输入(无论是音频、文本还是视频)并生成任何输出的通用模型。所有人类的知识都将被编码在这些模型中,而GPT-4o已经朝着这个方向迈出了非常重要的一步。
我认为苹果与OpenAI达成这个协议的原因,虽然不清楚具体细节,但我认为其中一个原因是苹果意识到他们在模型进展上与其他公司走的是不同的轨道。同时,这也强烈地暗示了一个被商品化的未来。就像今天作为消费者,我不再关心我的电脑是由AMD还是Intel的CPU驱动的。苹果试图创造一种方式,让他们掌握接口和最终用户,同时把大脑中的大规模语言模型作为一个可以解决的单一问题,这对他们来说是非常聪明的做法。
Harry Stebbings:在基础模型层面上,他们是否只是被买下了?比如说Anthropic和Mistral这些公司筹集了大量资金,几乎是数十亿的规模。你觉得这个层面将会有什么样的发展?
David Luan:我认为接下来会发生的是,所有的顶级云计算公司都会有自己的努力,并且他们必须成功,他们会尽一切努力确保他们拥有足够的资本、数据流动和人才来实现这一目标。对于那些独立的公司,我认为他们要么需要成为这些大云计算公司的一部分,要么在量化之前需要建立一个足够大的经济飞轮,才能维持独立。
Harry Stebbings:要如何建立这样一个巨大的经济飞轮呢?比如说,一个出色的企业市场推广策略能产生 50 亿美元的自由现金流?
David Luan:是的,我认为它需要像这样的大规模经济模型。现在之所以我对除了Adept以外的独立基础模型公司不是那么兴奋,是因为像OpenAI这样的公司有ChatGPT作为助力。而如果你只是一个纯粹的模型供应商,这确实是非常困难的。
Harry Stebbings:这可能是个愚蠢的问题,但我还是要问。你会把Adept视为一个基础模型公司吗?还是说你们并不是这样?你怎么看待你们的定位?
David Luan:我们其实专注于解决一个具体的问题,我们的目标是构建一个可以让用户委托任意工作任务的AI agent。我们的工作是围绕这个目标展开的。我们不是为了将基础模型出售给其他人而训练模型,而是建立一个非常垂直整合的技术栈。回到我们之前讨论的垂直整合会发生在哪里的问题,我认为在agent领域中,拥有从终端用户接口到基础模型层面整个技术栈是非常重要的。就像我们之前谈到的苹果的例子,掌握接口在这个AI时代中可以带来巨大的优势。如何让agent在工作中足够可靠,整个系统如何最大限度地提高性能,这些都是我们要做的事情。这就是我们所做的垂直切片。
Harry Stebbings:你如何看待不同电力行业的agent需求变化?你知道我的意思吗?这个需求是非常不同的。
David Luan:是的,这就是我们的优势所在。你知道,我们经常会被问到这个问题。Adept想要构建一个可以让任何人使用的系统,我们的目标是成为企业工作流程的记录系统。任何一个大公司的员工,我们都会教他们如何使用Adept来完成工作任务。比如说,如何处理保险索赔的数据获取,然后Adept就会为他们完成这些任务。解决这种变化和边际案例的唯一方法就是拥有从模型到用例的垂直整合。这也是我认为我们比那些只关注某一个特定问题的公司做得更好的原因。
我之前和前Twitter CEO Prague聊过。他说每个企业的工作流程都是一个边际案例,他说得非常对。这就是为什么你需要掌控整个过程的原因。
David Luan:他的意思是,即使是像在Salesforce中添加一个新客户这样简单的事情,你也可以去找10家使用Salesforce的公司,看看他们的配置方式,结果发现他们每家的配置都完全不同。
Harry Stebbings:我明白了,再问一个问题,RPA不就是为了这个目的而存在的吗?我和Daniel Dines是朋友,他是UiPath的创始人,真的很了不起。我本以为RPA就是要做到这些事情。你能帮我理解一下传统RPA和今天这种新的agent之间的区别吗?
David Luan:当然可以。这是一个很好的问题。其实这个问题曾经让我很头疼,因为很难向别人解释为什么agent会和RPA不一样。我可以给你一个比喻,RPA 非常适合处理那些高频次且总是相同的任务。比方说,RPA 就像是工厂车间里的机器人,这些机器人沿着地上的黄色线行走,从一个工位到另一个工位,执行固定的任务。
而我们的agent则是需要在每一步都不断地思考、评估和计划,以完成任务目标。这就像是全自动驾驶汽车。两者的效用差别很大。虽然在很多场景中你不希望有太多变动,因此RPA仍然有它的用武之地,但我认为在未来五到十年内,人们会通过给电脑设定高层次的目标来使用这些工具。
David Luan:主要是因为RPA供应商的商业模式和技术栈与构建智能agent的要求差异很大。RPA 主要是处理高频、重复的任务,而agent则需要处理更复杂的、动态变化的任务。因此,虽然RPA和agent可以在不同场景中共存,但RPA供应商很难转型为提供全面agent解决方案的公司。
我认为这对他们的商业模式来说是非常具有颠覆性的。比如说,大公司使用UiPath的方式是,他们会制定一个大规模的流程转型计划。有时候像Accenture这样的公司会来分析这些流程,找出如何优化的方案,然后RPA工程师会根据这些方案来建立工作流程。之后过了六到九个月,这些自动化流程才会开始运行,可能是每天自动处理发票之类的工作。而新的agent模式则是让agent观察最终用户是如何完成工作任务的,然后你可以用自然语言来调用这些agent,这种模式会彻底颠覆现有的商业模式。我认为最有效的方式就是以一种与现有商业模式完全不同的方式来做事情,从而绕过这些现有的竞争者。
David Luan:我们的方法是从那些真正痛点很大的用例开始,这些用例可以帮助我们打开市场。我们关注的重点是如何让终端用户能够教会agent新的能力。比如说,我应该能够将我的标准操作程序导入到Adept中,或者给Adept展示十次,纠正如何在美国的医疗门户网站上注册一名护士,然后这个模型应该能为我完成这些任务。我们正在开发的东西,最终会是一个可以自助服务的系统。
Harry Stebbings:大家都在谈论“我们将销售工作而不是工具”这种说法,感觉这是最热门的观点,按座位收费的时代已经结束,我们都在转向基于使用量的定价模型。你同意这个说法吗?你觉得我们是不是过分强调了“按座位收费的结束”?你如何看待AI可能带来的这种商业模式和定价的根本性变化?
David Luan:我认为在一些领域,这种变化确实会发生。但我实际上觉得在知识工作领域,最有价值的东西不会是按工作量定价的。原因如下:按工作量定价的定义是基于重复性、商品化、千篇一律的工作,没有创造性。但是AI系统,尤其是AI agent,能够赋予人们去做新事物的能力,提供更多时间上的杠杆,并给他们更多的创造性机会。因此,我们构建的东西就像是一个副驾驶(co-pilot)或者队友,副驾驶和队友的价值是基于他们增强你完成新任务的能力来进行衡量的。
Harry Stebbings:你提到了副驾驶的概念。节目中有嘉宾提到,副驾驶和Miles Grims的基准测试会让现有的战略受益,因为副驾驶可以利用现有的分销渠道。你觉得这公平吗?还是说这没有给副驾驶这种方法应有的认可?
David Luan:这两者都可能是对的。如果竞争对手利用副驾驶战略,他们可以在保持现有软件商业模式的同时,融入AI元素。但即便如此,我也认为这些系统最有用的地方是,大家都希望 AI 能够替代所有的工作。按工作量定价只是AI替代工作这一愿景的一个延伸。因为如果你按工作量来定价发票处理,然后下个月再按工作量来定价咨询报告的制作,最终可能会变成AI CEO这样的工作。实际上,我不认为未来会是这样发展的。我认为人类将继续主导这些agent系统,通过这些系统给大家带来更多的创造性机会,而这种机会是无法仅靠副驾驶的方式来实现的。
Harry Stebbings:这种变化会对团队的组织结构产生什么影响?你认为这会导致公司规模变小吗?还是会有什么其他的变化?
David Luan:我认为这种变化主要是会导致一种我从我们的天使投资人Scott Delski那里学到的现象,叫做“人才堆栈的压缩”。他的观点是,项目和团队中同一个人会同时担任产品经理、设计师、工程师、市场推广人员等多重角色。不同技能的结合能让工作更高效,也能使这些工作变得更有效。因此,我认为未来的工作中,人们会变得更加通才,同时监督一群AI副驾驶,他们将是专业领域的专家。
David Luan:这意味着未来的工作会变得更加灵活和高效。团队成员不仅会承担更多的职能,还会通过AI副驾驶来扩展他们的工作范围,从而在各种不同的职能领域中完成更多的工作任务。
Harry Stebbings:我们是否高估了企业对AI的采纳速度?你认为我们现在仍处于企业AI采用的实验阶段,还是已经进入了核心企业的采纳阶段?
David Luan:这是一个很有意思的问题。我觉得我们应该十年后再回顾这个播客,看看我们的看法是否有变化。目前AI的范围非常广泛,就像在互联网早期,我们也很难对整个互联网的发展做出全面的预测。虽然现在有一些用例在企业中已经显示出市场适配性,但大部分企业的工作流程仍然依赖于本地的系统和老旧的主机系统。因此,即便是像云计算这样的技术,从创业公司的角度看也已经很成熟,但在企业中的全面采用仍然在进行中。我认为企业AI的采纳将会是一个长期的过程。
David Luan:我认为大多数情况确实是非常实验性的。比如我们会尽量避免签署那些来自实验预算的交易,因为我们想要的是高质量的收入。
Harry Stebbings:你觉得我们在短期内高估而长期内低估了企业对AI的使用速度了吗?
Harry Stebbings:我最近读了一篇Anna Schultz在CMA Meta上发布的文章,讲述了新技术的炒作周期。他表示他担心AI会像十年前的自动驾驶一样,经历一段被过度炒作的高峰期,然后进入一个似乎没有进展的低谷期。你怎么看待这个问题?你觉得AI会经历类似的高峰和低谷吗?
David Luan:虽然我没有在自动驾驶领域工作过,但我可以尝试用类似的模型来分析一下。我的感觉是,在自动驾驶领域,最初有一个“啊哈时刻”,你能让技术工作,但之后你就会面临如何从60%的成功率提升到99.99999%的挑战。每天你都在解决问题,希望这个技术能够最终达到那个极高的标准。但现在AI的情况不完全是这样。
对我而言,特别是在构建越来越智能的模型和agent系统方面,情况并不是这样。每天我们都有全新的科学问题要解决,这些问题能显著提高模型的性能。虽然有些尝试会失败,但有些尝试则会取得重大进展。例如,像GPT-4的多模态能力突破就是一个明显的进展。我认为,这些技术突破和进展将有助于防止AI成为一个像自动驾驶那样的炒作周期的失败案例。而且,现在的技术已经可以被实际应用,并不需要等到达到某个可靠性标准才能部署。
Harry Stebbings:说到应用部署,我曾在推特上说过,我认为AI服务公司,即那些帮助大企业实施AI的公司,将在收入上超过模型提供商。这一观点最近得到了验证,我也因此受到了一些名人的称赞。你怎么看待在未来五年内AI服务提供商可能成为这个周期中最大赢家的看法?
David Luan:我认为这种观点是正确的。实际上,第三类经济收益的机会还处于早期阶段。这一类机会包括那些将有市场适配性的用例转化为可重复产品的公司。假设你是一个大型公司,面临某种需求,然后你有一个非常智能的基础模型(比如GPT-4或Gemini)。在这种情况下,最早填补这个需求空白的通常是咨询和服务提供商。但当这种空白被填补后,大家会开始将这些有用的解决方案产品化,形成新的创业公司。因此,虽然现在服务提供商可能在收入上领先,但这些服务将最终转化为通用的产品,那些新兴公司会成为真正的经济赢家。
Harry Stebbings:我还有两个担忧,虽然我知道你可能有更多的担忧。首先是关于监管的问题。我很担心我们可能会在数据收集和日常使用的监管上过度反应,从而阻碍模型和AI的进步。你怎么看待这种可能性?你希望在监管环境中看到什么样的变化来帮助我们解决这些问题?
David Luan:我现在主要担心的是监管俘获(Regulatory capture)。就像我们之前讨论的那样,未来只有少数几个前沿模型公司能够维持长期的稳定状态。现在的趋势是有人试图在这些公司之后拉起门槛,阻止其他竞争者进入。我觉得立法者对这项技术的了解非常有限,他们的本能是听从最具“可信度”的声音,而这些声音往往有着其他隐藏的动机。
我的担忧是立法者可能会被那些拥有自己利益的组织所影响,导致不合理的监管措施。这种情况可能会阻碍技术的进步和实际应用。因此,我希望看到的是更加深思熟虑的监管政策,而不是仅仅受到某些利益集团的影响。
David Luan:这会使得整个领域在开源基础上进行创新变得更加困难。新公司很难启动新的AI想法,进行训练和扩展。我认为这会导致权力的进一步集中。
Harry Stebbings:这是我担心的一个方面。你提到了在开源上的创新能力。另一个我担心的问题是,我们之前请过Alex Wang来做客,他认为AI比核武器更强大,特别是AGI,落入错误的手中可能是最致命的武器。因此,他认为我们可能需要更多的封闭系统。你怎么看待开放与封闭的辩论?对于一些最关键的决策AI系统,是否应该采用封闭的方式?
David Luan:我认为有两点需要考虑。首先,关于使用和误用的广泛担忧确实非常重要。我很欣赏大家现在能够更加公开地讨论这些问题。很多这些系统都有明显的误用方式,比如启动大量服务器,利用最先进的代码模型去寻找软件系统的漏洞。如果这种情况已经开始,那它可能会迅速加剧。
同时,AGI是一个非常难以理喻的概念,因为很多人把它定义成一个“无限”的东西。对无限的思考是非常困难的,因为你可以把无限乘以0.0001%仍然是无限。所以,这本身就是一个非常复杂的问题。
我认为一个更好的方法是关注技术在未来五年的发展路径。未来五年内,开源总是会落后于封闭系统。因为开源缺乏资源和激励来推进进展。在这种情况下,开源实际上是让整个领域保持与大公司竞争的方式。因此,我认为开源在这个过程中还是非常重要的。
Harry Stebbings:你提到了AGI是一种“无限”的概念。你之前对我提到,最后一步是人机交互,这是AGI的最后一个组成部分。你能再解释一下这个观点吗?我没太理解这部分内容。
David Luan:我个人认为,如果未来有一种越来越智能的系统在没有人的参与和目标下独立运行,那将是一个我不愿意生活的世界。这也与我们之前谈到的按工作收费和作为软件工具来销售AI的方式有关。我更愿意看到的是一种AI伙伴和助手的世界,我们可以和它们互动。因此,关键问题是如何设计智能AI系统与人类之间的接口,以及如何通过这个接口来收集数据、对齐人类的偏好,以及如何构建这些模型和它们的架构。
目前我们在做的事情是先让模型变得更智能,然后找到合适的应用场景,最后把它们交到人们手中来研究其对人的影响。我认为这是一种非常不理想的技术发展方法。我们应该从人类如何使用这些技术开始思考,然后设计一个端到端的解决方案。因此,我认为人机交互问题非常重要,我们目前并没有花足够的时间去思考如何更好地与这些系统互动。
Harry Stebbings:你提到这不是正确的思考方式。你认为人们应该问哪些问题?他们现在没有问到但应该问的问题是什么?
David Luan:随着这些模型变得越来越智能,它们对世界的了解越来越深入,我们该如何与它们互动?如何监督它们?如何给它们提供反馈,教它们更好地符合我们的需求?这些问题从根本上是如何使用这些系统的问题。
David Luan:当你和同事工作时,互动远不只是来回对话那么简单。你们会一起使用白板,共享计算机上的信息,合作解决问题。人类之间的互动远比仅仅给出一套指令,然后根据反馈不断调整这些指令要丰富得多。随着系统变得越来越智能,这种简单的指令和反馈模式将显得非常不够用。我们需要花更多时间去探索如何建立有效的互动方式。
Harry Stebbings:好了,我问了很多问题。接下来我们进入一个快速问答环节。我会说一个短问题,你给出你的即时反应。怎么样?
David Luan:其实稍微有一点跟我们之前谈到的内容有关。我现在认为agent和聊天机器人会变成两个不同的产品。
David Luan:我认为未来的情况是,我们将会和这些越来越智能的系统进行丰富的互动,这些系统能够代表我们完成各种任务。同时,我们也会有一些系统是为了疗愈或者娱乐目的而存在的。
David Luan:最大的误解是,大家认为AI会在每一步都取代一个人类的能力,完全实现自动化。现在 AGI 的隐含目标是替代人类的工作。但实际上,很多人类的工作是AI不能完全取代的。相反,AI更可能是一个工具,用来提升人类的智能。
Harry Stebbings:你对agent的未来有什么展望?如果一切按计划进行,五年后的agent将会是……
David Luan:五年后的agent将会像一种非侵入性的脑机接口。我们将会经历类似于从DOS命令行到GUI界面的过渡,但这一次是从GUI到agent。我们将以目标为基础与agent互动,agent将帮助我们进行更高层次的思考,提升我们的业务能力,进行更高层次的推理。
Harry Stebbings:如果这个愿景没有实现,你写一篇文章来预判原因,那么最有可能的原因是什么?
David Luan:一个最可能的原因是现有的大公司会在基础设施上形成牢不可破的壁垒。Agent的本质是重新定义软件的组合方式。现在我们有很多功能性的工具,比如 Notion 用于文档,Google Docs用于文档编辑,Salesforce用于销售,Workday用于HR等等。而Agent的目标是打破这些功能上的壁垒,实现跨领域的工作。如果这些公司设立了很多壁垒,这种愿景就很难实现。
Harry Stebbings:这听起来像是一个非常投资者的思维方式,但当你看到像UiPath这样的公司市值达到670亿美元时,你不觉得这可能是一个很大的机会吗?这家公司花了17年甚至更久的时间才达到今天的规模,创造了数十亿的收入。你是一个非常聪明和有雄心的人,感觉这是一个很长的过程,价值捕捉的机会还是非常大的。
David Luan:我认为问题在于,今天有多少工作可以通过RPA来解决?其实非常少。但如果我们看agent能解决的工作量,可能是RPA的1000倍,甚至是10000倍。这是一个完全不同的市场。就像当初自驾车还不存在时,我们不能因为它看起来很复杂就不去做一样。要看到的是这个市场的潜力。
Harry Stebbings:David,我真的很喜欢做这样的节目,感谢你如此精彩的分享。我非常感激你在我缺少笑容的情况下仍然接受了我的采访,这真是太棒了!




