人人都能成为AI应用开发者吗 智能体到来 (人人都能成为蜘蛛侠)
初夏的深圳国际会展中心,在人影攒动的热烈氛围中迎来了一场百度AI的大阅兵,李彦宏以及多位百度重要业务负责人在Create 2024百度AI开发者大会上,向所有关注百度产品和AI技术的人秀出了最新实力。
去年三月份,百度文心一言发布;随后十月份的百度世界大会上,王海峰解读了文心大模型4.0的技术创新。一年来,文心大模型发展情况如何,是否有了新的突破,成为了人们关注的重点。
王海峰是这场阅兵仪式上最重要的人之一。现在人们渴望从这位百度AI的领航人口中,了解百度这家中国人工智能的领头雁,进展到了什么阶段。
如果这篇文章可以用一句话总结,那就是,在这场大会上,AI能力终于可以成为人手必备的能力了。
从思考到执行,智能体是什么?
自2023年3月16日文心一言发布以来,百度不断迭代升级文心大模型,技术创新不断,从知识增强、检索增强,进一步发展出知识点增强;基于更大的算力、更多的数据和更强的算法,依托飞桨平台,从文心3.0、3.5,到4.0,文心大模型能力愈加强大,效果和性能全面提升。
这些介绍未免过于泛泛而谈,具体增强了哪些能力,以实际产品和应用效果来谈更通俗易懂。
最显著、也最让人能体会到科幻感的一个变量,就是智能体。本来这就已经是一个热门话题,这次大会,又让人实实在在感受到了智能体的威力。
所谓智能体,就是能够理解、规划、反思和进化,让机器像人一样思考和行动,可以自主完成复杂任务,在环境中持续学习、实现自我迭代和进化。
从这个定义上来看,智能体的思考模式就已经和生物大脑同频了。而百度还将这一过程白盒化,让用户能够清楚看到,每一次输入需求后,大模型是怎么理解的,又是如何经过思考调用工具来完成任务的。
王海峰也在会上展示了一个这样一个案例。在文心大模型 4.0 工具版上输入,“我要到大湾区出差一周,想了解一下天气变化,请帮我查一下未来一周北京和深圳的温度,告诉我出差应该在什么衣服并整理成表格。”
如果有一个人类助理收到了这样的请求,思考路径就会是,先查询了解天气情况和温度,据此判断合适的着装应该是哪些,最后汇总成一个表格。
而案例中的智能体,也正是遵循了这样一个思考过程。第一步是调用高级联网工具来查询天气,第二步是调用代码解释器挂出温度趋势图,第三步选择合适的衣物,最后对结果进行思考确认,输出表格。
对于人类来说,做出判断很简单,麻烦之处在于不停地查询和记录。但是对于大模型来说,最麻烦的地方,是如何让大模型从一个步骤进行到另一个步骤。
从理解规划,再到行为决策,最后调用多个工具完成任务,百度的智能体展示了非同一般的增强学习能力。
这正是文心大模型4.0工具版最令普通用户感到惊喜的功能。一些简单的决策工作,比如查询航班找机票、安排日程做规划之类的小事情,都能直接告诉文心一言,让它给出一个决策意见。
简单的几句话,就能节省大量的人工操作,这就是智能体的意义。
模型自己写代码,程序员没有门槛了吗?
查询天气、航班等等,都可以统归到信息处理一类,这些还是大模型的自然语言能力的延伸。我们在日常生活中需要的,远远不只是信息处理,有时候还需要智能体帮我们执行一些具体的工作。
比如查询完行程和机票信息后,我们希望大模型能自动帮我们下单一张机票;做好个人财务规划之后,我们希望大模型能自然帮我们购买符合我们自己需求的理财产品。
购买行为就是一次执行。那怎么让大模型帮我们去做执行呢?
过去的人机互动模式,都是人类将需求转化为指令,再将指令翻译成计算机可以理解的“语言”,驱动计算机去做各种事情。做人与计算机之间的翻译官,这就是程序员在这个时代的伟大意义。
编程是一门显学,不过有能力写代码的程序员毕竟是少数人,对于不会写代码的人,王海峰带领团队进行的工作或许提供了一条新路径,代码智能体。
思考模型加上代码解释器,二者合一,构成了代码智能体。
代码智能体就是在完成思考完成后,把完成任务的指令和相关信息整合成提示,输入给代码解释器,翻译成可供执行的代码,完成用户更个性化的需求。代码智能体的认知能力不容小觑。思考模型会对代码解释器的执行结果进行反思确认,如果正确,就把结果返回给用户,不正确还能继续进行自主迭代更新。
文心大模型经过万亿级的数据训练,不仅包含了丰富的自然语言数据,还涵盖了各种类型的代码数据,所以可以将自然语言与代码能力融会贯通,打通了从思考到执行的过程。
王海峰带来了一个简单的展示案例,如何为每一位前来参加百度Create大会的嘉宾定制邀请函。
对于一个成熟的设计师来说,这份工作非常简单,重复性也比较高,做起来浪费时间,代码智能体就能够理解需求,识别邀请函模板内容后,自动生成代码,将嘉宾姓名写到合适的位置。
我们常常怀疑,大模型有了代码能力,会不会取代程序员?但实际上,大模型能够写代码,覆盖的是那些简单的工作,真正重要的研发,还是需要专业程序员的智慧。大模型能做的,是把他们从繁重的重复劳动中解放出来。
作为首席技术官,王海峰对于程序员工作中的烦恼也是感触颇深。他提到,在实际工作中,很多程序员都有过接手代码的经历,需要从头分析和理解整个工程代码,非常耗时耗力,而文心大模型推出的智能代码助手Comate就可以在其中提供帮助。
Comate这个词,蕴含了百度工程师们对于智能代码助手的期待——成为程序员的AI同侪。
Comate能够接手所有低效耗时的繁琐工作,只要一条简单的指令,就可以快速了解整个代码架构,包括模块、功能、具体实现逻辑等等,进一步自动生成新代码,比私人助理还要快捷方便。
文心大模型的代码能力,既能够降低普通人开发应用的门槛,也能够降低程序员的工作量,从某种意义上来说,它提升了人机交互的效率。
大模型是最佳解决方案吗?
这场“阅兵仪式”的最后一个重头戏是多模型。
一个通用大模型虽然功能强大,但并不是解决所有问题的最佳答案。这次大会上百度发布了对大模型压缩蒸馏后、再用数据训练出来的三个轻量模型,ERNIE Speed、Lite、Tiny,针对不同的应用场景去做匹配。
做小模型的逻辑是,在大模型应用落地的过程中,效果、效率和成本都很重要,而在实际应用中,需要从场景需求出发,选择最适合的模型。
王海峰现场分享了多模型技术。一方面,是高效低成本的模型生产;另一方面,是多模型推理。
高效低成本模型生产方面,百度研制了大小模型协同的训练机制,可以有效进行知识继承,高效生产高质量小模型,也可以利用小模型实现对比增强,帮助大模型的训练。
同时,百度建设了种子模型矩阵,数据提质与增强机制,以及从预训练、精调对齐、模型压缩到推理部署的配套工具链。
高效低成本模型生产机制,助力应用速度更快、成本更低、效果更好。
多模型推理方面,百度研制了基于反馈学习的端到端多模型推理技术,构建了智能路由模型,进行端到端反馈学习,充分发挥不同模型处理不同任务的能力,达到效果、效率和成本的最佳平衡。
同等尺寸下,效果明显更好,同等效果下,成本明显更低。这就是多模型带来的新变革。
结语
除了智能体、代码和多模型技术,文心大模型在其他方面也持续创新,包括基于模型反馈闭环的数据体系、基于自反馈增强的大模型对齐技术,以及多模态技术等。王海峰现场公布,文心大模型4.0的效果持续提升,发布后的半年时间,又提升了52.5%。
文心大模型的持续快速进化,得益于百度在芯片、框架、模型和应用上的全栈布局,尤其是飞桨深度学习平台和文心的联合优化。文心大模型的周均训练有效率达到98.8%,相比一年前文心一言发布时,训练效率提升到当时的5.1倍,推理105倍。截至目前,飞桨文心生态已凝聚1295万开发者,服务24.4万家企事业单位,基于飞桨和文心创建89.5万个模型。
人人都渴望AGI时代的到来,但是不知道AGI什么时候才能到来。说一句话,就让机器人为我们做一系列工作,这不就是科幻世界中频繁出现的场景吗?
现在,文心一言累计用户规模已达2亿,日均调用量也达到了2亿,高效满足了用户工作、生活和学习需求。
而这些成绩可能很快就要被刷新,因为智能体的出现大大扩展了AI的场景、代码助手又降低了开发者的门槛,多模型技术,为大量开发者、企业提升了效率,降低了成本。
王海峰谈到了百度AI人才计划的最新进展,百度在2020年提出了5年为全社会培养500万AI人才,目前这一目标已提前达成。
有鉴于过去一年,百度为了弥合普通人与AI技术之间的认知、能力、应用鸿沟所做出的努力,可以预见到,未来将会有更多的AI人才,将会从大模型的研究和开发中扬帆起航。()
原创文章,未经授权禁止转载。详情见 转载须知 。