声网发布 AI 能力全景图 时代的 RTE RTE2024 RTE AI 聚焦Gen (声网xla)

文章编号:36156 资讯动态 2024-11-30 AIMiniMax生成式AIRTE

10月25日,由声网和 RTE 开发者社区联合主办的 RTE2024 第十届实时互联网大会在北京正式开幕,本届大会主题为“AI 爱”,覆盖AI、出海、社交泛娱乐、IoT、Voice AI、空间计算等20+行业及技术分论坛。

今年是声网成立的十周年,也是 RTE 大会的第十届。十年间,实时互动从“理念”发展成一个“行业”。实时互动技术不仅助力社交泛娱乐、在线教育、IoT、企业服务等几十个行业、数百个场景实现了跨越式成长,也支撑了诸多互联网风口的进化,从过去的电商直播、互联网医疗、秀场直播到如今的大模型,都离不开 RTE 能力的参与。

在全新的生成式AI 时代,RTE 与 AI 也将迎来更多可能性。25日上午的 RTE2024 主论坛中, 声网创始人兼 CEO 赵斌、Lepton AI 创始人兼 CEO 贾扬清、声网首席科学家、CTO 钟声分别带来主题演讲 。赵斌分享了声网十年以来专注实时互动行业的深刻洞察,以及他对 RTE 在生成式 AI 时代下未来发展的趋势判断。贾扬清则站在 AI 基础设施的视角下,分享了他对 AI 应用、云、和 GPU 算力云技术的独到观点。钟声的主题演讲聚焦在对实时 AI 基础设施的探讨上,并分享了 AI 与 RTE 结合的前沿技术实践。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

赵斌:生成式AI 将驱动 IT 行业四大变革

生成式AI 正在驱动 IT 行业发生大变革,赵斌认为,这一趋势主要体现在四个层面:终端、软件、云和人机界面。在终端上,大模型能力将驱动 PC 和 Phone 往 AI PC 和 AI Phone 的方向进化。在软件上,所有的软件都可以、也将会通过大模型重新实现,并从 Software with AI 发展至 AI Native Software 。在云的层面,所有云都需要具备对大模型训练和推理的能力,AI Native Cloud 将成为主流。此外,人机界面的主流交互方式也将从键盘、鼠标、触屏变成自然语言对话界面(LUI)。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

随着生成式AI 成为下个时代 IT 行业进化的主题,RTE 也成为了多模态应用和基础设施中一个关键的部分。10月初,声网的兄弟公司 Agora 作为语音 API 合作者,出现在了OpenAI 发布的 Realtime API 公开测试版中。

在此次大会中,赵斌表示,声网与 MiniMax正在打磨中国第一个Realtime API。赵斌也展示了声网基于 MiniMax Realtime API 打造的人工智能体。在展示视频中,人与智能体轻松流畅的进行实时语音对话。当人类打断智能体并提出新的疑问时,智能体也能够灵敏的快速反应,实现了与人类自然流畅的对话。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

在生成式AI 的大潮下,RTE 将会提供更为广阔的空间。赵斌也在分享中宣布,声网正式发布了 RTE+AI 能力全景图。在全景图中,声网从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度,清晰呈现了当下 RTE 与 AI 相结合的技术能力与应用方案。生成式 AI 与RTE 结合带来的场景创新,将成为下一个十年的主题。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

过去十年,声网不仅见证并推动了RTE 从一个理念变成一个行业的过程,更身体力行的打破了国内实时音视频领域的三无状态。赵斌称,10年前行业内没有行业会议、专业书籍、以及专业媒体和社区。如今,RTE 大会迈入第10年,声网也于今年8月正式出版行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》,同时,RTE开发者社区也持续繁荣,加速推动。

贾扬清:AI 是云的第三次浪潮

随着AI 技术的发展,AI 时代的大模型应用开发、AI 云、以及 GPU 等基础设施建设逐渐成为热门话题,也成为了支撑整个行业发展、催生新应用诞生、新商业价值实现的基本底座。Lepton AI 创始人兼 CEO 贾扬清在 RTE2024 主论坛上分别从 AI 应用、云、GPU 算力云技术以及企业大模型自主性等层面带来了他对 AI 基础设施进化的解读。

针对AI 应用,贾扬清指出,越是简洁的 AI 模型思路越容易产生优秀的效果。AI 能力加持后,应用本身的开发范式也在从数据、模型、应用构建三个维度发生变化,未来的应用开发将从“以流程为中心” 转化为“以模型为中心”。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

除了AI 应用层面,传统的云架构也在大模型、GPU 优化等需求的催化下发生了翻天覆地的变化。贾扬清认为,AI 是云的第三次浪潮,继 Web 云、数据云之后,AI 将成为第三朵云。AI 云有以下三个特征:算力会成为智能的基础、AI 云需要大量计算与大规模的异构集群,以及少量但高质量的通讯。总体而言,云的产品形态,本质是计算和传输的平衡。贾扬清指出,在 AI 云的形态下,实时的交流和智能的结合在用户体验环节非常重要。毫不夸张的说,实时将直接与生产力划上等号。

企业在构建自己的大模型自主性上,到底该如何决策?贾扬清强调,企业应该将开源和闭源大模型都纳入考虑范畴。采用开源模型+定制化的优势不仅仅是具备更强的可定制性,还有更低的成本以及更高的速度,开源+定制化能够达到比闭源模型更好的效果。

钟声:分布式端边云结合的AI系统将成为现代基础设施的基本形态

在已经到来的AI 时代,现代化基础设施应该是什么样?声网首席科学家、CTO钟声提到,大量用户设备往往会先接入边缘节点、并在需要的时候再接入云端,数据将在端设备、边缘节点和云之间往返传递。AI 时代的数据中心会包含以大量异构算力组成的超级计算集群(SuperSCAler)。但是,停留在仅依赖超级计算集群的系统是远远不够的,万亿参数、多模态引入所造成的高昂计算成本、缺乏机制约束的数据隐私保护、几秒钟的延时都将阻碍大模型的普惠,极大地限制其在很多场景下的应用。

钟声认为,分布式端边云结合的AI 系统将有效解决这些痛点。这个系统将把计算和传输在各节点做合理地配置,系统会智能地以自适应的方式把任务编排到端与边上执行,非常有效地降低了成本,同时提供了更低延时(低于1秒级的响应速度)、更高网络抖动容忍度、优秀的抗噪声能力,并且完整的用户数据只会保留在端上。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

分享过程中,钟声还在大会现场展示了一个由STT、LLM、TTS 、RTC四个模块组成的端边结合实时对话AI智能体,这也是首次有厂商在比日常实际场景更具挑战的环境下展示实时AI 对话能力。大会现场观众规模超过千人,面临复杂的噪声、回声、麦克风延迟等困难,但智能体与钟声的互动仍然表现出了优秀的对话能力,在普通5G网络环境下实现了流畅、自然、有趣的双向实时对话,对话模型的极快响应速度、及时打断与被打断的自然程度、对抗噪声能力、遵循语音指令做等待能力都非常突出。

正如钟声在最后分享的,随着端设备的多样化以及能力的提升,AI 基础设施会变得更优化合理,使得 AI 无处不在,AI助理、AI分身帮助我们有效缓解时间稀缺性,改善工作效率和生活体验。

圆桌:AI 的6000亿难题,从基础设施到商业化落地

AI 的6000亿美元难题,一直都是整个行业非常关心的话题,在圆桌讨论环节中, Lepton AI 创始人兼 CEO 贾扬清、MiniMax 合伙人魏伟、面壁智能联合创始人&CTO 曾国洋、Hugging Face 工程师王铁震、Agora 联合创始人 Tony WANg 五位嘉宾一起探讨了从AI 基础设施到 AI 商业化落地的机会与挑战。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

针对商用大模型和开源大模型未来的发展趋势,贾扬清分享了两个核心观点:其一,同等质量模型的Size会变得越来越小,计算效率会越来越高,模型架构也会变得更加开放和标准。其二,除了极少数头部公司之外,越来越多的企业会采用开源架构来做下一代模型。因此,开源架构的应用会变的越来越普遍,通过开源架构训练出来的模型也都会有各自不同的风格。

王铁震则表示,我们将在未来看到越来越多Infra 和 Realtime 的工作,大家不仅需要关注开源模型本身,还需要重视开源模型的基础设施和数据闭环,才能把开源模型跑得更好、更快。Realtime 需要TTS、也需要大模型,如果能够通过一些方式放在一起,放在边缘侧、离用户更近的地方,才能产生较好的效果。

关于如何看待音视频多模态模型的实际应用潜力,魏伟表示,随着多模态的出现,生成式人工智能的边界一定会被继续拓展,并加速这一产业的变革。从产品和用户服务过程中魏伟发现,文本、语音、音乐、视频这些模型可以帮助艺术、影视、音乐等领域的创作者极大地提高效率,并为他们提供新的思路和方法。

针对大模型技术巨大的成本使用问题,曾国洋分享到,随着技术的前进,算力一定会变得越来越便宜,相同能力的模型规模也会变得越来越小,但算力成本优化会最终转化为训练更强大的模型。真正达到AGI 水平之前,我们只能感受到模型在变得越来越强,很难感受到成本的变化。了解到,由于面壁智能是做端侧模型的,所以很关注如何让模型在端上跑得更快,在实际部署过程中,他们会用各种量化压缩甚至是稀疏化方法去优化实际部署的开销。

总结来说,Tony Wang 认为想要推动 AI Infra 到模型、再到商业化落地,技术驱动和成本是最核心的两个点。此外,在产品真正走向市场的过程中,流量和口碑也是关键。

过去十年,声网不仅见证并推动了RTE 从一个理念变成一个行业的过程,更身体力行的打破了国内实时音视频领域无行业会议、无专业书籍、无专业媒体及社区的三无状态。自此,RTE 大会迈入第10年,行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》于今年8月正式出版,RTE开发者社区也正在秉持着“开放、连接、共创” 的理念加速实时互动和 AI 的共生。

未来,声网将继续和大家一起,站在全新的起点、拥抱繁荣且充满挑战的AI + RTE 新时代。

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
泰测科技

成都泰测科技有限公司是业内卓越的自动化监测综合解决方案及设备供应商,主要提供水库自动化安全监测、桥梁结构健康监测、城市内涝安全监测、隧道安全监测、尾矿库安全监测、基坑安全监测、高大支护模板安全监测、地质灾害安全监测及爆破安全监测等自动化监测产品、方案及监测项目服务。

街坊咡快街拍集市

咡快是居家生活社区服务平台,为街坊提供美食、批零、折扣、果蔬、肉菜、游玩、交友爱好群、住家、家政便民、养护维修、亲子、丽人、养老、宠物、二手换物、租房、养车、找工、兼职、培训、商务等信息咨询服务。

过滤器

新乡市佳洁宝滤器有限公司是专业生产滤芯、贺德克滤芯、颇尔滤芯、液压油滤芯等一系列的国外替代滤芯为主的企业。公司依托中国过滤之乡,走专业化道路,针对以贺德克滤芯、颇尔滤芯、液压油滤芯等为主的国外替代滤芯和一些国标滤芯进行系统全面的整合,以便更专业地服务社会,满足广大客户需求。联系电话0373-2618876

离子交换树脂

汇珠科技(上海)有限公司是国内专业研究开发、应用、技术服务、OEM为一体树脂企业。公司主要产品有离子交换树脂,阳离子交换树脂,阴离子交换树脂,吸附树脂,抛光树脂等产品。电话:021-59936779

仕诺涂料,上海仕诺涂料有限公司,仕诺涂料,上海柏伦涂料有限公司

仕诺涂料长期致力于建筑漆和涂料色浆在中国市场的广泛应用和发展,重视自主知识产权的高新产品的研发,并以先进的制漆工艺和崇高的企业声誉闻名业界。

易紧通紧固件网

164580谐音“要螺丝,我帮您”,帮您实现小螺丝的大梦想。专业的标准紧固件、非标紧固件、塑料螺丝、钢丝螺套、不锈钢螺丝采购平台。

上海老杜农业发展股份有限公司

高德地图,DIY地图,自己制作地图,生成自己的高德地图

武汉长江通信产业集团股份有限公司网站

武汉长江通信产业集团股份有限公司网站长江通信面向智慧城市建设,聚焦智慧交通领域,以北斗高精度定位、AI图像视频识别、大数据等技术为核心,提供软硬件产品、解决方案和工程服务,产品和服务主要包括北斗应用、智慧交管、智慧交运、智慧城市应用四大板块。公司自主研发的车辆在线监控系统、高速公路智能交通防控平台、公安交管云哨一体化作战平台、城市非机动车管理平台等产品为交通管理、城市综合治理提供了技术保障。

山东章威生物科技有限公司

山东章威生物科技有限公司是除臭剂生产厂家,专业生产销售植物除臭剂、生物除臭剂,垃圾除臭剂,喷淋塔用除臭剂、水体除臭剂,养殖除臭剂,除甲醛剂,生物抑尘剂,杨柳飞絮抑制剂,化学除味剂,生物菌剂,湿润性抑尘剂,泡沫型抑尘剂,结壳型抑尘剂

光学测量产品电子测量产品

联景光电科技(北京)有限公司是联景实业发展有限公司在北京的子公司。联景实业有限公司成立于2005年,成立于中国香港。

全局底部横幅