向量数据库将进入蓝海时代 对话腾讯云 大模型愈发火热 (数据库 向量化)

文章编号:41542 资讯动态 2024-12-03 腾讯云大模型向量数据库

向量数据库已经成为除大模型之外的又一热词。

众所周知,数据是构建大模型的三大要素之一,所以从一定程度上来说,向量数据库能突破大模型在时间和空间上的限制,为企业利用数据价值带来更多的帮助。

也有人形象比喻道,大模型是人的“大脑”,向量数据库就像“海马体”一样,能够为大模型提供“长期记忆”。

谈到向量数据库,还要从大模型说起。

目前对于大模型业界有两种声音:一种认为大模型会吞噬着现有的资源,吞噬我们的岗位,这种声音表达了对大模型的担忧和恐惧。另一种则对大模型充满期待,认为大模型会带来新的技术变革,进而提升社会生产力。

其实从现在来看,这两种声音都没有对错。

对此,腾讯云数据库副总经理罗云表示,腾讯云团队一定意义上也关心第一种声音,很可能会成为第一波被替换的程序员。在这种情况下担忧是解决不了问题的,我们经常激励自己要有更大的勇气迎接大模型,迎接这个新时代的到来。

在他看来,大模型相当一个智能处理器,有了它之后,不需要大量的程序员编写程序调用底层GPU,用自然语言就可以和大模型交互,让大模型为我所用,从而释放更大的生产力。技术侧,随着大模型这个智能处理器的普及,算力的使用方式也会发生变化。

大模型之于社会、之于企业、之于个人的意义早已不言而喻,但在其带来红利的同时,也会在一定程度上加剧企业之间的竞争,而竞争的焦点就是数据。

用罗云的话讲,谁能够更好的利用数据,更好的把数据沉淀到自己的工程里,更好的让数据接入到大模型和整个AI体系谁就有可能走在最前列。

罗云把数据竞争核心归结为以下两点:

一是,大模型如何更好的管理企业产生的非结构化数据,目前企业产生的数据80%是非结构化的,我们通常会选择通过预训练的方式把数据沉淀到大模型中,让大模型变得无所不知,但是与之而来的是高昂的成本问题。

二是,如何保障企业数据的私密性,数据在空间和时间上会有很大的限制,一方面企业很难把自己具有核心竞争力的数据放到大模型中去训练,另一方面数据很难做到秒、天级别的更新。这时候我们向量数据库其实就变得非常重要,要去弥补大模型在时间上和空间上的限制。

为了解决以上问题,企业的处理方式是通过向量化的方式把非结构化的数据存储到向量数据库中。以数据更新的时效性为例,假如我们想要了解一周股市的变化,以现在通用大模型或者行业大模型的发展情况来看,是很难快速的更新一周的内容的。

但有了向量数据库后,企业可以先把一周的新闻通过Embedding的方式存到他们自有的向量数据库中,有客户问问题时,它会从向量数据库中检索到与问题相关的新闻,拿到检索结果后做一个提示词的工程化处理,最后传递给大模型完成最后的推理生成答案。

通过观察发现,有了向量数据库,企业有了更好运用数据,特别是覆盖80%的非结构化数据的能力,一定意义上向量数据库更像是企业数据和大模型之间的桥梁。

向量数据库之于大模型的意义已经逐渐显现,但腾讯云也有自己的思考。

罗云表示,数据、向量数据库、大模型三者怎么能更好地服务全行业是首要问题,为此,腾讯云也重新定义了AI Native的开发范式,提供了接入层、计算层、存储层的全面AI化解决方案,使用户在使用向量数据库的全生命周期,都能应用到AI能力。

对话:大模型愈发火热,向量数据库将进入蓝海时代

其中,接入层,腾讯云向量数据库支持自然语言文本的输入,同时采用“标量+向量”的查询方式,支持全内存索引;计算层,AI Native开发范式能实现全量数据AI计算,一站解决企业在搭建私域知识库时的文本切分(segment)、向量化(embedding)等难题;存储层,腾讯云向量数据库支持数据智能存储分布,让企业存储成本降低50%。

了解到,目前腾讯云向量数据库已经在 QQ 浏览器、腾讯视频、腾讯游戏、QQ 音乐、搜狗输入法等 30 + 业务场景中应用,并自研了分布式向量数据库核心引擎 Olama,原名 ElasticFaiss。

并且罗云还透露道,腾讯云向量数据库会作为一个独立的产品在腾讯云官网进行售卖,当然也有和其他产品一起售卖的可能,二者并不冲突。

谈到Olama,其实早在2019年腾讯云就开始了该技术的探索至今已经有4年时间里。但现在腾讯云给 Olama的定位是腾讯云向量数据库的底座之一,向量数据库在Olama的基础之上还有很多丰富的能力。

通过四年时间的发展,腾讯云对Olama也做了大量的改进,其一,向量索引的算法方面,把现在业界优秀的向量算法集成进来,包括腾讯内部自研的先进的向量数据算法也会集成进来;其二,降低Olama的成本,提升稳定性;其三更加自动化智能化的对外提供服务。

对于是否会针对不同行业提供差异化服务?

罗云给出了否定的回复。他表示,腾讯云的向量数据库是一个标准的平台型产品,这是非常确定的。

对于是否能服务全行业,罗云则认为,二者没有很强的因果关系,核心还要看哪些行业和AI的结合,更早、更快。

同时,他也给出了三个有代表性的方向:

随着大模型火热程度的持续攀升,向量数据库的号角呀即将吹响,正如罗云所言,如果你看好大模型,那你一定会看好向量数据库。

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
国家林业和草原局政府网

国家林业和草原局政府网(www.forestry.gov.cn)是国家林业和草原局官方网站,2000年建成,具备政务信息公开、网上在线办事、公众互动交流和综合信息服务功能,具有简体版和英文版2种版本,是具有权威性和广泛影响的中国林草行业门户网站。

企业信用网

企业信用网,企信网是绿盾征信江西赣州企业信用商务信息服务共享平台,为消费,贷款,赊销,招标,出租,保险,供应,采购,加盟,代理,应聘等信息使用者提供便利,助守信企业一路畅通.

晋中吧

晋中吧,晋中吧-晋中贴吧

顿之升网络

顿之升网络-高端网站建设-河南顿之升网络科技有限公司

采样器

启东市科威石化机械设备制造有限公司专业生产采样器,混合器,管道混合器,汽水混合器,静态混合器,过滤器,管道过滤器,消音器等产品,联系电话:0513-83223588

深圳物流公司

联合物流是提倡优质服务理念的专线物流公司,专注于中港物流领域,以深圳物流、荔湾物流、越秀物流、海珠物流、天河物流、白云物流、黄埔物流、番禺物流、花都物流、南沙物流、从化物流、增城物流为核心,致力于为客户提供优质高效的货物运输服务。

常州永航防水工程有限公司

永航房屋防水维修公司是一家拥有国家贰级资质专业从事防水、补漏工程、施工,室内外防水,防腐,保温的企业。公司拥有一批高、中级技术职称的专业技术人员和管理人员,高素质的施工服务队伍,有二十多年专业从事防水、补漏、施工的工作经验,对新旧屋面、地下室、卫生间、厨房、伸缩缝、裂缝、内外墙等各部位的防水补漏工程施工,多年来积累了丰富的施工经验,总结了一整套传统与现代工艺相结合的防水补漏的方法,能针对不同情况正确选材合理施工。

国际教育学院

上海海事大学-国际教育学院

中电华建环境系统技术(无锡)有限公司

中电华建环境系统技术(无锡)有限公司依托中国电子信息产业和中石化工建设系统强大的技术、业务和管理优势而成立的工程技术公司。工业环境治理是我们的持续稳定的经营业务,工业废气治理、工业污水集中处理、中水回用、纯水处理事业板块是支撑中电华建公司持续发展的重要的事业载体。

河南吉泰集团有限公司

河南吉泰集团有限公司经营范围:污水处理及其再生利用;自来水的生产和供应;市政公共设施管理;城市基础设施建设;城市绿化管理;投资与资产管理;土地整理;育种和育苗;房地产开发经营;工程管理服务。

全局底部横幅