NLP如何助力企业销售场景降本增效 循环智能杨植麟 (nlp怎么用)
雷锋网按:2020 年 8 月 7 日,全球人工智能和机器人峰会(CCF-GAIR 2020)正式开幕。CCF-GAIR 2020 峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。
从 2016 年的学产结合,2017 年的产业落地,2018 年的垂直细分,2019 年的人工智能 40 周年,峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。
在GAIR大会的第三天上午,企业服务专场迎来了循环智能联合创始人杨植麟,为大家带来了精彩纷呈的演讲。
杨植麟的演讲主题为《NLP在企业销售场景的应用与挑战》。他提到, 目前NLP在企业销售场景的应用现状是对话机器人落地最快,销售辅助系统落地最难。 要想解决销售辅助系统落地难的问题,一是要提升技术基础,即深度学习和自然语言处理技术;二要通过先进的工程技术和灵活的产品设计,降低部署成本;三要深入企业内部销售流程的业务实践。
杨植麟表示,当前企业销售场景的一大痛点是随着销售业务和产品的动态变化,语义标签也需要频繁调整,但语义点的标注成本居高不下。除了技术能力,突破坐席辅助系统的前提是洞悉销售与客户的沟通过程与结果之间的关系。通过分析沟通过程与结果之间的关系,就能知道某一场景下讲到某部分内容有助于成单。
他还提到了AI辅助销售沟通和营收增长的全流程应用,包括线索筛选、坐席辅助、执行监督、销售对练。
以下为杨植麟的现场演讲内容,雷锋网作了不改变原意的编辑及整理:
大家好,非常荣幸参加这个活动,先从一个故事讲起。2018年的夏天我到谷歌实习,实习前,推荐我的学长跟我说,你到谷歌有一两千个TPU可以用,你想想这个暑假要干什么。我整天辗转反侧,难以入眠,因为我在学校只能用10个GPU,那我能用这么多的TPU做什么。当时在NLP领域是没有答案的,即使给你再多计算资源,也没有人知道如何才能在NLP领域取得更大的突破。但是从2018年至今,NLP领域经历了一个非常大的变化,从Transformer、ELMO、BERT、XLNet、GPT-3等模型,完成了一系列突破性的转变,解锁了很多真实的应用场景。我今天就想分享下在企业销售场景的应用,会发现以前做不到的场景、做不到的效果,现在可以完成和实现更好的效果和解锁新的场景。
我先介绍一下循环智能这个公司,创始团队来自于清华大学和CMU,之前在谷歌、Facebook、微软等公司做过前沿的研究,获得了红杉资本等机构的融资,主要业务是开展企业服务,通过帮助企业提升销售过程中的效率,以此提升整体的业绩和销售转化率,服务目标主要是中大型销售/客服中心的客户。
在这个场景的应用主要分成两类:
第一类是替代人的工作,就是现在落地比较好的对话机器人。 对话机器人分为几种,如外呼机器人、文本机器人等。这部分机器人做的事情,从附加值来说是比较低的,因为它相对来说是低重复、低社交的工作,比如回访、收集信息等偏简单的任务。
还有一类是在营销链条里高社交、低重复的部分,称为销售辅助。 在销售全流程当中,你要做很艰难且非常重要的决策,包括筛选线索、给用户推荐产品,要知道什么时候用什么话术,这在销售流程里面具备极高的附加值。这部分的技术难度非常高,一直没有被突破。我们看到新的预训练、语音识别的提升技术带来突破后,可以在这些场景进行解锁。
之前销售辅助为什么没有得到很好的应用?主要是面临以下几个挑战:一是如何得到高准确率的语音识别;二是语义理解如何做到高准确和高召回率;三是如何通过性能优化做到低延时和高并发;四是通过降低运营成本,使得边际成本降下来,并进行快速配置。
首先是语音识别。 语音识别在很多场景得以落地,但在电话、在线的语音系统里,由于采样率和各种延时要求的影响,目前还有很多问题尚待解决。
2019年,我们提出了Transformer-XL模型, 一开始应用于序列建模上,作为自然语言处理的任务,后来创新性地用到语音识别,这在行业里面是属于首次。它跟传统的语音识别模型不同之处在于,现在不再需要把声学模型和语言模型拆分,就可以提升端到端优化、快速部署的能力。
这个是我们在真实的商业银行的落地测试案例,可以发现对于领域数据的拟合能力会远远超过传统RNN/CNN+CTC的效果,可以达到超过90%的准确率。这在低采样率、低延时的实时呼叫中心的 语音识别问题上,是一个比较好的成绩。
其次是语义理解。 这个在辅助场景中更难落地,因为在人与人沟通过程当中涉及更高级的话术,更多用户的意图,而不仅仅是机器人场景中做一些简单的回访或问题采集。这时需要更准确的语义理解。
在语义理解方面使用了我们自研的XLNet模型, 发表在2019年7月,在20项任务上的表现超过了BERT,在18项取得了SOTA第二的成绩。发表了不到一年里引用量超过1000,是2019年NLP研究中全球引用量最高的paper。在实际落地时,我们对这个模型做了进一步的优化和提升,就有了随后XLNet-2的落地。
它结合了传统两大自然语言建模阵营的优点:第一个阵营是自编码,主要做的事情是对输入加噪声,试图重现;第二种是自回归,预测序列未来会发生什么事情。
这是真实的案例,XLNet在语义点上它有2-10倍的提升,一方面是召回率,另一方面是准确率,得到更多的样本情况下,准确率是更高的,找到符合想要的语义的意思。
第三个方面是性能优化。 性能优化是多维度的算法和工程相结合的问题,比如说在呼叫中心里面就要实时地识别客户的意图和话术推荐,需要对并发和延迟有非常高的要求。经过优化,现在可以做到在1万块钱的GPU上并发100路,单卡有8卡无CPU瓶颈,接近线性加速。这在两年前是几乎不可能的,当时我们评估下来的成本是有几百万,但经过我们后来的一系列技术优化,现在1万块钱可以支持100路,假设我是几千人的呼叫中心,这个成本也是相当低的。
另一方面,可以做到端到端极低的转写延迟。 来自两个层面:一是算法的优化。可以重用在历史的片断和结果,使得实时语音转写时不需要重新计算,这个可以大幅度降低转写的成本。二是在工程上,不管从数据调度还是底层JIT Inference,都做了大量的优化来降低速度,使得系统能够在远低于市场平均水平做到低延时、高并发的转写。
第四个方面,也是非常关键的问题,如何降低部署和运维的成本。
举一个保险行业的例子,推出新业务时,就需要调整和配置新的话术,但此时都需要收集和生产标注成本,这个中间的成本非常高。我们看到交付客户时,供应商需要有10个人团队在客户那边驻厂,客户也需要有5个人全职配置这个东西。这就很难规模化,边际成本非常高,就很难用SaaS的商业模式运行。为了满足这个诉求,我们就必须去最大限度降低标注和生产的边际成本。
为此,我们采用了一系列的技术优化,包括ActiveLearning、Multi-Task Learning、预训练等技术降低标注成本、提升标注效率,我们现在能通过非常低的成本生产新的语音标签。 比如,使用ActiveLearning可以砍掉80%的标注,原来100个,现在只需要20个标注就能完成同样的效果。以前是10个人,现在就砍成1-2个人,业务也不需要专门的团队负责,就可以实时配置。
最近有一些新的模型出现,比如说大家关注的GPT-3,其中基于少样本学习的能力,可以扩大模型和数据的量级,从而提升效果。
另外一个角度,从场景化方面,如何基于预训练模式,通过对场景化的算法优化,在特定场景下用很少的标记数据也能做到。这是我们最近的新工作,通过在类的表征空间里优化少样本学习的效率,使得比世界级的研究机构更好的水平。这个是我们仅仅标注样本的情况下,就能做到80%的表现。
刚刚说的是技术能力,包括语言识别、语义理解、如何降低部署和运营成本。 除此之外,还需要对这个场景有更深刻的理解,才能真正让AI去赋能和提升销售的转化率,这就需要打通沟通的过程和沟通的结果。
沟通的过程,如何做信息的传递和价值的传递,传统的做法是让销售运营去配置很多的策略、写很多模板等。这里会有两个问题:一是完全基于人工的先验规则,从来没有经过数据验证,也不知道这样做到底好不好;二是也不知道销售到底是不是这样做的,所有的会话数据对于销售主管来说,就是一个黑盒子,之前没有任何技术手段可以洞察和了解这个过程当中到底发生了什么,到底是不是我想的这样。
我们要做的事情是打通沟通过程和结果之间的桥梁,用数据驱动的方式寻找沟通过程中与沟通结果相结合的环节,以完成效率的提升。
比如在教育行业,我们通过数据驱动的方式找到最优的流程,再结合业务的知识,连接过程的结果。比如了解说这里不同的话术之间,对于成单率的影响是多少。
具备了刚刚说的条件,第一个条件是顶尖的技术,足够解锁这些应用的技术;第二个是要有行业的know-how,要知道过程和结果是如何连接,有了两个之后就能打造营收-增长的闭环。 闭环有三个节点:首先对销售过程进行洞察和分析;然后通过分析的结果,提升销售的能力;除了提升销售能力之外,还给销售进行辅助和指导。通过形成这样的闭环,去整体来提升销售的业绩。
在这个闭环中可以打造很多不同的应用,包括做线索的筛选、实时辅助的系统、执行力监督、销售的培训。这些长在闭环上的应用,就依托于以上提及核心的技术,以及对沟通过程和结果的连接。
第一个应用是线索评分。
我们在销售流程里会有两种不同的线索:一是公函线索;二是私函线索。公函线索有一个特点,它是历史上有跟进和沟通过程,但最后没有转化的线索。这些线索存在最大问题是跟进效率比较低,很多时候我们只是用人工简单的策略找到想要跟进的线索。通过这样的手工策略是很难判断,需要精确筛选哪些是高意向线索,才能大幅度提升销售效率。私函线索也是一样的问题,私函有几百个线索,由于人的精力是有限的,如何合理分配精力,把重点的精力和最高标准的流程用到最先优先级的客户,提升线索转化率的关键节点。我们会结合客户历史的沟通数据、客户历史的行为、画像,通过中间的AI模型的pipeline来预测意向度,做产品推荐和预测业务相关的指标,以此提升销售的效率。
以保险行业为例,我们最终实现成单率提升2.68倍,每通通时提升1.62倍。将不同方法在不同行业、不同客户进行验证,最终验证公函成单率提升2-3倍以上。这是通过刚刚一套技术方法论能显著地提升销售业绩。
第二个是坐席辅助系统。
在我们了解到沟通过程对结果产生影响之后,机器就能在沟通过程当中对坐席进行实时的辅助,实时辅助也是基于刚刚说的低延时、高准确的核心AI能力来打造的。另外,过程和结果之间怎么打通?我们要基于数百万小时的行业语音数据,从里面挖掘、提取和验证中间有哪些话术和流程。有些需要摆脱模板的思维,不是人工专家定义了这样的模板效果就会更好,而是通过数据驱动和生成模型相结合,去真正做到结果和过程的关联。
实际的落地案例就有两个主要效果:一是针对销售的新人。销售行业的新人流失率非常高,销售新人的业绩就会成为瓶颈。发现用了这个东西之后,新人业绩可以增长更快。二是对全体的坐席。有的销售坐席工作司龄有一定年限,但是实际上能力还是有很多可以提升的地方,跟公司的销冠比起来有很多可以提升的内容。这时我们把(支持给到)销售行业里的销冠,转移到那些可能有很大提升空间的人身上,从而帮助整个团队提升效率和团队业绩。
光做实时辅助还不够,现在销售管理非常大的痛点,就是只知道结果,而不知道过程,不知道到底团队的问题在哪里。 这时就需要通过AI的标签和整套画像体系来分析到底最需要关注哪些坐席和快速定位一些问题。借助执行力监督系统,我们把问题定位和管理效率提升到原来的800%以上。
总结一下,我们希望打造完整的解决方案,不光是在低附加值的场景替代人,不光是通过机器人节省成本,而是通过一整套的销售决策、辅助系统,来全流程地用AI赋能,真正做到高附加值上提升业绩。对于一个企业来说,大部分情况下,提升业绩的价值会远远大于替代人力节省成本的价值。
这个是我们完整的架构,从底层上会做很多技术优化,包括少样本学习、快速推理、可解释的预测、主动的学习、话术的挖掘,以此支持上面全流程的销售的决策的应用,来达到提升销售转化率和销售效率的结果。
我们目前服务的行业主要集中在金融、保险、教育等行业。
我今天的演讲就到此,谢谢大家。
会后,杨植麟接受了雷锋网的专访,以下为Q&A环节。
问:从去年到现在的一年时间里,您主要做了哪些工作呢?无论是从研究上还是从产品的落地上,有没有哪些彻底推翻的一些想法,或者说验证过的正确的一些理论?
答: 我觉得很重要的一个方向是去降低部署交付的成本。 很多时候传统SaaS模式为什么成立,是因为它的边际成本非常低,基本上所有的客户都在云上,用同一个软件去交付不同的客户。所以新来一个客户,边际成本特别低。但是AI在这个场景中不完全成立,因为一是很多大客户需要私有化部署,二是对于新的公司,语义标签是需要重新标注,它交付上的边际成本会比较高,会导致整个行业的利润率就没有那么高。
我刚才说它的交付成本产生有两个原因:一个是私有化部署,还有很多定制的需求,第二个是说去边际的标注成本。为此我们分别从产品和技术两方面去解决,一方面提供通用API、智能模块的封装,更加微服务化,更加支持二次开发和灵活定制,这其实就相当于把标准产品和项目解决方案结合起来。
其次是降低AI的边际成本, 我们会去做预训练模型,包括像XLNet、主动学习、多任务学习、小样本学习,其实都是为了去解决这样的一个问题。
这两个方面我觉得是我可能是最近很长一段时间比较最关注的问题。
问:行业场景上的落地是当下非常关注的这样一个话题,循环智能也是致力于用自然语言处理技术为企业销售提供服务,从落地的角度,在这一年你们最大的进展有哪些?或者是在哪些环节上取得了一个大幅度的提升,是否符合您的预期?
答:我觉得进展还是很大的,尤其是在打通销售的过程和结果方面。因为以前其实对话过程完全是个黑盒子,没有人有能力或者意识去分析这个数据,找到中间到底是哪些要素是跟结果是关联的。NLP就是去做了这样一件事情,比如可以把历史上所有会话的记录,不管是文本还是语音,通过结构化处理,跟结果做映射,这样就可以解锁很多场景,包括实时辅助、对话机器人、执行力监督等。
问:教育金融互联网行业目前是循环智能最主要的几大落地的行业,从这些行业里你们发现了怎样的用户诉求的特征,这对于你们试图利用NLP技术改善行业里面的销售流程,或者是销售人员沟通方面有怎样的一个帮助?
答: 我觉得最大的诉求就是不仅要做到降本,而且要做到增效。
从2017年至今,大部分的应用主要还是在对话机器人,能做的事情主要就是替代人,降低人力成本,但它没有办法做到业绩的提升。相比之下,人力成本的降低跟业绩的提升,边际利润是非常少的。对于整个产业来讲,提升也非常有限,只是让更多的人失业了。
我觉得增效还是很重要,最后导致的结果就是会提升整体的业绩,这也是当下企业最大的诉求。增效诉求怎么来的?是因为很多流量现在越来越贵,企业只能去增效,所有的资源都要去最大化地应用。现在刚好出现了这一波技术新要素,能够通过Transformer、预训练等真正做到绩效的提升。
对我们来讲,我们现在也很注重对价值的衡量。不管是去做线索的打分,还是去做实时辅助,我们现在都会去严格做很多ABtest,然后结果量化产品到底能带来多少价值。我觉得这个是企业最关注的事情,而且是一个我们很大的实践经验。
问:疫情给你们带来了哪些机遇和挑战呢?在新基建的推动下,循环智能又打算扮演一个怎样的角色?
答:先说挑战,挑战就是我觉得影响可能是暂时的,之前会有一定影响,整个行业对外的IT采购没有跑那么快,很多客户的流程会受到影响,但我们现在方案都基本上已经恢复了。
机遇的话,我觉得主要是很多数据采集会更加完善,我们其实是非常依赖于数据的采集,而所有行业转型都要先经过数字化,再去做智能化。
我们现在发现,很多行业其实没有数字化这个过程,没有数据,AI就基本上什么都做不了。我觉得疫情促使了很多事情去往线上走,线上化势必会带来一个结果就是,现在有更多数据能够被采集起来,所以从长期来看,我觉得对我们是一个利好,当然它可能需要一定的周期。
注:自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。