到行业中去 从场景中来 科大讯飞认知智能 (来到行业的所感所悟)
导语:关键技术顶天,行业认知立地。当打破了实验室和现实的隔阂之后,技术不再局限于自身,而是和广大的外部场景做关联,最终成就了科大讯飞AI技术能够迅速从研发到规模化落地的能力。
自然语言处理(NLP)一直是人工智能渴望攻克的难题。
直到2006年,来自上世纪末的互联网时代累积的大量电子化的文本数据,以及深度学习的加持,终于让机器翻译乃至自然语言处理,走上了快车道。
深度学习秉承统计方法的概率传统,不同的是,它基本不需要做特征工程,而特征工程需要大量的专家知识。
但盛志超发现,即便是十几年后的现在,将基于深度学习技术的NLP应用进行落地时,他们也必须抛弃对技术的执念,回归行业的专家知识。
这是他在科大讯飞钻研NLP技术8年来,最珍贵的经验。
2011年从复旦大学毕业后,盛志超在一家创业公司做NLP的研究,经过两年多的实践积累,他希望寻找更大的平台用科技创造真正的社会价值。而彼时的科大讯飞,也凭借刚刚发布的讯飞输入法和语音云而在人工智能语音领域小有名气。因着语音合成技术中前端文本韵律预测和文本关联的契机,早已开始了NLP的涉足和探索,并且已经在语音交互和机器翻译上有所实践。
渴望用科技创造真正社会价值的人选择了一家希冀“用人工智能建设美好世界”的公司,一切都如此顺理成章。
黎明前夜,转型成了必由之路
NLP 的历史几乎跟计算机和人工智能(AI)的历史一样长。而由于其天然具有实现人与计算机之间用自然语言进行有效沟通的桥梁属性,也就带来一个非常有趣的现象,那就是在开始探索感知智能的时候也总会连同认知智能一起被牵涉其中。
这种现象在科大讯飞也得到了演绎。
语音合成技术中,前端的文本韵律预测,就和文本关联很大。所以科大讯飞在成立初期开始语音探索时便涉足NLP领域,不过早期局限于文本预测、语音识别的语言模型和文本检索等内容。
2005年,科大讯飞成立AI研究院,正式将NLP与语音合成、评测和识别作为核心研究方向。
由此,科大讯飞NLP在落地方面的尝试便开始在跌跌撞撞中一路行进。
2005年语音测评技术已经基本成熟,普通话测试系统通过了国家语委鉴定;语音合成技术也在2008年首次超过普通人说话水平,并连续多年在国际英文语音合成大赛中夺冠。
然而包括知识图谱、语义检索、短信分类、文字客服在内的多个方向,由于技术不够成熟,迁移成本太高,基于文本方向的技术落地大多以失败告终。
“那个时候大家其实是立足于技术去思考匹配它未来可能使用的场景,慢慢地就发现这条路特别难走。” 这段艰难探索经历所复盘出的经验教训,也在后来实践中确切印证,也许是时候颠倒一下这种思维模式了。
既然“拿着萝卜去找坑”不奏效,那倒不如反其道而行。
一个基于实际业务场景和需求去反向倒逼技术打磨的思维开始逆转当前的坎坷局面。
2014年,基于编码器-解码器结构的神经机器翻译模型诞生,机器翻译正式进入了深度学习的时代。
同年,科大讯飞AI研究院首席科学家魏思敏锐觉察到,未来公司内部要想在业界形成自己的技术优势,必须要形成数据+模型的双轮驱动模式,而深度学习正是这一模式成功的关键。
刚刚入职不久的盛志超,迎来了科大讯NLP技术发展的重要转折点,这一次,他亲历其中。2015年年初,盛志超所在的NLP认知群组建起“7人攻坚团队”,拉开了科大讯飞在NLP领域应用深度学习的大幕:他们首先检索了市场上所有与之相关的论文,并分成了几个不同的“Paper reading”小组,分头研究不同的方向,之后再互相讲解代码,同时动手尝试复现论文中的模型、算法等。
就这样“7人攻坚团队”成功将深度学习应用于NLP技术,并很快在公司范围内推广开来。
“当时我们的探索是走在很多高校和同行之前的”,回忆这段经历,盛志超说,团队彼此的信任、凝聚力和共同的决心是他们成功不可或缺的因素。时至今日,当初的 7人小组成员也早已成为科大讯飞不同业务方向的核心骨干。
应用深度学习和基于场景倒逼技术打磨的思维转变,科大讯飞的NLP终于要从黎明前夜得见破晓来临。
2、从场景中来,到行业中去
许多优秀演员在塑造角色的时候,经常在前期去到角色真实的工作或生活场景中去“体验生活”,在表演时力求达到忘我境界。
这种塑造方式淳朴而又难能可贵,却和盛志超在落地NLP时的路径相通。
2014年9月,刚刚入职10天的盛志超被派到科大讯飞北京研究院,参与语文作文评阅的技术研发和落地工作。
作文评阅分为评分和批改两个方向,评分就是给文档判定一个分数,批改则需要根据文章中的语法使用是否正确、句式表达是否高级、内容是否符合主旨要求等维度进行综合评定。
前者技术相对简单,后者因为涉及认知问题则更为复杂。
如大家所知,小初高到大学,不同学习阶段对高级表达和词汇的定义标准差异巨大,所以在具体批改的时候也需要根据各学习阶段的具体情况来具体“定义”。
正像盛志超所说,“评阅技术不但是要评分也要给出合理的反馈,必须基于场景知识做模块化处理,逐层拆解之后,才能给出相对科学的评分和用户学习想要的反馈结果。”
“讯飞智学网刚刚上线的时候,作文评阅技术还是翻车出了异常。”盛志超说,这是他毕生难忘的经历。
当时学校要求一场考试覆盖1000个人,并且不能有一个人的评阅出现错误,但深度学习和传统的机器学习都是统计意义上的模型,考虑的都是整体的概率,不会兼顾到每个学生的情况。
于是,状况出现了。
英文作文的试卷开头都会给出一段引言,要求学生续写,而机器把引言当成了需要评阅的作答内容,其中一份作文即便是白卷也给了分数。试卷评分是一个非常严肃的事,这样的失误所影响的考试客观公平性,不管是老师层面还是盛志超自己都觉得是不可弥补的。
而反观其后,这次落地失败的根源还是在于我们关注的指标和用户实际场景关注的指标不一致。
这之后盛志超和团队开始长期频繁地“体验学习生活”,和老师、学生、家长这些每一个与学习相关的关键角色去沟通交流,尝试全面而真实地理解和定义在教育领域每一个细枝末节的需求问题。
“想要真的做好教育领域的认知落地,首先要忘记自己原来的身份,成为一名学生、家长或者老师”。
盛志超说的这个思路恰与当年张三丰传授张无忌太极武功时的要义如出一辙:“太极拳只重其义,不重其招。你忘记所有的招式,就练成太极拳了。”
2016年,盛志超及团队终于成功将作文评阅技术应用到高考和中考里面,这也是国内首次在大规模正规考试中使用教育评测技术。
如果说这个只是解决了教育某一个特定“场景”的问题,那此后的“因材施教和个性化学习”则证明了科大讯飞在教育领域深耕的决心。
2020年初,盛志超回归教育开始攻关难度更高的因材施教的个性化学习方向。
盛志超坦言,自己也曾是学生,在学校度过二十多年的时光,即便作为学习的佼佼者他也依然无法总结出自己所谓的经验给到其他求学者以参考。这背后的原因或许不是一句简单的“毕竟适合每个人的学习方法是不一样的”可以总结概括的。
或许它更指向一个数千年前就萌生的美好理想:“因材施教,有教无类”。我们追寻了千年,而现在盛志超和团队正在一步步靠近它。
一个结合学习者的知识水平,为其提供定制化的动态教学策略的个性化方案开始了“减负增效”的使命。
以题目推荐为例,广大师生都非常推崇的“题海战术”,就此可以找到“有效刷题”的解法。这背后涉及到了认知诊断、深度学习、知识图谱等一系列的技术集合。
参照著名心理学家维果茨基提出的“最近发展区理论”,个性化推题激发学生“潜能”的逻辑理解起来就很简单:在现有水平上为学生推荐的学习题型,既不会太难,产生畏难情绪,也不会太简单,浪费过多的时间,用盛志超的话来说就是“跳一跳就能够得着”的学习资源。
但是想要精准定位到每个学生“跳一跳就能够得着”的学习资源并非易事,这需要通过知识图谱对学生的认知方式进行建模。
科大讯飞早有知识图谱技术积淀。从2013年开始投入研发,2016年获得国际知识图谱构建大赛NIST TAC (KBP2016) 第一名,如今讯飞的知识图谱技术已经积累了7年。
这张图展示了一个学生的认知建模案例,其中红色是掌握较差的知识点,黄色是掌握一般的知识点,绿色是掌握较好的知识点。
学生立足于绿色知识点,然后先学黄色知识点、再学红色知识点,这就构成了每个学生独特的学习路径。这种循序渐进的方式,不仅提高了学习效率,也可以真正做到因人而异、因材施教。
深入场景和行业的方法论在教育领域得到了最佳验证,可以预见,人工智能对生产生活的改变也将不断涌现,甚至那些不曾找到破题思路的重大历史命题,或许也会在人工智能领域找到新解。
3、重大历史命题的破题新解
但是,由于教育、医疗、司法这些关联民生刚需的重大历史命题本身就是多个复杂问题的集合,所以人工智能即便能够给出解法,那也一定不再依赖于单一技术,必须是复杂系统的合力。
“就拿教育的AI学习机来说,这个里面就涉及到了语音交互和评测、图文识别、认知理解、知识图谱、多维度学情画像等一系列的相关技术。” 盛志超说的不假,除了上文中我们已经提到的个性化学习环节中的认知诊断、知识图谱,一个普通学习链路的完成,远比想象中复杂:
一个学生通过AI学习机把做完的作业进行拍照上传,图文识别技术把照片进行曲面矫正、画面降噪等处理后即可对布满印刷体和手写体甚至是公式的作业进行识别;此后NLP等技术开始针对问题以及文本中提到的信息去自行推断答案和批改;而对于做错的题目,基于知识图谱的技术可以针对其所涵盖的知识点去进行最近发展区相关练习题型的推荐。
创新链条上各个关键技术深度融合,串联打通了一个体系化的学习链路。
倘若我们向前追溯,会发现关键技术深度融合也需要至关重要的底层基建——单点核心技术突破并跨越应用鸿沟。
我们或许可以从多语种交互的实践中印证这个结论。
当前,语音已成为万物互联时代人机交互的关键入口,语音输入、语音搜索、语音交互等技术已经成为手机、车载、玩具等智能产品的标配。另一方面,“一带一路”国家战略的建设依赖语言互通,多语种翻译技术价值凸显。但是要将多语种的智能语音语言技术做到实用水平,并没有那么容易。
不同语言独特的语言现象十分复杂、小语种语言分析研究的积累和投入不足、训练数据稀缺……这些客观存在的难题就摆在眼前。
大家选择了迎难而上、各个击破。
数据方面,科大讯飞研发了基于人机协同的多语种数据标注平台;算法方面,重点开展了多语种端到端统一建模框架、无监督/弱监督训练,以及语音/图片翻译多任务协同优化等方向的研究;研发训练效率优化方面,则构建了多语种模型自动训练及定制优化平台,以推动多语种系统的批量研发,解决人工耗时耗力的问题。
这些努力终于迎来了反馈。2021年10月26日,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列权威多语言理解评测XTREME(由谷歌举办,旨在全面考察模型的多语言理解与跨语言迁移能力)榜首,四个赛道中获得三项最好成绩。而后11月10日,国际低资源多语种语音识别竞赛OpenASR落下帷幕,科大讯飞-中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得第一名的成绩。
从单点的核心技术效果上取得突破,跨过应用门槛,再到把创新链条上各个关键技术进行深度融合,“系统性创新”却仍没有形成严格意义上的闭环。
毕竟解决问题的方法路径虽然拨开迷雾逐渐清晰,但是“要解决什么问题”才是困扰这些科学家们的难题本源。
教育、医疗、司法、城市生态,每一个词语都无比厚重,一时间竟也无法用某几个词来总结和概括清楚其背后所牵连出的问题核心所谓何物:不管是教育的“减负增效”、“因材施教”、“资源均衡”,还是医疗的“医疗水平”、“就医体验”······
这些重大系统性命题到科学问题的转化,也许正回归了NLP或者说是认知智能的本真—— 定义问题 。
“360行行行有专家,如何把各个行业的问题和知识特色定义好,怎么样形成一个框架把模型能够不断复制应用到各个行业”,这是盛志超和团队面临的挑战,也是科大讯飞未来继续突破的关键。
当重大系统性命题到科学问题的转化能力愈加强劲,单点的核心技术不断突破后深度融合、有机串联,系统性创新也就真正可以成为宏大历史命题的破题新解。
4、无限拓宽的神经网络
我们曾经在对话科大讯飞AI研究院CV群的时候,将科大讯飞比喻为一个很宽、很深的生成式神经网络。
一个典型的生成式神经网络包括了输入层、编码层、输出层,对于一个AI企业而言,输入是AI三要素:算力、数据、算法,输出是技术和产品,编码层则是企业的组织方式和技术方法论,以及企业的人才。
在《不一样的科大讯飞,他们把计算机视觉踢进“世界杯”》这篇文章中,我们了解了科大讯飞对人才的重视,以及独特的组织方式。
研究院设立的3个研究方向——CV方向、认知方向、语音方向,相互独立,又深度融合,为优秀的人才提供了平等、开放的交流平台,让他们得以锻炼自身、发挥潜力、博采众长。
但这只解开了科大讯飞这个神经网络的编码层的一半秘密,另一半秘密,也许可以从盛志超和团队在NLP落地路径上一窥究竟:不管是当初势在必行的转型之路,还是后来在教育、医疗等场景领域的打磨,一切核心都是在做一件事儿,那就是定义并建立对不同行业的真正认知。
认知行业和定义问题,使得科大讯飞在选择方向时不受自身行动能力的限制,进而无限拓宽了科大讯飞这个神经网络的宽度。
关键技术顶天,行业认知立地,当打破了实验室和现实的隔阂之后,技术不再局限于自身,而是和广大的外部场景做关联,最终成就了科大讯飞AI技术能够迅速从研发到规模化落地的能力。我们也就有理由相信,“用人工智能建设美好世界”的使命绝不是纸上谈兵。
原创文章,未经授权禁止转载。详情见 转载须知 。