雷锋网按:7月12日-7月14日,第四届全球人工智能与机器人峰会(CCF-GAIR)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
周明博士在CCF-GAIR会议上从什么是自然语言处理(NLP)、当前技术体系以及未来发展等角度,解读了NLP未来发展之路。我们来看。
大家下午好!今天非常荣幸来到CCF-GRIR大会,今天下午这个论坛非常有意义,讲的是中国人工智能四十周年纪念活动。
我是年在哈工大开始从事机器翻译研究的,到现在也已经有30多年了,经历了规则、统计和神经网络的三个阶段。回想过去真是感慨万千,当时可以说是筚路蓝缕,没有什么东西,但是大家有一番热情,要把中国自然语言、机器翻译、人工智能推到世界的前沿。
中国人工智能开始于年到今天转眼过去40年了。回首看一下我们的自然语言处理进展到什么程度了?我们未来的路在哪里?这就是我今天要给大家介绍的。
过去40年,自然语言基本上经历了从规则到统计,到现在的神经网络。相比过去,目前可以说是自然语言处理最黄金的时期,在很多领域都取得了突破性的进展。但我们审慎地看到神经网络自然语言处理过度依赖计算资源和数据,在建模、推理和解释方面还存在许多的不足。因此我们想问一下,这种模式是否可以持续?在未来的3到5年,NLP如何发展?
为了回答这个问题,我想把神经网络自然语言处理的技术在这里捋一遍,有哪些关键的技术点,存在哪些不足,我们未来又如何发展。我的观点是:NLP未来的发展需要计算、数据、技术、人才、合作、应用等各个方面长期协同发展。
一、什么叫自然语言处理?
什么叫自然语言处理?自然语言处理就是用计算机对人类语言进行处理,使得计算机具备人类的听、说、读、写能力,它是未来人工智能技术最为关键的核心之一。比尔·盖茨说过,“自然语言处理是人工智能皇冠上的明珠,如果我们能够推进自然语言处理,就可以再造一个微软。”
难度:把NLP看作人工智能皇冠上的明珠,其难度可想而知。来看下面这个例子:
词完全一样,意义截然相反。人在理解的时候有常识,有背景,所以能够理解;可电脑没有常识、没有背景,只是根据字面来处理,因此它理解的都是一样的。这就是自然语言处理的难处。
历史:自然语言处理随着计算机的出现而出现,最早是做规则的系统,后面做统计的系统,现在做神经网络的系统。咱们中国的自然语言出现一点也不晚,建国之初就有人开始做俄汉机器翻译系统,后面又有人做英汉机器翻译系统。我个人也有幸亲历和见证了机器翻译的发展。我在哈工大的读研时候(导师李生教授,年),从事中英机器翻译研究,所研制的CEMT系统是中国最早通过正式鉴定的中英机器翻译系统(年)。后来我在日本高电社领导研发了中日机器翻译产品J-北京(年)。我年加入微软之后先后从事了基于实例和基于统计机器翻译研究,最近几年我们做神经机器翻译研究。
可以说中国的自然语言处理是与世界的发展同步的。目前我可以很负责任地说,咱们中国的自然语言处理总体来讲位居世界第二,仅次美国。为什么能有这么好的发展?得益于中国40年改革开放,得益于各大公司和很多学校的合作,尤其值得指出的是微软研究院与相关学校的合作影响深远。同时也得益于包括CCF在内的各个学会过去几十年在NLP领域深耕,举办学术会议(NLPCC最近进入CCF-国际会议列表)和各类暑期学校和讲习班,促进学校、企业、公司各个单位合作,并推动研究协同式、平台式发展。
定位:人工智能就是用电脑来实现人类独具的智能。使得电脑能听、会说、理解语言、会思考、解决问题、会创造。具体概括来讲包括:运算智能、感知智能、认知智能和创造智能。运算智能就是记忆和计算的能力。这一点计算机已经远远超过人类。而感知智能就是电脑感知环境的能力,包括听觉,视觉,触觉等等。相当于人类的耳朵、眼睛和手。认知智能包括语言理解、知识和推理。创造智能体现对未见过、未发生事物,运用经验,通过想象力、设计、实验、验证并予以实现的智力过程。目前随着感知智能的大幅度进步,人们的焦点逐渐转向了认知智能。其中语言智能,也就是自然语言理解,则被认为是皇冠上的明珠。一旦有突破,则会大幅度推动认知智能,并提高人工智能的技术,并促进在很多重要场景落地。
过去几年,由于数据越来越多,出现各种测试集;算法越来越复杂、越来越先进,包括神经网络的架构、预训练模型等等;计算能力越来越高,在这三大因素的作用下,自然语言处理得到了飞速的发展。
微软在四个NLP典型任务取得了突破性的进展。第一个是聊天机器人,我们中、日、英三种语言的聊天机器人均能达到跟人自由聊天23轮以上,目前在世界上是最好的。还有我们的阅读理解技术、机器翻译技术和语法检查系统,在目前的测试集下都居世界领先水平,而且在相应的测试集下都突破了人类的标注水平。
自然语言有很多的应用,像我们每天都用的输入法、词典、翻译,以及我们跟中科院合作的手语翻译、必应的语音助手、小冰,还有自然语言的文本生成,对联、诗词、猜谜、音乐等等。
二、技术体系
我给大家捋一下神经网络自然语言处理的技术体系。
首先是词的编码。词编码的目的是用多维向量来表征词的语义。怎么做呢?著名的方法有两个,一个是CBOW((ContinuousBag-of-Words),用周围的词预测当前的词;另一个是Skip-gram,用当前的词预测周围的词。通过大规模的学习训练,就可以得到每个词稳定的多维向量,作为它的语义表示。
有了词的语义表示,我们就可以进而生成句子的语义表示,也叫句子的编码。一般通过RNN(循环神经网络)或者CNN(卷积神经网络)来做。RNN从左到右对句子进行建模,每个词对应一个隐状态,该引状态代表了从句首到当前词的语义信息,句尾的状态就代表了全句的信息。CNN从理论上分别进行词嵌入+位置嵌入+卷积,加上一个向量表示,对应句子的语义。
基于这样的表征,我们就可以做编码、解码机制。比如说我们可以用图上的红点,它代表全句的语义信息,来进行解码,可以从一种语言翻译成另一种语言,凡是从一个序列串变成另外一个序列串都可以通过编码、解码机制来运行。
随后又引入了注意力模型。它综合考量了在当前状态下对应的编码的每一个隐状态,加权平均,来体现当前的动态输入。这类技术引入之后,神经网络机器翻译就得到了飞速的发展。
后面又引入了Transformer。Transformer引入了自编码,一个词跟周围的词建立相似,引入多头,可以引入多种特征表达,所以编码效果或者编码的信息更加丰富。
现在大家都在追捧预训练模型。它有几个方法,第一个是ELMo,从左到右对句子编码,也可以从右到左对句子编码,每一层对应的节点并起来,就形成了当前这个词在上下文的语义表示。用的时候就用这个语义加上词本身的词嵌入,来做后续的任务,性能便得到相应的提高。
还有去年10月份比较火的BERT。它用左边、右边的信息来预测最外部的词的信息,同时它也可以判断下一句是真的下一句还是伪造的下一句,用两种方式对句子每一个词进行编码,得到的训练结果就表征了这个词在上下文中的语义表示。基于这样的语义表示,就可以判断两个句子的关系,比如说是不是附属关系,判断一个句子的分类(例如QA中,判断回答对应的边界是不是对应提问),以及对输入的每一个词做一个标注,结果就得到一个词性标注。
预训练模型引起了很多人的
转载请注明:http://www.0431gb208.com/sjslczl/4721.html