机器翻译作为自然语言处理中最具挑战性的研究课题,其译文质量的水平在很大程度上代表着自然语言处理技术的整体水平。近年来,尤其是2014年神经机器翻译模型提出以后,机器翻译的译文质量得到了显著提升。对于口语翻译而言,在资源较为充分的语言对上(如英汉、日汉、英 法等),在说话场景不是非常复杂、口音基本标 准、语速基本正常、使用词汇和句型不是非常生僻的情况下,日常口语翻译的性能基本可以满足交流的需要。对于专业领域的文本翻译而言,在训练语料较为充分时译文准确率可以达到 75% 以 上。新闻领域的翻译准确率跨度较大,总体而言, 新闻文本的翻译准确率基本在 70% 左右。而对于译文质量要求较高的翻译任务,如领导人的讲话稿或著作、文学名著,以及严肃场景下的演讲和对话(包括领导人的讲话、答记者问,或者有较严重口音的讲座和对话等),机器翻译系统都难以胜任。在可预见的未来看不到机器翻译系统将替代人工翻译的可能性。而对于资源稀少的小语种(如乌尔都语、波斯语等)与汉语之间的翻译, 目前的机器翻译系统只能以快速获取信息为目的帮助人们大致了解原文的主题和内容。
人机对话系统一直是人们关注的热点,也是自然语言处理领域极具代表性的研究任务。对话系统通常包括面向任务的对话系统(task-oriented dialog system)和开放域的对话系统(open-domain dialog system)两大类。前者称为任务型对话系统, 如机票预订系统等;后者称为闲聊式对话系统, 如聊天机器人等。目前学术界研究的对话系统基本都采用数据驱动的方法,尤其端到端的神经网络模型提出之后,几乎成为类似任务实现的统一框架。这类系统的性能在很大程度上取决于训练样本的规模和质量。耐人寻味的是,目前商用的任务型对话系统基本上都采用基于规则的实现方法。对于特定领域和特定任务的对话系统而言, 其任务完成的准确率可以达到75%以上,这对于某些特定的领域或行业,需要大量工作人员完成 的重复性较大的服务任务来说,已经能够大幅度节减人力资源,提高工作效率。
总体而言,自然语言处理已经取得了丰硕成果,新的模型和方法不断被提出,并得到成功应用;很多应用系统已经被广泛使用,并直接服务于社会生活的各个方面。但是,自然语言处理仍面临若干挑战,远没有达到像人一样理解语言的程度。当前面临的主要问题可以概况为如下五点:
(1) 缺乏有效的知识表示和利用手段
这里所说的知识,包括常识、领域知识、专家的经验知识和语言学知识等。对于大多数语言学知识和部分领域知识在一定程度上可以从大规模训练样本中学习到,但是很多常识和专家经验往往是“超出训练样本范围”的。例如,“Premier Li”曾经在很长的一段时间里指代李鹏总理,可是目前应该指李克强总理;“transformers”在政治领域指改革者,在电力系统指变压器,在儿童玩具中指变形金刚,而在自然语言处理领域指转换器。那么,具体指什么,需要根据上下文背景和领域确定。再如,在鸡兔同笼问题求解中,关键常识是鸡有两条腿、兔子有 4 条腿。如果没有 这种常识,这个问题就无法求解。对于人而言, 这些知识都是常备的;而对于机器而言,却难以从样本中(尤其是有限的小规模样本中)归纳学习出来。
(2) 缺乏未知语言现象的处理能力
对于任何一个自然语言处理系统来说,总是会遇到未知的词汇、未知的语言结构和未知的语义表达。所谓“未知”即在训练样本和词典中未曾出现过。世界上任何一种语言都在随着社会的发展而动态的变化和演化着,新的词汇、新的词义和新的句子结构都在不断出现,这些现象在微博、聊天和日常会话等非规范表述中尤为突出。例如,“李菊福”表示的意思是“有理有据使人 信服”;“内牛满面”意思是“泪流满面”;等等。如果系统的前端输入是语音或者图像,语音识别或者OCR处理后的结果中含有大量的噪声,也是十分常见的现象。因此,一个实用的自然语言处理系统必须具有较好的未知语言现象和噪声的处理能力,即鲁棒性(robustness)。
(3) 模型缺乏解释性和“举一反三”能力
尽管包括神经网络方法在内的机器学习方法已经在自然语言处理的各种应用任务和关键技术研发中发挥了重要作用,但是这些方法毕竟采用的是以概率计算为基本手段的“赌博”思维,其性能表现严重依赖于训练样本的质量和规模,当测试样本与训练样本差异较大时,模型性能急剧下降,更无从谈起“举一反三”。从纯粹的自然语言理解角度,目前的模型性能还非常有限,尤其缺乏合理的解释性。对于给定的输入,模型在“黑 箱”变换过程中产生错误和丢失数据的原因是什么?每一层变换意味着什么?最终结果的可靠性有多大?目前还没有合理的解释。
(4) 缺乏交互学习和自主进化的能力
自然语言处理系统在实际使用过程中会持续得到用户的反馈,包括对系统结果的修正、为系统增加新的词汇解释和补充新的标注数据等。传统的机器学习方法是将用户的反馈信息添加到训练数据中,重复进行“训练—测试”循环,以达到不断优化模型的目的。但是这种方法通常需要较长的迭代周期,难以有效利用实时的反馈信息。类比人的交互学习能力,一个智能系统应该具备在线交互学习的能力,即从用户与系统的交互过程中不断学习、补充和修正已有的知识,以达到模型自主进化的效果,而这个学习和进化过程是终生的(life-long learning)。
(5) 单一模态信息处理的局限性
目前的自然语言处理研究通常指以文本为处理对象的研究领域,一般不涉及其他模型信息的处理,例如语音、图像和视频等信息,最多在某些场景下利用语音识别或 OCR 作为前端预处理, 各模块之间是独立的,与语音、图像和视频等信息处理过程是相脱节的,这严重违背了“类人智 能”的基本前提。对于人而言,通常是“眼观六路, 耳听八方”,说出来的话,写出来的字,与看到的实际情况是一致的,而来自各个器官的信息是相互补充和验证的。试想,同样一句话借助不同的语调、重音和手势表达,意思很可能完全不同。因此,多模态信息综合利用、协调处理,势在必行。
另外,在谈论人类语言技术整体现状时,不得不对我国在该领域的迅速崛起给予充分的肯定和赞誉。近 10 年来, 中国的自然语言处理研究发展迅猛,无论是在国际一流学术会议(ACL、 EMNLP、COLING、AAAI、IJCAI、WWW 等 )和期刊上发表的论文数量,还是我国学者在相关国际学术组织中担任重要职务的情况,都无可争辩地标志着我国在这一领域拥有的举足轻重地位和势不可挡的发展趋势。然而,令人遗憾的是, 这一领域在国内却没有得到应有的地位和话语权。