861 阅读 2020-08-03 10:03:02 上传
以下文章来源于 十分语言学
第十三章 计算语言学研究70年
第五节 深度学习时期
进入21世纪以来,高性能计算和海量数据为人工智能的崛起提供了引擎和燃料,深度学习已经在图像和语音领域取得了空前的进展。随后,深度学习的热潮也席卷了计算语言学。随着word2vec(Mikolov, T., Chen, K., Corrado, G., et al., 2013, “Efficient estimation of word representations in vector space”. arXiv preprint arXiv:1301.3781)(Mikolov, T., Sutskever, I., Chen, K., et al. 2013, “Distributed representations of words and phrases and their compositionality”, Advances in neural information processing systems, pp. 3111—3119)的诞生,语言表示分布在神经网络内相互关联的神经元中,联结主义在计算语言学中得以深刻体现。神经网络具备逐层抽象的能力,避免了传统机器学习方法中依赖专家的特征工程,使得传统机器学习中的流水线模型得以在深度学习中以端到端的形式呈现。
一、机器翻译
J. Zhang & C. Zong的Deep neural networks in machine translation: An overview综述指出,在深度学习热潮中,神经网络的最初登场是用于改进统计机器翻译。
2013年,基于神经网络的机器翻译方法被重新提出 [ Kalchbrenner, N., Blunsom, P., 2013. “Recurrent continuous translation models”, Proceedings of the ACL Conference on Empirical Methods in Natural Language Processing (EMNLP 2013) .Seattle, USA, pp. 1700—1709 ]。2014年之后,端到端神经机器翻译(Sutskever, I., Vinyals, O., Le Q., 2014, “Sequence to sequence learning with neural networks”, Proc of the 28th NIPS. Red Hook, NY:Curran Associates Inc, pp. 3104—3112)获得重视,其基本思想是在翻译建模上,撇开统计机器翻译的经典步骤,不需要词对齐、句法分析、翻译规则抽取等多层次的语言学抽象,由神经网络模型直接实现从源语言到目标语言的映射。
注意力机制(Bahdanau, D., Cho, K., Bengio, Y., 2014, “Neural machine translation by jointly learning to align and translate”. arXiv:1409.0473)是对经典神经机器翻译模型的重大改进。它将源语言句子的编码由固定向量扩展为向量序列,使得在生成目标语言词语时,能够动态地参考与生成该词相关的源语言词语信息,扮演着类似于统计机器翻译中“对齐步骤”的角色。目前,基于注意力机制的编码器-解码器模型已成为神经机器翻译的主流架构。
神经机器翻译可以明显改善统计机器翻译难以有效处理的长距离依赖和调序等问题,在译文流利度上要优于统计机器翻译。但是存在过度翻译和翻译不充分的情况,在忠实度上尚略逊一筹。
我国机器翻译研究者的贡献大致可以归纳为如下几个方面。
1、对编码器、解码器端的改进
以词语作为翻译基本单元的机器翻译系统面临着未登录词、词语切分、词语形态变化、数据稀疏等问题。针对这些问题,研究者们尝试采用更细的翻译粒度。J. Su等 [ Su, J., Tan, Z., Xiong, D., et al., 2017, “Lattice based recurrent neural network encoders for neural machine translation”, Proceedings of the 31st AAAI Conference on Artificial Intelligence (AAAI 2017). San Francisco, USA, pp. 3302—3308 ] 和Z. Yang等(Yang, Z., Chen, W., Wang, F., et al., 2016, “A character aware encoder for neural machine translation”, Proceedings of the COLING 2016, the 26th International Conference on Computational Linguistics. Osaka, Japan, pp. 3063—3070)采用汉字序列作为源语言端输入,由编码器端的神经网络自动抽象出词汇信息用于机器翻译。
以符号形式存储的双语词典和翻译规则等是重要的翻译知识。大量研究尝试通过扩展编码器和解码器的结构,将语言学知识融入神经机器翻译模型。W. He等 [ He, W., He, Z., Wu, H., et al., 2016, “Improved neural machine translation with SMT features”, Proceedings of the 30th AAAI Conference on Artificial Intelligence (AAAI2016) .Phoenix, USA, pp. 151—157 ] 提出在解码时加入词语翻译表和语言模型。进一步地,X. Wang等 [ Wang, X., Lu, Z., Tu, Z., et al., 2017, “Neural machine translation advised by statistical machine translation”, Proceedings of the 31st AAAI Conference on Artificial Intelligence (AAAI 2017) .San Francisco, USA, pp. 3330—3336 ] 提出在解码时由统计机器翻译提供目标语言候选词列表,以此提高目标语言的生成质量。
在句法特征方面,J. Li等 [ Li, J., Xiong, D., Tu, Z., et al., 2017, “Modeling source syntax for neural machine translation”, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017) .Vancouver, Canada, pp. 688—697 ] 、K. Chen等 [ Chen, K., Wang, R., Utiyama, M., et al., 2017, “Neural machine translation with source dependency representation”, Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017) .Copenhagen, Denmark, pp. 2836—3842 ] 以及S. Wu [ Wu, S., Zhou, M., Zhang, D., 2017, “Improved neural machine translation with source syntax”, Proceedings of the 26th International Joint Conference on Artificial Intelligence (IJCAI 2017) .Melbourne, Australia, pp. 4179—4185 ] 分别将源语言的短语结构特征和依存句法特征融合到编码器中;H. Chen等 [ Chen, H., Huang, S., CHIANG D, et al., 2017, “Improved neural machine translation with a syntax-aware encoder and decoder”, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017) .Vancouver, Canada, pp. 1936—1945 ] 则将源语言句法信息融合到编码器和解码器双端。受统计机器翻译发展历程的启发,有研究探索将神经机器翻译从序列到序列模型扩展至基于句法树的形式。S. Wu等在Sequence-to-Dependency neural machine translation中提出序列到依存神经机器翻译模型。
2、对注意力机制的改进
Z. Tu等在Context gates for neural machine translation中观察到,在翻译过程中,源语言上下文对翻译忠实度的影响较大,而目标语言上下文对流利度的影响较大。在他们提出的上下文门方法中,在生成实词时更多关注源语言上下文,生成虚词时则给予目标语言上下文更多关注。
有些研究尝试将统计机器翻译中广泛采用的各种特征引入注意力机制。Z. Tu等在Modeling coverage for neural machine translation中使用覆盖向量记录翻译过程中的注意力历史,引导注意力机制更多地关注未翻译词语。通过这种方式,将统计机器翻译中的覆盖率引入注意力机制,有效缓解神经机器翻译普遍存在的过度翻译和翻译不充分问题。S. Feng等(Feng, S., Liu, S., Li, M., et al. 2016, “Implicit distortion and fertility models for attention-based encoder-decoder NMT model”. arXiv preprint/1601.03317v3)以及J. Zhang等 [ Zhang, J., Wang, M., Liu, Q., et al. 2017, “Incorporating word reordering knowledge into attention-based neural machine translation”, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017) .Vancouver, Canada, pp. 1524—1534 ] 将统计机器翻译中的位变模型、繁衍模型等思想引入注意力机制,提高词对齐质量,缓解过度翻译问题。
3、对外部记忆的改进
外部记忆应用在神经机器翻译的重要工作是华为诺亚方舟实验室的研究者M. Wang等在Memory enhanced decoder for neural machine translation中提出的MEMDEC解码方法。它通过外部记忆对循环神经网络解码器进行扩展,在一定程度上弥补了注意力机制的不足。
有些研究将语言学知识存储在外部记忆里。Y. Feng等 [ Feng, Y., Zhang, S., Zhang, A., et al., 2017, “Memory augmented neural machine translation”, Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017) .Copenhagen, Denmark, pp. 1401—1410 ] 在记忆里存储低频词的翻译规则。Y. Tang等的Neural machine translation with external phrase memory 将符号形式的双语短语对存储在短语记忆里。解码时可以生成短语,突破了神经机器翻译解码时一次只能生成一个词语的限制。缺点是双语短语对仅支持一对一翻译。类似地,X. Wang等 [ Wang, X., Tu, Z., Xiong, D., et al. 2017, “Translating phrases in neural machine translation”, Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP 2017) .Copenhagen, Denmark, pp. 1432—1442 ] 通过一个基于短语的统计机器翻译模型动态生成短语记忆。
4、对模型架构的改进
D. He等 [ He, D., Xia, Y., Qin, T., et al.. 2016, “Dual learning for machine translation”, Proceedings of the 30th Conference on Neural Information Processing Systems (NIPS 2016) .Barcelona, Spain, pp. 1—9 ] 利用对偶学习显著降低平行语料使用量。Z. Yang等(Yang, Z., Chen, W., Wang, F., et al., 2017, “Improving neural machine translation with conditional sequence generative adversarial nets”. arXiv preprint/1703.04887v2)以及L. Wu等(Wu, L., Xia, Y., Zhao, L., et al., 2017, “Adversarial neural machine translation.” arXiv preprint/1704.06933v3)分别独立地将生成对抗网络应用到神经机器翻译中。B. Zhang等 [ Zhang, B., Xiong, D., Su, J., 2017, “Variational neural machine translation”, Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP2016) .Austin, USA, pp. 521—530 ] 则采用变分神经机器翻译。
多语言机器翻译采用一个模型完成多种语言之间的翻译。D. Dong等的研究Multi-task learning for multiple language translation将一对多机器翻译的任务建模为多任务学习。通过共享源语言编码器,提高资源稀缺语言对的翻译质量。
神经机器翻译由于参数规模巨大,只有当训练语料库具备足够规模,才会显著超越统计机器翻译(Zoph, B., Yuret, D., May, J., et al., 2016, “Transfer learning for low-resource neural machine translation”. arXiv preprint arXiv:1604.02201)。Y. Cheng等在Joint training for pivot-based neural machine translation 中提出的联合训练方法、Y. Chen等在A teacher student framework for zero-resource neural machine translation中提出的“老师-学生”框架,以及H. Zheng等在Maximum expected likelihood estimation for zero-resource neural machine translation 中提出的最大期望似然估计方法,都是采用枢轴语言实现资源稀缺语言之间的翻译。
L. Zhou等 [ Zhou, L., Hu, W., Zhang, J., et al., 2017, “Neural system combination for machine translation”, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017) .Vancouver, Canada, pp. 378—384 ] 提出一种系统融合框架,通过多个注意力机制,对神经机器翻译和统计机器翻译的翻译结果进行融合。J. Zhang等 [ Zhang, J., Liu, Y., Luan, H., et al., 2017, “Prior knowledge integration for neural machine translation using posterior regularization”, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017) .Vancouver, Canada, pp. 1514—1523 ] 通过将双语词典、短语表和覆盖惩罚等先验知识表示为对数线性模型的特征,集成到神经机器翻译中。
5、对损失估计的改进
神经机器翻译在训练时,通常使用训练语料中的真实目标上下文预测目标词;而在推理时只能使用存在误差的已预测上下文预测新的目标词。W. Zhang等在Bridging the gap between training and inference for neural machine translation中提出在训练时,不仅考虑真实序列,也从预测序列中采样获取上下文,取得显著的性能提升。该论文缓解了序列到序列模型长期存在的暴露偏差问题,摘得ACL 2019最佳长论文奖。
文献(Ranzato, M., Chopra, S., Auli, M., et al., 2015, “Sequence level training with recurrent neural networks”. arXiv:1511.06732)指出神经机器翻译传统的训练准则极大似然估计存在问题。S. Shen等的Minimum risk training for neural machine translation将最小风险训练方法引入神经机器翻译,获得稳定且显著的性能提升。
6、对语料处理的改进
与双语语料相比,单语语料具有规模大、易获取等特点。J. Zhang & C. Zong发表的Exploiting source-side monolingual data in neural machine translation通过自学习等方式构造大规模双语平行语料。
Y. Cheng等在Semi-supervised learning for neural machine translation中提出使用半监督学习方法同时利用源语言和目标语言单语语料,基本思想是引入自编码器训练双向神经机器翻译。
目前,神经机器翻译已经取代统计机器翻译,成为学术界和工业界商用在线机器翻译系统的主流方法,在在线翻译、跨语言检索等方面有着广泛应用(王海峰、吴华、刘占一:《互联网机器翻译》,《中文信息学报》2011年第6期,第72—80页)。在WMT2014英语到法语翻译任务上,在百度大规模计算能力的支撑下,J. Zhou等的Deep recurrent models with fast-forward connections for neural machine translation采用深层长短时记忆网络架构取得该任务最好成绩,首次超越统计机器翻译方法。由东北大学研发的小牛翻译NiuTrans支持118种语言互译,包含维蒙藏哈朝彝壮等七大少数民族语言,覆盖“一带一路”沿线国家所有官方语言。2016年,NiuTrans系统获得钱伟长中文信息处理科学技术一等奖。
李亚超等对多个在线神经机器翻译模型展开了评测。结果如表3所示(李亚超、熊德意、张民:《神经机器翻译综述》,《计算机学报》2018年第12期,第2734—2755页),所有翻译系统译文质量均达到较高水平。不过,由于测试集本身有可能已经被包含在这些神经机器翻译模型的训练语料中,这个结果只能作为参考。
表3 神经机器翻译系统性能对比
二、分词
在深度学习阶段,大量研究尝试使用神经网络模型对中文分词使用的传统机器学习模型进行替换。X. Zheng et al.的Deep learning for Chinese word segmentation and POS tagging 首次将深度学习方法应用于中文分词任务。该研究以预训练的字向量作为输入,用神经网络模型替换了Low et al.(Low J. K., Ng H. T., and Guo W. 2005. A maximum entropy approach to Chinese word segmentation. In Proceedings of the SIGHAN Workshop on Chinese Language Processing, 2005, pp. 448—455)的最大熵模型,进行序列标注。类似地,Y. Liu et al.(Liu Y., Che W., Guo J., et al. 2016. Exploring segment representations for neural segmentation models. In Proceedings of the International Joint Conference on Artificial Intelligence, pp. 2880—2886)将神经网络用于基于semi-CRF的分词。
X. Chen et al.在Long short-term memory neural networks for Chinese word segmentation中提出利用长短期记忆神经网络捕捉长距离依赖,缓解了固定大小的滑动窗口在特征抽取方面的不足。Z. Huang et al.在Bidirectional LSTM-CRF models for sequence tagging中首次提出使用“字向量+双向长短时记忆网络+条件随机场”模型进行中文分词,这种架构成为了深度学习时期分词任务的主流架构。
长期以来,中文分词存在着多种标注规范及语料。X. Chen等的Adversarial multi-criteria learning for Chinese word segmentation尝试利用生成对抗网络发掘这些语料中的共性。他们把使用多种语料的训练过程建模为多任务学习。在所有语料共享一个长短时记忆网络的基础上,每种语料均有单独的长短时记忆网络,这些模块共同构成特征抽取层。然后,在上述多任务框架基础上加入生成对抗网络,由判别器负责检查共享网络中是否混入了属于某种特定语料的特征,从而把私有特征从共享网络中剥离出去,保证了共享网络特征的单纯性。该论文获得了ACL2017杰出论文奖。
赵海在《中文分词十年又回顾:2007—2017》中指出,深度学习时期的中文分词依然需要平衡地考虑未登录词和词典词的识别。实验表明,在未登录词的识别上,基于字的模型比基于词的模型更具有优势。在D. Cai et al.的Fast and accurate neural word segmentation for Chinese研究中,为训练集中的高频词直接计算词向量,而低频词或者未登录词的词向量则由字向量生成,为分词任务在深度学习时期的研究意义提供了新的思路。
总体而言,在分词任务上,深度学习与传统机器学习相比,无论是精度还是速度,并未显示出显著的优势。在深度学习时期,一方面分词技术日臻成熟,另一方面由于词向量技术,特别是上下文敏感的词向量技术(Peters, M. E., Neumann, M., Iyyer, M., et al. 2018. “Deep contextualized word representations”. arXiv preprint arXiv:1802.05365)的发展,已有许多研究纷纷绕开分词的步骤,直接使用汉字作为输入。香侬科技Y. Meng等在Is Word Segmentation Necessary for Deep Learning of Chinese Representations?中指出,对很多使用深度学习的计算语言学任务而言,分词的必要性正在下降。
三、基础资源建设
C. Manning(Manning, C., 2015, “Computational linguistics and deep learning”. Computational Linguistics, Vol. 4, pp. 701—707)曾指出,深度学习带给计算语言学的最大改变源自词向量。北京师范大学中文信息处理研究所等机构的研究者(Li, S., Zhao, Z., Hu, R. et al., 2018, “Analogical Reasoning on Chinese Morphological and Semantic Relations”, ACL)开源了“中文词向量语料库”,该库包含经过数十种用各领域语料(百度百科、维基百科、人民日报 1947—2017、知乎、微博、文学、金融、古汉语等)训练的词向量,涵盖各领域,且包含多种训练设置。此外,腾讯公司也发布了包含800多万中文词汇的词向量数据(Song, Y., Shi, S., Li, J., et al. 2018, “Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings”. NAACL 2018)。
谷歌于2018年底发布BERT预训练模型(Devlin, J., Chang, M. W., Lee, K., et al., 2018, “Bert: Pre-training of deep bidirectional transformers for language understanding”. arXiv preprint arXiv:1810.04805),刷新了多项自然语言处理任务的最好成绩,被认为是继词向量之后,深度学习在自然语言处理方向的最大进展。2019年,百度提出知识增强的语义表示模型ERNIE(Enhanced Representation through kNowledge IntEgration)(Sun, Y., Wang, S., Li, Y., et al., 2019, “ERNIE: Enhanced Representation through Knowledge Integration”. arXiv preprint arXiv:1904.09223),发布了基于 PaddlePaddle 的开源代码与模型。相较于BERT以汉字作为语言建模的单元,ERNIE以字作为预训练的输入,对词、实体等语义单元进行语言建模,并使用大量知识类的中文语料进行预训练。ERNIE模型在包括语言推断、语义相似度、命名实体识别、情感分析、问答匹配等多项任务中,均超越了BERT的性能。
四、学术活动
进入新世纪以来,国内研究者在国际上发表的论文数量呈爆发式增长。据《2018自然语言处理研究报告》统计,针对2014年—2018年ACL、NAACL、COLING、EMNLP等4个顶级国际会议的统计数据表明,累计发表10篇以上论文的国内学者包括中科院计算所刘群、哈工大刘挺、微软周明、北京大学常宝宝、李素建、万小军和穗志方、复旦大学黄萱菁和邱锡鹏、清华大学刘洋和孙茂松、软件所孙乐等。中文信息学会青年工作委员会每年都组织国际顶会接收的论文作者在国内举办预讲会。预讲会不仅为演讲者提供了彩排的机会,而且为无法参加正式会议的研究者提供了与最新研究成果面对面沟通交流的机会。
2015年,计算语言学领域顶级的国际会议ACL-IJCNLP在北京召开。2019年,EMNLP-IJCNLP在香港召开。
随着开源思想深入人心,国内研究者开源了大量神经网络相关的算法。例如,复旦大学开发的基于深度学习的中文自然语言处理系统 [ Zheng, X., Chen, H., Xu, T., 2013, “Deep learning for Chinese word Segmentation and POS tagging”. In Proc. Conference on Empirical Methods on Natural Language Processing (EMNLP’13), October 18—21, pp. 647—657 ] ,该系统目前可用于中文分词、命名识别、词性标注、句子分类、句法分析、语义分析、知识库访问、对话问答、文本聚类分类、文本摘要、信息抽取、情感分析、三元组抽取等多项任务。
计算语言学同人工智能其他领域一样,技术更新迭代的速度非常之快。以往学术论文的发表周期较长,而且出于版权保护的考虑,论文的获取存在困难。在开源思想的引领下,许多研究者首选将论文公开发表在arxiv网站(https://arxiv.org),然后再考虑向会议及传统论文出版渠道投稿。arxiv是一个公开社区,全球的研究者可以免费上传、下载并引用其中的论文,其中不乏高引用率论文。
百度、阿里巴巴、腾讯、科大讯飞、搜狗、微软亚洲研究院、TRS等公司均投入了大量资源从事计算语言学相关研发。这些公司与研究机构相比,在数据和计算资源方面具有优势。
自媒体也逐渐成为计算语言学推广的中坚力量。这些自媒体实时追踪国内外研究动态,通过订阅推送,定期组织线上直播,线下分享会和培训等方式,为学术圈注入活力。
五、小结
深度学习时期,神经网络对计算语言学的巨大推动作用主要体现在词向量以及预训练模型上。词向量以及预训练模型对语言中蕴含的词法、句法、语义等信息进行表示和建模,提高了语言的可计算性。在神经网络强大的学习能力之下,汉语与其他语言在抽象建模方面正在日趋同质化。
如何将联结主义与日渐式微的符号主义有机地结合起来,是目前计算语言学面临的难题之一。一方面,不同于符号逻辑,神经网络的推理更类似于人类的直觉,经常受人诟病的一点是缺乏可解释性。缺乏合理的语言学解释,使得研究人员对神经网络模型进行分析和调试变得尤为困难。目前在可解释性上已出现一些进展,例如Y. Ding等发表的Visualizing and understanding neural machine translation可以在一定程度上对神经机器翻译的翻译过程进行可视化和解释。从神经网络模型中抽取语言学知识来解释和改进模型,将是未来重要的研究方向。另一方面,目前先验知识,特别是以离散符号表示的语言学知识,与神经网络融合时经常采用ad hoc的方式,缺乏通用性。
与此同时,人工智能的另一流派,行为主义(actionism)方法开始登上计算语言学研究的舞台。强化学习、生成对抗网络等方法通过试错自主学习,在某些计算语言学任务上已经取得了不错的效果,期待未来有更大用武之地。
第六节 结语
纵观计算语言学的发展,我们有几点思考。
(1) 几十年来,计算语言学研究对象的变化不大,依然是试图解决图灵测试的问题;然而,研究范式已然发生了巨变。从最初的符号主义和理性主义方法,演化到了联结主义和基于语料库的经验主义方法。
(2) 面对自然语言的模糊性和复杂性,计算语言学一直在语言计算的复杂度和性能中寻找平衡。历年来,计算语言学最重要的研究成果无不源于提高了语言的可计算性。从最初的离散计算方式,已发展到使用概率、机器学习模型参数等实数值进行运算。
(3) 开放、共享的开源思想已被研究者普遍接受,出现了一大批颇具影响的开源代码、公开的语料库及论文。这使得研究者们得以站在巨人的肩膀上,同时这也是计算语言学发展如此迅速的原因之一。
(4) 公开的技术评测已然成为促进计算语言学研究的有效手段。一方面,它可以推动研究单位间的实质性交流。另一方面,对研究者而言,评测规范、数据及工具都是有价值的研究资源。快速、低成本的评测可以加速推进技术进步。
回顾新中国成立70年来计算语言学的发展,汉字信息处理技术、分词技术已“臻”成熟,搜索引擎、机器翻译、智能问答等已成为日常生活的一部分。技术的进步使得我们正在逐渐接近图灵测试的理想场景。
2018年,清华大学发布的《2018自然语言处理研究报告》统计指出,华人研究者发表论文的整体水平低于国际上自然语言处理领域头部的学者,论文引用率偏低。这说明虽然我国计算语言学研究已经紧跟国际潮流,但是仍然缺乏具有影响力的开创性研究。很多研究往往局限于对一些边缘问题的修补,或者只是针对特定条件下特定的解决方案,研究视野有待拓宽。
参考文献
常宝宝、张伟 《机器翻译研究的现状和发展趋势》,《术语标准化与信息技术》1998年第2期,第32—35,39页。
陈敏、王翠叶 《中文信息处理的现状与展望》,《语言文字应用》1995年第4期,第26—32页。
陈群秀 《汉语自然语言理解研究概况及前景》,《语文建设》1992年第9期,第34—37页。
戴新宇、尹存燕、陈家骏等 《机器翻译研究现状与展望》,《计算机科学》2004年第11期,第176—179,184页。
冯志伟 《我国机器翻译研究工作的发展》,《情报学报》1985年第3期第255—264页。
冯志伟 《我国机器翻译研究工作的回顾》,《语文建设》1990年第5期,第21—28页。
冯志伟 《机器翻译发展的曲折道路(一)》,《术语标准化与信息技术》1996年第3期,第28—31页。
冯志伟 《机器翻译发展的曲折道路(二)》,《术语标准化与信息技术》1996年第4期,第30—34页。
冯志伟 《机器翻译——从实验室走向市场》,《语言文字应用》1997年第3期,第75—80页。
冯志伟 《汉字和汉语的计算机处理》,《当代语言学》2001年第1期,第1—21,77页。
冯志伟 《自然语言处理的历史与现状》,《中国外语》2008年第1期,第14—22页。
冯志伟 《基于语料库的机器翻译系统》,《术语标准化与信息技术》2010年第1期,第28—35页。
冯志伟 《计算语言学的历史回顾与现状分析》,《外国语(上海外国语大学学报)》2011年第1期,第9—17页。
龚滨良 《建国以来中文信息处理技术大事记》,《中国科技史料》1985年第2期,第6—11,15页。
黄昌宁 《中文信息处理中的分词问题》,《语言文字应用》1997年第1期,第74—80页。
亢世勇 《计算机时代汉语语法研究的特点》,《术语标准化与信息技术》1999年第2期,第32—35页。
刘峤、李杨、段宏等 《知识图谱构建技术综述》,《计算机研究与发展》2016年第3期,第582—600页。
刘群 《统计机器翻译综述》,《中文信息学报》2003年第4期,第1—12页。
刘群 《机器翻译研究新进展》,《当代语言学》2009年第2期,第147—158,190页。
刘群 《基于句法的统计机器翻译模型与方法》,《中文信息学报》2011年第6期,第63—71页。
刘群 《机器翻译技术现状与展望》,《集成技术》2012年第1期,第48—54页。
刘洋 《神经机器翻译前沿进展》,《计算机研究与发展》2017年第6期,第1144—1149页。
刘倬 《我国机器翻译研究的历史和现状》,《中国翻译》1983年第11期,第36—37页。
清华大学计算机系-中国工程科技知识中心、知识智能联合研究中心(K&I) 《2018机器翻译与人工智能研究报告》2018年5月,https://static.aminer.cn/misc/article/translation.pdf
清华大学人工智能研究院、北京智源人工智能研究院、清华-工程院知识智能联合研究中心 《人工智能之数据挖掘》2019年1月,https://static.aminer.cn/misc/pdf/datamining.pdf
清华大学人工智能研究院、北京智源人工智能研究院、清华-工程院知识智能联合研究中心 《人工智能之知识图谱》2019年1月,https://static.aminer.cn/misc/pdf/knowledgegraph.pdf
王献昌、史晓东、陈火旺 《机器翻译与自然语言处理的现状与趋势》,《计算机科学》1992年第3期,第1—3页。
袁毓林 《计算语言学的理论方法和研究取向》,《中国社会科学》2001年第4期,第157—168,206页。
张普 《共和国的中文信息处理60年》,《语言文字应用》2009年第3期,第34—39页。
中国中文信息学会 《我国中文信息处理技术的发展与展望》,中国科学技术协会《科技进步与学科发展——“科学技术面向新世纪”学术年会论文集》,1998。
中国中文信息学会语言与知识计算专委会 《知识图谱发展报告(2018)》http://www.cipsc.org.cn/download.php?file=KGDevReport2018.pdf
宗成庆、高庆狮 《中国语言技术进展》,《中国计算机学会通讯》2008年第8期,第1—16页。