【会议综述】2019 首届计算词典学研讨会综述-LingLab

【会议综述】2019 首届计算词典学研讨会综述

1536 阅读 2019-12-28 19:21:47 上传

语料库和计算语言学

本篇转载自微信公众号：今日语言学，推送的是“2019 首届计算词典学研讨会综述”，敬请关注！

2019 首届计算词典学研讨会综述

转载自微信公众号：今日语言学

2019年12月20日，2019首届计算词典学研讨会在中国社会科学院语言研究所召开，主题为“数字化技术在人文辞书编纂中的应用”。研讨会由中国社会科学院语言研究所、中国社会科学院辞书编纂研究中心、中国社会科学院语言研究所语料库暨计算语言学研究中心主办。来自中国社会科学院、北京大学、广东外语外贸大学，中国传媒大学、华东师范大学、商务印书馆、上海辞书出版社、外语教学与研究出版社、英汉大词典编纂处等机构的30余位专家学者参加了研讨会。

研讨会开幕式由中国社会科学院语言研究所顾曰国研究员主持，中国社会科学院语言研究所所长、辞书编纂研究中心主任刘丹青研究员致开幕辞。刘丹青指出，本次研讨会是我国历史上第一次关于计算词典学的会议，计算词典学正在成为一个热门话题。词典学既是一个研究领域，也是一个应用领域，是直接面向社会架设学界和大众需求的桥梁。当词典学学术生态和市场业态都发生快速变化时，如果不了解不跟踪不追逐，就有可能在生态和业态的发展中被淘汰。在全民走向信息化，进一步走向智能化的时代，如果辞书编纂不能适应学术生态和市场业态的需求，将会面临很大的危机。我国的辞书编纂技术跟当前科技发展相比，处于相对滞后的状态。虽然目前尚不能完全预测人工智能技术将为辞书编纂带来怎样的变化，但这正是值得探讨的问题。今天是计算词典学的第一次会议，也许不久的将来“计算词典学”这个词将被“智能词典学”所代替。希望在本次会议上大家能将现代技术和辞书编撰事业相结合，进行充分的研究和交流，共同促进计算词典学的发展。

刘丹青研究员致开幕辞

本次会议共有7位学者做了主旨报告。

北京大学俞士汶教授的报告“《现代汉语语法信息词典》研制与未来进化之路”回顾了《现代汉语语法信息词典》和综合型语言知识库的研制情况和研制经验，介绍并展望了语言知识库的新发展和《现代汉语语法信息词典》的改进。以《现代汉语语法信息词典》为基石的综合型语言知识库可以视为计算词典学的一次实践：在计算机数据库技术的支持下，将主要来源于书本词典以及语言学家的语言知识变换成自然语言处理技术便于运用的形式，推动了当代社会生活须臾不可或缺的中文信息处理技术的发展，在语言研究和语言教学研究中发挥了积极的作用。

俞士汶教授做报告

广东外语外贸大学章宜华教授的报告“数字时代国际计算词典学的创新发展——词典语言资源数据化趋势”围绕计算词典学的源流、语料库及词典数据库应用与建设展开。报告详细介绍了计算词典学的理论框架与任务，认为丰富的语料资源及丰富的语料库应用功能模块可以为词语描写和词典数据库的建设提供全面支持。最后，报告指出词典编纂平台化、词典信息数据化、词典的表征多模态化、词典出版全媒体化是未来发展趋势。

章宜华教授做报告

上海辞书出版社王国勇副编审的报告“以全文分字表为基础的取词方法”介绍了基于全文分字表的取词方法及其应用。报告首先分析了词典的本质、特性、基本矛盾、质量标准及检验方法，接下来介绍了全文分字表的建立方法以及基于全文分字表的上下对比的取词方法和词汇判别方法。本报告的工作认为字符、字位及其规则，是检验词典质量的三个基本要素，而全文分字表为其提供了条件。通过提取词汇，分析同一义类词汇的使用规则，进而判别释义项的表述形式即词汇的位置关系，便于统一，达到唯一性即名实一致的质量标准。

王国勇副编审做报告

上海华东师范大学柏晓鹏博士的报告“基于计算语言学方法的多义词义项区分度分析”从多义词义项关系分析入手，讨论对于词典编纂而言计算语言学如何产生助力及其存在的局限。报告分别介绍了基于词汇知识库和基于语料库分布的义项区分度获取方法，可以分别用于评价词义的相似性（同义/近义）和词义的相关性。报告最后对多义词义项区分度的量化评价方法进行了探讨。

柏晓鹏博士做报告

北京大学俞敬松副教授的报告“古文自然语言处理研究的进展与古汉语词典辅助编纂”介绍了古文的自动句读、分词与古籍文字识别的最新进展。报告使用最新的深度学习方法和基于超大规模语料训练预训练模型再加下游任务的微调方法，对古汉语文本进行自动句读、自动标点、无指导和弱指导方法分词、词性标注等多项任务的研究，证明了深度学习在古文自然语言处理领域同样可以发挥积极的作用。在上述任务中均取得当前最佳成绩的同时，模型和方法表现出极好的鲁棒性和泛化能力。报告中的部分研究成果已经应用于实际项目。

俞敬松副教授做报告

中国社会科学院胡钦谙博士的报告“例句检索技术综述”从展现形式、数据来源与标注、方法以及评测四个方面对现有例句检索技术进行了回顾。报告指出现有例句检索技术存在许多问题：展现形式上对语料库中词的用法以及例句之间的关系缺乏整体刻画；难以区分义项；例句相似度计算难以聚焦在检索词用法上；未能充分利用海量数据；基于分类的评测指标难以对序关系进行精微的评估。报告认为，深度学习方法的向量化表示、注意力机制以及预训练模型等技术在例句检索方面具有潜力。最后，报告提出了基于深度学习的例句检索技术架构。

胡钦谙博士做报告

中国社会科学院顾曰国研究员的报告“概念、词、汉字、词林与知识本体”使用语义网技术（OWL 语言）构建用于汉语语文辞书的知识本体，演示了把概念、词、字、词林统一起来的方法。报告首先通过被感知世界、内在世界、有声语言世界等“三个世界” （Umwelt-Innenwelt-Lebenswelt）的构建演示了概念、词和字的动态发生关系。随后，指出不同于以词为基点的传统语文辞书，词林的本质是以概念为基点进行编撰。知识本体（ontology）在严格意义上指某个领域的知识体系，是由本领域一系列概念组建起来的结构体系。构建汉语语文辞书的知识本体是未来计算词典学重要的发展方向。