联系客服
客服二维码

联系客服获取更多资料

微信号:LingLab1

客服电话:010-82185409

意见反馈
关注我们
关注公众号

关注公众号

linglab语言实验室

回到顶部
饶高琦 | 战疫语言服务中的语言技术

638 阅读 2020-08-09 12:14:02 上传

以下文章来源于 汉语堂

本文转载于: 语言资源高精尖创新中心


本文刊发于《云南师范大学学报》

2020年7月第4期

[摘 要] 本文梳理了2020年新冠病毒性肺炎疫情期间,战疫语言服务团在应急语言服务中所采用的语言技术。主要包含语料库技术、音频/文本检索技术、机器翻译和机器辅助翻译技术、文本分析与计算技术等。如新冠肺炎疫情这样的大型突发公共卫生事件,需要多种语言技术的综合应用,这要求有关科研和规划部门提高技术储备和数据资源建设的意识,研究语言技术应急服务预案。

[关键词] 新冠疫情;语言技术;应急语言服务;语言资源




引 言

信息沟通、心理抚慰和应急决策是突发公共事件应对中不可缺少的三个环节。它们均与语言有重要关系,也离不开语言技术的支撑。语言技术是支撑、服务语言信息传播、理解的技术手段,包括硬件设备和软件系统、互联网服务及它们背后的算法、模型、操作流程等。在各国的应急语言能力建设中,语言技术的储备和应用都是不可缺少的一环。世界各国面向突发公共事件的语言服务中,语言技术也广泛地起到了支持作用。其中应用到的语言技术主要是各类翻译技术(机器翻译技术、机器辅助翻译技术)和相关配套技术(如术语管理技术、翻译管理平台开发等)。如机器翻译技术在海地地震中进行快速部署,并在应急反应中获得使用。诚然机器翻译还不足以解决所有语言障碍,因而众包翻译和翻译平台建设也发挥了其在灾害应急中的服务作用。

2020年新冠肺炎疫情暴发,举国奋起,齐心抗疫,社会各界千里驰援湖北。在跨省区援助中,存在很多语言造成的困难和障碍,医患沟通的方言障碍是其一。疫情期间,留在国内,尤其是湖北境内的外籍人士等非汉语母语者在疫情信息接收和个人防护方面存在的语言障碍又是一类。此外随着疫情在全球范围内扩散,各类语言障碍引起的问题,也需要相应的语言服务加以克服。而各类语言服务的背后都有相应语言技术的支撑和助力。


应急语言能力中的语言技术

在抗击疫情一线,有效沟通对救治患者至关重要,研制“方言通”的目的就是要为外地援鄂医疗队解决医患沟通的方言障碍,这项语言应急任务时间紧、任务重、对时效性的要求很高。与传统语言条目表以调查语言结构、描写语言面貌为重点有所不同,“方言通”的语言调查条目表需面向新冠肺炎医患沟通的需求,聚焦日常接诊、病房护理的各类场景开展编写工作,以确保其在一线能发挥功效,助力抗击疫情。、

国家语言服务是国家语言能力的外显和实践。国家语言能力是“运用语言处理一切国家利益相关事务的能力”。国家语言能力包括5个方面:语种能力、国家主要语言的国内外地位、公民语言能力、拥有现代语言技术的能力、国家语言生活管理水平。其评价指标为7个方面:国家通用语言文字的普及程度及水平,国民掌握语种的数量及水平、各语种人才的数量、水平和结构分布,语言资源的可开发性及开发效率,语言学习资源的可利用性及利用效率,语言信息处理能力和管理社会语言生活的能力。对语言能力的不同评价方法中都涉及语言技术的评价。可见语言技术已经成为国家语言能力的重要衡量指标,也是实现语言服务不可或缺的要素。应急语言服务则更加离不开语言技术的支撑,尤其呼唤对语言技术的规划。

当前我国在国家通用语的普及、国际传播,外语人才和资源建设都取得了长足进步,但包含语言信息处理技术在内的广泛的语言技术还有待加强。并非我国目前语言技术水平低下,而是语言文字事业管理者、从业者对语言技术的使用意识和水平无法满足应对突发公共事件的需求。因此语言技术应成为应急语言能力建设的重点内容。


抗击疫情期间的语言技术应用
在2020年抗击新冠肺炎疫情期间,为应对在跨省区援助中的语言障碍,山东大学齐鲁医院援鄂医疗队在进驻武汉48小时内,组织编写《国家援鄂医疗队武汉方言实用手册》《国家援鄂医疗队武汉方言音频材料》及《护患沟通读本》,即是语言应急之策。在教育部、国家语委指导下,来自高校和企业单位的四十余名专家成立了“战疫语言服务团”,组织研发《抗击疫情湖北方言通》,积极帮助外地援鄂医疗队解决医患沟通方言障碍问题,用语言学专业力量助力抗疫防控阻击战。《抗击疫情湖北方言通》上线仅一周即访问13万余次,播放33万次,融媒体口袋书随各省医疗队发放6000余册。《疫情防控“简明汉语”》快速研发投入使用,供掌握1200词水平的非汉语母语人士使用,取得很好效果。在国际上,服务团短时间内发布了四十余种语言的肺炎诊疗、防护、出入境须知卡片,组织翻译了6种外语的新冠肺炎病毒治疗手册,建立了专业平行语料库和翻译库,被十余个省市外办采用。服务团策划了新冠肺炎康复者向疫区国写信的语言抚慰计划。“战疫语言服务团”发挥积极作用,是北京语言大学语言资源高精尖创新中心、中国语言资源保护研究中心以及中国语言生活派学者长期科研和探索累积、服务国家发展的典型案例。
抗击疫情期间语言技术在各项抗疫语言服务中的使用情况详述如下。
(一)《抗击疫情湖北方言通》中的语言技术
为帮助外地援鄂医疗队解决医患沟通的方言障碍问题,“战疫语言服务团”研制了《抗击疫情湖北方言通》,包括微信版、网络版、融媒体版、迷你视频版、抖音版、在线服务系统、即时翻译软件等多种产品,为抗击疫情的医护人员及相关群体提供多维度语言服务。
“方言通”涵盖湖北武汉、黄冈、孝感、宜昌、荆州、咸宁、襄阳、黄石、鄂州、恩施、大冶等11地方言;根据语料库统计和医用场景调研,分诊疗常用语句、诊疗常用词汇两大部分;共156个词语、76个短句。每个对应语句、词汇都以普通话、方言和音频二维码分别标识,供医疗工作者和有关人员参考使用。
1.语料库技术
“方言通”的基础是湖北各地方言的录音资料。而语言资源保护工程日常采集的语料乃为服务语言、文化研究之用,并非面向防护知识普及和诊疗现场。因而“录什么”需要重新规划和设计,即需要制作面向疫情防控和诊疗的录音脚本。该脚本要求使用最少的句子和词汇,覆盖最多、最常见的防疫信息和诊疗对话现场。为科学制备脚本,服务团需要构建面向防疫信息和诊疗对话的语料库。
战疫语言服务团在短时间内,迅速构建了一个袖珍新冠肺炎诊疗语料库。在这一过程中,战疫语言服务团组织并收集日常用语、医疗用语、护理用语的词语和短句,以此为基础。以相关医学术语为种子,利用政府公告、问诊网站和文艺作品等资源,快速构建口语化的,问诊和护理场景必备的语句,添加入基础语料库中,形成战疫诊疗语料库。而后根据语料库,服务团利用文本覆盖度计算的方法,对人工挑选的句子、词汇进行覆盖性的评估,不断迭代,形成方言录音脚本。最终版本由计算版本录音底稿和语言资源保护团队的湖北版本底稿汇合后删改成型。
2.语言采录技术
“方言通”的核心在于发言音频采录。在“方言通”的研制过程中,战役语言服务团使用“北语录音”软件对发音人进行音频采录。“北语录音”是语言资源保护工程专门为方言信息采集而开发的便携录音软件,在设计上非常适合“方言通”数据的采集。“北语录音”自动读入按规定格式整理好的脚本excel表格,逐行醒目显示待录制内容。发音人朗读内容后,可自动保存音频文件。全部录音文件自动保存在同一个文件夹里,该文件夹与相应的录音用表所在位置相同,名称相同。

图1 “北语录音”软件界面
具有高质量音频采集和便捷操作模式的录音软件为发音人快速录制音频提供了极大便利,是“方言通”能够快速上线服务的重要保障。
3.音频检索与传播
“方言通”的呈现方式包括微信版、网络版、融媒体版、迷你视频版、抖音版、在线服务系统、即时翻译软件等多种方式。其中微信版、网络版和融媒体版均涉及音频检索的技术。所有音频均通以音频内容本身为关键字进行检索,由于方言表达中的词颗粒度和普通话无法完全一一对应,故这一检索是全文字符检索而非传统的词检索。图2为“方言通”微信版用户界面。
融媒体版则通过口袋书的形式呈现。全书每个对应语句、词汇都以普通话、方言和音频二维码分别标识,供医疗工作者和有关人员参考使用。
迷你视频版和抖音版则将分句、分词的方言数据按照类别、用途和方言种类进行归类后,按照设计顺序连接为一段音频,配以文字注释和图像,在微信、抖音等视频平台进行播放、传播。

图2 “方言通”微信版用户界面

图3 “方言通”融媒体口袋书样页

4.呼叫平台建设
除了供医护和有关人员主动查询、播放的方言音频资料外,“方言通”还通过建设呼叫平台提供现场“方普”翻译服务。用户拨打热线电话(027-59771671)后,电话被接入方言分配中心,用户可按照提示选择方言。随后系统将自动为用户分配一名该方言志愿者为医患双方提供现场的方普翻译服务。呼叫平台实现了9种湖北主要方言的“方普”翻译服务。

图4 “方言通”呼叫平台用户平台使用方法
5.语音识别平台
面向人口最多的武汉话方言片区,“方言通”推出了面向武汉话的方言语音识别服务。该服务内嵌于讯飞语音输入法中。利用基于深度学习方法的语音识别技术,使用事先大量采集的武汉方言样本,经过快速密集人力标引和校对,团队研发了武汉话语音识别系统。系统可在近距离低噪声情况下将语音病患方言语音转换为文字显示,供医护人员查看。
(二)《疫情防控“外语通”》中的语言技术
面对全国新冠肺炎疫情防控形势积极向好,国际疫情防控形势日趋严峻的局面,战疫语言服务团在后期将服务方向转向外语,面向在华外籍人士提供疫情防控和治疗语言服务。《疫情防控外语通》的内容目前包括日常注意事项、入境注意事项、就诊常用句,语种包括日语、韩语/朝鲜语、波斯语、意大利语、阿拉伯语、英语等41种语言。成果类型包括视频版、多媒体卡片版、软件系统版,成果通过微信、网页、抖音、印刷品等方式推出。《疫情防控外语通》可提供给医疗机构、教育机构、机场港口、航空公司、外交外事机构、海关、社区管理部门使用,也可以直接提供给留学生等外籍人士使用。
1.语言翻译与采录
在多语种数据采集方面,“外语通”采用了和“方言通”相似的流程,使用“北语录音”进行多国语言录制。语言数据则通过众包的方式,广泛征集各语种的母语者(用于发音)和专业中外翻译人员(进行翻译和校对)进行制备。
2.机器辅助翻译
新冠疫情相关信息具有高度领域性,但数据总量有限。因而相比于全自动的机器翻译,更适合机器辅助翻译进行疫情相关资料的翻译。战役语言服务团在我国疫情得到控制后,开始使用机器辅助翻译技术进行大规模的疫情防控、诊疗文本外译工作。机器辅助翻译平台(及与其相配合的术语管理平台)存储了经由专家审校的术语、固定表达、专业表述等信息,并在翻译项目进行过程中不断扩充经过审校的双语对译片段。随着翻译项目的进行,重复出现的语言片段可以得到自动匹配和翻译,项目效率较之完全人工翻译有大幅提高,质量也更有保障。
3.平行语料库建设
机器翻译和机器辅助翻译的基石是多语平行语料和多语翻译记忆库。为服务各方面的翻译需求,战疫语言服务团为此建设了汇聚疫情相关信息的在线 BiCovid平行语料库。BiCovid是一个由来自于世界各地的数百位志愿者共同维护的双语文本检索和共享工具。它包含的文本全都是 COVID-2019 相关的防疫知识和重要消息。截至目前,该网站已经发布将近5万条双语对照信息,并包括中文、英语、日语、韩语、法语、俄语、西班牙语、意大利语、德语等9门语言。

图5 BiCovid在线平行语料库使用界面

(三)《疫情防控“简明汉语”》中的语言技术
“简明汉语”工作的输入是我国疾控部门发布的权威疫情防控信息和个人防护指导守则,输出则为可供1200词汇量人群阅读的简明汉语文本。“简明汉语”编写的关键在于制定词汇、句法、篇章层面的简化操作规范标准,并加以执行。就工作量而言,大量简化工作集中于词汇简化阶段。这一阶段使用了语言信息处理中基本的文本计算技术以提高人员编写效率。
根据 HSK词汇分级大纲,匹配输入文本中所有的超出四级的词汇,并进行标注,提示编写人员进行“降级”处理。
使用同义词词林、大词林、知网等同义词或词汇知识资源,自动查找同义、近义、上位词,形成候选替换词集,供编写人员选择。


应急语言服务所需的语言技术配置
语言技术的迅猛发展,提高了语言服务的效率。面向突发公共事件的应急语言能力建设呼唤更多、更智能的语言技术支持。这些技术主要集中在语言资源建设、机器翻译、机器辅助翻译、文本简化技术和语情监测等方面。现详述如下。
(一)语言资源建设
除基本的语言通信手段外,当前所有应对突发公共危机的语言技术均依赖于高质量、大规模的语言资源建设。本次抗击疫情的应急语言服务中,机器翻译、语音识别和方言播报等服务均需要大量精细的领域语言资源支持。“大量”体现在语言数据数量需要满足当前通用的机器学习和深度学习模型训练所需,一般在数十万句到上千万句不等。“精细”体现在语言数据的颗粒度方面,即湖北省内各方言片区、少数民族语言使用区域的语言数据要精准、齐备。“领域”体现在面向新冠疫情的防控、诊疗这一专门方面,需要充足的术语、诊疗对话等数据。这些都是面向研究用和互联网服务的语言资源所不具备的特性。因而应对各类突发公共危机,特种语言资源建设任重而道远。
(二)机器翻译
应急语言服务的核心在于克服语言障碍,实现语言信息的沟通,则其核心任务就是各种语言(和语言模式)之间的翻译。机器翻译是服务这一任务的重要技术。面向突发公共危机的机器翻译应不仅仅局限于汉语、外语的翻译,还应该包括汉语、少数民族语言,普通话、方言、普通话、手语/盲文,复杂书面语、简明汉语等不同语言(和语言模式)之间的翻译。
(三)机器辅助翻译
目前完全依靠机器翻译进行语言、文本的转换,其可靠性尚不足以完全满足使用,因而在实践中更多使用的是机器翻译模型集成的机器辅助翻译软件和平台。机器辅助翻译一方面通过机器翻译模型自动将源语言输入转换为目标语言输出,另一方面将译员输入的在翻译记忆库里可匹配的模式与片段(即曾经被翻译过的)找出,直接替换为翻译记忆库中片段。两相结合,以高效的人机交互方式呈现给人类译员,实现人在闭环中的高效人机协同翻译实践。
使用机器辅助翻译软件和平台,可以高效协同众多语言志愿者共同工作,减少重复工作,提高包括术语一致性、表达一致性在内的翻译质量。
(四)文本简化
“简明汉语”方案本质上是对复杂书面语的简化,可视作一种文本简化过程和特殊的风格迁移计算。文本简化任务的目标是在不显著改变句子原始语义的前提下,将复杂句子转换为更容易理解的简单句子。目前常用的方法有基于统计机器学习模型的序列到序列方法和基于深度学习模型的文本生成方法。但是和其他自然语言处理任务相似,文本简化任务也需要大量高质量平行语料支持,即书面语和简化后文本的对照数据。这方面的资源建设尚存在大量空白。
(五)语情监测
语情监测承担事前摸清语言国情、事中协助舆论场有效运行等重要任务。语情监测配合各类语言沟通任务向公众宣传防护方法、法律法规和相关方针政策,侦测不良语言现象,减少不良舆论对决策和应急行动带来的障碍。语情监测工作应监测各类媒体中的语言使用情况,在舆论场中协助抗灾救灾精神的凝聚。侦测和消除不良语言现象,如“污名化”“言语暴力”“言语歧视”等。在自媒体较为发达的时代,怎样进行语情监测还是一个新课题。语情监测不仅在国内,也在国外;在全球化的时代,国际舆论场也需要关注和引导。

总结与展望
“方言通”研制并上线了7种产品,分别为:微信版、网络版、在线服务系统、融媒体版、迷你视频版、抖音版、即时翻译软件。笔者为微信版的合作研发者之一,本节重点介绍微信版的主要功能、特点和使用数据分析,对其他应用仅做简要说明,必要时读者可按图索骥,自行访问相关应用加以了解。
本文梳理了2020年新冠病毒性肺炎疫情期间,战疫语言服务团在应急语言服务中所采用的语言技术。主要包含语料库技术、音频/文本检索技术、机器翻译和机器辅助翻译技术、文本分析与计算技术等。
如新冠肺炎疫情这样的大型突发公共卫生事件,需要多种语言技术的综合应用。尽管多项语言服务在抗击疫情的过程中取得显著成效,但也还有很多需要提升的地方:(1)面向突发公共事件的语言资源储备不足。目前,大多数语言资源建设面向语言研究、教学和商业信息服务。此次抗击疫情需要临时制备语料,便暴露了这一问题。(2)语言智能技术分散,协调效率不足。应对公共突发事件需要的语言智能技术规划基本缺失,没有技术和技术提供方的清单。为了应对这样的问题,应急语言服务在顶层设计时,就应充分考虑到语言资源建设和技术储备。建设可用性高,领域替换方便的语言资源体系和广泛可动员的人力资源库存。这些语言资源和人力资源信息也需要持续维护更新。在技术方面应规划应对突发公共事件所需语言智能技术的技术清单和提供方清单,定期举行技术评测,保持技术的前沿性和可用性。
最后,资源与技术总是在实战中得到检验和增强,这些装备也应随着我国语言服务,一同参与全球公共危机事件的应急服务。更好面对人类问题,方能更好解决自己的问题。而要实现这些,都要求有关科研和规划部门提高技术储备和数据资源建设的意识,未雨绸缪,研究语言技术应急服务预案。




今日责编/一场游戏一场梦


点赞
收藏
表情
图片
附件