1045 阅读 2022-06-06 12:17:24 上传
研究组开展的本科生NLP Summer Camp活动旨在为本科生提供了解自然语言处理及运用自然语言处理技术解决实际问题的平台。该活动设置若干自然语言处理领域的前沿课题,每个课题由本组优秀博士生负责。在报名开始时,同学们可以自愿选择感兴趣的课题。在报名结束后,研究组将根据课题方向组织面试选拔,优秀的同学能够正式参与活动。完整参与活动的学员在活动结束后将获得结题证书,后期申请保研至NLP研究组时也会被优先考虑。
一、项目计划
举办形式:由于疫情原因,本次夏令营采用线上模式。
项目周期:7月4日-8月15日,为期6周。
项目内容:共有7个课题,后期设有通识讲座以及基础课程。
招募人数:计划每个课题招募3-5名学员。没有进入相关项目课题的学员,后期我们会留有一定的旁听名额,旁听我们的通识讲座以及基础课程。
二、申请对象
优先考虑具有自然语言处理或机器学习基础知识的大一、大二在校本科生。
三、申请流程
网上申请
即日起,可登录:https://wj.qq.com/s2/10305294/c7a3/,填写报名信息,申请截止时间为:6月20日23:59。(其中感兴趣的课题最多可以选择三个,但是最终会根据面试情况确定一个参加)
资格初审
申请截止后,工作小组对申请者提供的报名信息进行资格初审,面试名单,预计在6月23日以公众号以及邮箱形式发布。面试时间初定于:6月26日-6月27日。
结果发布
面试结束后,工作小组结合学员信息以及面试情况,确定夏令营入围名单,预计在6月30日公布。
以上项目流程公布日期均为拟定,具体时间以后续通知为准,请对夏令营感兴趣的同学按照初步拟定的日期安排规划好自己的时间。
四、课题名称
机器翻译领域自适应
领域自适应是机器翻译研究中的一个重要话题。领域自适应旨在将一个强大的通用领域翻译模型适应到特定的目标领域,如医疗、法律领域等等。现有的领域自适应方案可以分为两种:以fine-tune为代表的有参数自适应方案和以kNN-MT为代表的无参数自适应方案。这两种方案学习目标领域数据的方式存在巨大差异,但是还鲜有研究工作讨论这两种学习方式对自适应模型偏好带来的影响。本课题将带领营员复现fine-tune和kNN-MT这两种流行的领域自适应方案,系统地对比不同学习模式之间的差异,探索领域自适应过程中存在的问题。
使用大规模预训练语言模型增强机器翻译
得益于高效的Transformer 架构以及超大规模的自监督训练任务,以BERT为代表的大规模预训练语言模型(Pretrained Language Model, PLM)近年来席卷了自然语言处理的几乎全部领域。PLM的利用通常以在任务特定的数据上微调的方式进行,然而,对于机器翻译(MT)这种训练数据十分充裕的任务, 传统的预训练-微调模式似乎不那么奏效,这要求我们探索新的高效利用PLM的方式。在本次夏令营中,本课题将带领营员回顾并实现近年来研究人员提出的利用PLM增强机器翻译模型的几类方式,比较其中优劣得失,并尝试探索新的PLM for MT的道路。
多语言端到端知识库填充
知识在众多自然语言处理系统中扮演着重要的角色,例如:对于问答机器人,回答用户提问通常需要背景知识作为支撑。知识库由于其格式规范而易于利用的特点成为目前主流的知识来源。而由于新知识每天都在产生,知识库时刻面临着过时的风险,因此将新知识及时填充入库的技术十分重要。当前填充技术存在两个主要问题:其一,依赖多个独立子系统流水线作业,导致误差传递;其二,忽视知识库多语言特性,只能利用单一语言数据进行填充。针对以上两个问题,本课题旨在设计多语言端到端填充系统,以求减轻误差传递问题,同时充分利用不同语言书写的互联网文本数据。
开放世界下的文本分类
传统的文本分类模型往往基于封闭世界假设,即测试文本必属于训练类别。与之相对,在开放世界假设下,模型需要处理不属于训练类别的测试文本,即新类别文本。新类别的出现给分类任务带来了新的挑战,模型不仅需要对从属于训练类别的文本进行分类,还需要检测出新类别,并持续学习新类别。在开放世界假设下,模型如何检测和学习未知类别,以及如何在学习中避免对已知类别产生遗忘,将是本课题重点探究的问题。
层次化多标签文本分类
多标签文本分类是指从预定义的标签集合中根据文本内容为其分配相关标签。其中一种特殊情形是标签存在特定的层次关系。相较于将其当做普通的多标签文本分类任务(也称为平的多标签分类任务),利用该层次关系可以大幅提升模型性能。本课题将带领营员回顾近些年学者如何利用该先验知识提升模型性能,并尝试做出一些改进。
小学数学应用题解答
近年来,用深度学习解决数值推理问题受到了越来越大的关注,而训练深度神经网络解答小学数学应用题是其中一个具体的任务。解答小学数学应用题,一般是让模型学习其对应的数学表达式,进而通过计算表达式获得问题答案。
在这个过程,模型学习目标数学表示式,即可以看成是序列到序列的过程,也可以看成是序列到树(将表达式转化为树结构)的过程。 相关研究表明,对于更为复杂的应用题,树可以更好的表示应用题的语义结构,序列到树的映射也能更好的被模型学习到。
因此本课题集中在表示式树结构(将表达式转为树)的研究,大致分为3个递进的阶段性目标,其中二三阶段目标作为尝试目标:
一 :表达式模板预测: 通过遍历表达式树结构得到表达式模板,进而将问题求解转化为表达式模板分类和模板填充。
二 :结构化预测:将问题求解看成序列到树的生成任务,并尝试不同的解码方式生成树。
三:树的集成:探索集成各种树结构,从而使模型获得更好的任务性能。
利用人类反馈增强的图像描述生成
图像描述(Image Captioning)是连接视觉-语言的多模态研究中的核心 问题之一。近年来,随着多模态预训练模型的发展,基于预训练的图像描述模型在自动化评价指标上取得了显著的提升。然而,有研究表明自动化评价指标并不完全切合人类对于图像描述的偏好,这限制了模型生成更高质量、更符合人类需求的图像描述的能力。为了解决这一问题,本课题探索如何用人类反馈指导AI的学习过程,借助人类对模型生成图像描述质量的反馈,我们可以构建一个细粒度图像描述质量评估数据集,同时进一步提升模型描述生成的质量。
五、联系方式
如有任何疑问,请联系邮箱:liul@smail.nju.edu.cn。