更会“听话”的未来计算机——自然语言处理入门-LingLab

更会“听话”的未来计算机——自然语言处理入门

636 阅读 2020-09-18 10:33:02 上传

以下文章来源于十分语言学

如何让人们日常使用的

汉语、英语这些自然语言

真正能为计算机所处理？

这一令人兴奋不已的问题

其实早在计算机出现之前

英国数学家图灵就曾天才的预见到

计算机和自然语言

将会结下不解之缘

1949年美国洛克菲勒基金会

副总裁威弗首先提出了

机器翻译设计方案

20世纪60年代初

自然语言理解真正成为一门学科

1962年国际上成立了

计算语言学协会

机器翻译的研究工作

在国外大规模兴起

伴随着大量应用实践

研究者认识到

一个好的机器翻译系统

应该把原语的语义

准确无误地在译语中表现出来

即在语义上机器翻译

必须保持原语和译语的一致

此后，语义分析成为

自然语言处理的核心部分

数据（Data）→

信息（Information）→

知识（Knowledge）→

“情报/智能”（Intelligence）

如何完成上述转换

实现真正的人机交互？

计算机如何彻底征服自然语言？

这些，都是无时无刻

不在发生的边界探索

一点一滴的小突破

都会被关注、被记录

湾区博士邀请来自上海交通大学的陶博士开设人工智能课题《自然语言处理入门》，系统介绍行为自然语言处理的主要内容和发展历程，重点讲解基于深度学习的自然语言处理的已有成果和未来研究方向，帮助学员从零基础迅速上手一门编程语言——python，引导学员确定感兴趣的子课题如文本分类、机器翻译、文本理解等，并掌握研究方法，同导师合作或者独立完成学术论文。

本课题邀请对自然语言处理以及与其关联的交叉学科、编程、python语言等领域感兴趣的学员参与研究。与陶博士一起深度交流，从乏味的日常学习中脱身而出，迈进真正的学术殿堂，驰骋在星辰大海的壮阔世界。

课题内容

第一阶段：研究领域介绍

系统介绍行为自然语言处理的主要内容和发展历程，从数学、人工智能、大数据以及计算科学的角度理解自然语言处理，重点讲解基于深度学习的自然语言处理的已有成果和未来研究方向。学员根据了解，在文本分类、机器翻译、文本理解等子课题中进行选择。

第二阶段：知识拓展和补充

系统介绍自然语言处理的研究方法、过程、论文撰写流程和技巧。介绍编程语言python的零基础迅速入门方法。

第三阶段：选题与研究

介绍每一个子课题的研究现状和潜在研究方向，细致讲解研究方法，包括：数据集搜集、实验环境搭建、模型算法的代码编写、服务器上做实验等具体研究过程。

第四阶段：研究成果

了解文献检索方法和论文阅读技巧，培养学术论文写作能力，掌握学术论文写作过程和思路，在项目期间内能够同导师合作或者独立完成一篇学术论文。

课题导师

陶博士

上海交通大学计算机科学与技术博士
研究方向为：深度学习以及自然语言处理，计算机视觉
参与过多项国家重点课题，包括公共区域关键人物定位跟踪等
曾利用自然语言处理技术获取关键信息，解决大型互联网公司海量信息自动智能分析处理问题

博士推荐阅读

[1] D. Nadeau and S. Sekine, “A survey of named entity recognition and classification,” Lingvist. Investig., vol. 30, no. 1, pp. 3–26, 2007. [2] Z. Zhang, X. Han, Z. Liu, X. Jiang, M. Sun, and Q. Liu, “ERNIE: enhanced language representation with informative entities,” in ACL, 2019, pp. 1441–1451.

[3] P. Cheng and K. Erk, “Attending to entities for better text understanding,” arXiv preprint arXiv:1911.04361, 2019.

[4] J. Guo, G. Xu, X. Cheng, and H. Li, “Named entity recognition in query,” in SIGIR, 2009, pp. 267–274.

[5] D. Petkova and W. B. Croft, “Proximity-based document representation for named entity retrieval,” in CIKM, 2007, pp. 731–740.

[6] C. Aone, M. E. Okurowski, and J. Gorlinsky, “A trainable summarizer with knowledge acquired from robust nlp techniques,” Adv. Autom. Text Summ., vol. 71, 1999.

[7] D. M. Aliod, M. van Zaanen, and D. Smith, “Named entity recognition for question answering,” in ALTA, 2006, pp. 51–58.

[8] B. Babych and A. Hartley, “Improving machine translation quality with automatic named entity recognition,” in EAMT, 2003, pp. 1–8.

[9] O. Etzioni, M. Cafarella, D. Downey, A.-M. Popescu, T. Shaked, S. Soderland, D. S. Weld, and A. Yates, “Unsupervised namedentity extraction from the web: An experimental study,” Artif. Intell., vol. 165, no. 1, pp. 91–134, 2005.

[10] R. Grishman and B. Sundheim, “Message understanding conference-6: A brief history,” in COLING, vol. 1, 1996.

[11] E. F. Tjong Kim Sang and F. De Meulder, “Introduction to the conll-2003 shared task: Language-independent named entity recognition,” in NAACL-HLT, 2003, pp. 142–147.

[12] G. R. Doddington, A. Mitchell, M. A. Przybocki, L. A. Ramshaw, S. Strassel, and R. M. Weischedel, “The automatic content extraction (ace) program-tasks, data, and evaluation.” in LREC, vol. 2, 2004, p. 1.

[13] G. Demartini, T. Iofciu, and A. P. De Vries, “Overview of the inex 2009 entity ranking track,” in INEX, 2009, pp. 254–264.

[14] K. Balog, P. Serdyukov, and A. P. De Vries, “Overview of the trec 2010 entity track,” in TREC, 2010.

[15] G. Petasis, A. Cucchiarelli, P. Velardi, G. Paliouras, V. Karkaletsis, and C. D. Spyropoulos, “Automatic adaptation of proper noun dictionaries through cooperation of machine learning and probabilistic methods,” in SIGIR, 2000, pp. 128–135.

[16] S. A. Kripke, “Naming and necessity,” in Semantics of natural language. Springer, 1972, pp. 253–355.

[17] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu, and P. Kuksa, “Natural language processing (almost) from scratch,” J. Mach. Learn. Res., vol. 12, no. Aug, pp. 2493–2537, 2011.

[18] Z. Huang, W. Xu, and K. Yu, “Bidirectional lstm-crf models for sequence tagging,” arXiv preprint arXiv:1508.01991, 2015.

[19] G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami, and C. Dyer, “Neural architectures for named entity recognition,” in NAACL, 2016, pp. 260–270.

[20] J. P. Chiu and E. Nichols, “Named entity recognition with bidirectional lstm-cnns,” Trans. Assoc. Comput. Linguist., pp. 357–370, 2016.

[21] M. E. Peters, W. Ammar, C. Bhagavatula, and R. Power, “Semisupervised sequence tagging with bidirectional language models,” in ACL, 2017, pp. 1756–1765.

[22] M. Marrero, J. Urbano, S. Sánchez-Cuadrado, J. Morato, and J. M. Gómez-Berbís, “Named entity recognition: fallacies, challenges and opportunities,” Comput. Stand. Interfaces, vol. 35, no. 5, pp. 482–489, 2013.

[23] M. L. Patawar and M. Potey, “Approaches to named entity recognition: a survey,” Int. J. Innov. Res. Comput. Commun. Eng., vol. 3, no. 12, pp. 12 201–12 208, 2015.

[24] C. J. Saju and A. Shaja, “A survey on efficient extraction of named entities from new domains using big data analytics,” in ICRTCCM, 2017, pp. 170–175.

[25] X. Dai, “Recognizing complex entity mentions: A review and future directions,” in ACL, 2018, pp. 37–44.

[26] V. Yadav and S. Bethard, “A survey on recent advances in named entity recognition from deep learning models,” in COLING, 2018, pp. 2145–2158.

[27] A. Goyal, V. Gupta, and M. Kumar, “Recent named entity recognition and classification techniques: A systematic review,” Comput. Sci. Rev., vol. 29, pp. 21–43, 2018.

[28] R. Sharnagat, “Named entity recognition: A literature survey,” Center For Indian Language Technology, 2014.

[29] X. Ling and D. S. Weld, “Fine-grained entity recognition.” in AAAI, vol. 12, 2012, pp. 94–100.

[30] X. Ren, W. He, M. Qu, L. Huang, H. Ji, and J. Han, “Afet: Automatic fine-grained entity typing by hierarchical partial-label embedding,” in EMNLP, 2016, pp. 1369–1378.

[31] A. Abhishek, A. Anand, and A. Awekar, “Fine-grained entity type classification by jointly learning representations and label embeddings,” in EACL, 2017, pp. 797–807.

[32] A. Lal, A. Tomer, and C. R. Chowdary, “Sane: System for fine grained named entity typing on textual data,” in WWW, 2017, pp. 227–230.

[33] L. d. Corro, A. Abujabal, R. Gemulla, and G. Weikum, “Finet: Context-aware fine-grained named entity typing,” in EMNLP, 2015, pp. 868–878.

[34] K. Balog, Entity-Oriented Search.Springer, 2018.

[35] H. Raviv, O. Kurland, and D. Carmel, “Document retrieval using entity-based language models,” in SIGIR, 2016, pp. 65–74.

参加课题

湾区博士的课题研究项目跨度12-16周，由博士1对1 指导，在选定的专业领域里，确定有价值的科研主题，开展定量和定性研究，并最终收获具有独立知识产权的一个研究结论和一篇学术论文。

关于湾区博士

湾区博士是国内领先的科研和学术背景提升平台。平台上汇聚了来自国内外众多名校包括清华、北大、麻省理工、斯坦福等在内的近两百名博士，他们在各自的专业领域，带领学生开展真正的前沿科学研究。

课题研究项目

加入湾区博士，你可以参加短期跨度12-16周、长期跨度1-2年的课题研究项目，由博士1对1指导，在选定的专业领域里，确定有价值的科研主题，开展定量和定性研究，并最终获得一个属于学生自己的研究结论。

加入湾区博士，你可以在数十个细分学科、几百个研究课题中找到自己的学术兴趣所在。

课题项目特色

1，三个项目模块

导论课程，专题研究，和论文课程

2，60课时

36科研课时，24个答疑课时

3，两位博士

学术导师教你开始科研，课题导师带你完成科研

4，两次答辩

文献阅读答辩，论文答辩

5，一篇论文

一篇有摘要、正文、引文、参考文献和附录、并符合学术期刊发表规范的学术论文

6，一封学术推荐信

一封包含学生丰富科研细节和成果描述的学术推荐信

7，八个收获

查阅文献技巧，文献快速阅读技巧，文献精读技巧，选题头脑风暴技巧，实验设计技巧，论文答辩技巧，论文投稿技巧，论文写作技巧

8，一次竞赛辅导

提供AMC，丘成桐，iGem，普林斯顿数学竞赛，协和历史论文竞赛等专业辅导

论文展示

参加课题的同学将完成一篇学术论文，彰显自己的学术能力，从而帮助斩获了海外名校的录取，或者收获学术竞赛奖牌。

论文发表

学术论文将会投稿发表在国际SCI刊物，还是EI或CSCI，或者是北大核心，南大核心等正规学术刊物上。同学们将会有一次完整的科研体验。

研究现场

在课题项目周期里，同学将会和博士导师们深度接触：头脑风暴确定课题方向，文献阅读疑难解惑，参加实验室实验或田野调查访谈，以及论文答辩。

学术交流

湾区博士定期组织的各种学术交流活动，参加课题的学生将结识非常多优秀的博士、学长、和同学们，就热点的学术话题展开讨论。参加湾区博士课题项目将会是一次有趣又有益的经历。

表情

图片

附件

热门资讯

北京大学CCL语料库【前沿】R语言元分析专题第七章：亚组分析【前沿】交叉滞后中介模型Mplus的应用语言学的主要分支【网上课堂】雨课堂+腾讯会议操作攻略语系、语族、语支——世界语言万花筒揭开句法学之谜：主谓框架－成分分析法的由... R语言元分析专题：计算效应量的大小 2020年最新语言学SSCI期刊影响因子排名... R语言元分析专题第五章：森林图

推荐工具