上个月,《你好,机器作诗了解一下》这篇文章发布之后,许多读者留言说希望小编能更全面地介绍下计算语言学的研究内容、相关读物和转专业留学申请等信息。于是,午餐君今天就为大家带来一份干货满满的计算语言学漫游指南!
国际计算语言学协会ACL
(AssociationforComputationalLinguistics)
本指南约字,预计阅读时间为9分钟。
前言
顾名思义,计算语言学(ComputationalLinguistics,CL)是一个介于计算机科学(ComputerScience)和语言学(Linguistics)之间的交叉学科。它主要研究如何通过建立有效的计算模型(ComputationalModel)从而使机器能理解并使用人类的自然语言。因此,计算语言学也一直是人工智能领域的研究热点之一。
在计算机科学和人工智能领域中,自然语言处理(NaturalLanguageProcessing,NLP)是一个更为常见的词汇,它指代的研究领域与计算语言学基本相同。也有一部分学者认为NLP是CL的一个子领域。不过,当代的大部分的NLP学者和CL学者的研究内容、方法和发表论文没有特别显著的差异,是属于同一个学术圈的。所以,小编这里就不特别区分二者啦!
注:这里的“自然语言”通常是指人类社会自然产生和使用的语言,如中文、英语、日语等,一般不包括人工设计的语言,如世界语、编程语言等。
应用与前景
看了上面对计算语言学的描述,小伙伴们可能会觉得它有点抽象,没什么用。实际却并非如此!小编认为,相比其他语言学分支,计算语言学的研究成果在我们当今生活中反而是最常用到的!比如:
文档编辑器(texteditor,如Word)能自动检测并修正文档的拼写和语法错误;
某语法检查软件的demo
搜索引擎(searchengine,如Google)结合知识图谱(knowledgegraph)可以理解查询语句,并快速检索到你所需要的信息;
在Goole上利用自然语言查询信息
机器翻译(machinetranslation)系统大大减轻了公文翻译所需的人力;
Google提供的机器翻译服务
语音助手(voice-controlledpersonalassistant,如Siri)可以理解口语指令并完成很多基础任务(虽然她好像脑子不太灵光);
使用iOS中的Siri完成日程管理任务
对话机器人(chatbot,如微软小冰)可以陪你一起聊天打趣度过孤独的时光;自动客服系统极大地提高了服务客户的效率;
和智能对话系统“微软小冰”闲聊
自动摘要(textsummarization)能有效避免信息时代“太长不看”的窘境;
情感分析(sentimentanalysis)可以分辨一条影评或微博反应了正面还是负面的情绪,从而实现舆情监控以及其他社会学分析;
机器作诗、机器写新闻稿、图像/视频自动描述(image/videocaptioning)等等……
这些或者实用、或者新奇的应用,都必然需要强大的NLP/CL研究和技术成果作为支撑。相比于视觉智能而言,语言智能更是人类区别于其他动物的核心能力。因此NLP也更为复杂和更为有趣。比尔·盖茨也曾表示“语言理解是人工智能领域皇冠上的明珠”。
所以,计算语言学这个方向无论是做学术研究,还是在工业界做研发都会是非常不错的选择。
具体研究方向
笼统地介绍了计算语言学的研究与应用之后,小编现在来更详细地介绍下几个当下比较基础和热门的研究方向,希望能帮助大家有一个较为全面的掌握。以下的研究方向均选自ACL的征稿启示(CallforPapers)。
1.词性标注(Part-of-SpeechTagging)是最为基础的NLP任务之一,它的目标是对一句话的每个词的词性进行标注。
词性标注
虽然这个任务的要求看似简单,但其实操作起来绝非易事。上图的例句有至少两种理解方式:第一种句意是“水果飞(flies)得像香蕉”,第二种则是“果蝇(fruitflies)喜欢香蕉”。在没有特殊语境的限制时,一个优秀的词性标注模型需要在这种干扰下选用更符合常理的第二种句意进行标注。所以,正确的标注结果如上图,ANVDN,分别表示fruit做形容词、flies做名词、like做动词、a做定冠词、banana做名词。
假设我们在处理一个20个词的句子,每个词平均可以拥有2种可能的词性,那么就有2^20=1,,种标注的方案,而其中往往只有一种是最正确的。如果没有一个优秀的模型,这种搜索无异于海底捞针。同时,词性标注又是其他很多NLP任务的基础,因此,一旦某个词的词性标注出错,造成的后患也不容小视。
2.句法解析(SyntaxParsing)是希望将一个句子自动映射到一棵符合标准的句法树上。根据不同规范,我们有ConstituencyParsing和DependencyParsing。
ConstituencyParsing