今天谈谈COLING2018计算语言学进展

7.25号的时候,陪余南师兄去参加了COLING2018预讲会中科院自动化所现场。

知己知彼,百战不殆。想要发出顶级会议论文,还是得分析当今潮流。所以今天给大家分享下特邀嘉宾张家俊(今年COLING领域主席)开场:从COLING2018看计算语言学进展 报告。

COLING 中国力量

COLING:International Conference on Computational Linguistic,国际计算语言大会。

2008年 20篇accepted(180 accepted,24% accepted rate)

中国占比1/6,而今非昔比:

2018年 100篇accepted (331 accepted,37% accepted rate)

中国占比近1/3!可以看出咱们在AI方向前进之快,虽然没说质量如何,但是数量起来了之后,质量肯定随之而来。

review 有所不同

为了更加公平公正,今年的COLING做了以下变化:

1.在领域主席视角,会隐藏论文作者。

这样会避免因为你是很著名的人而给的心理分,而非客观分数。

2.reviewer看不到其他reviewers的评价。

当然目的是不受其他因素影响。

热点和趋势

COLING2018 vs COLING2016

可以看出COLING2018的趋势已经变为神经网络为主。小道消息:今年好像涉及到GAN,半监督学习,强化学习会更容易接受!哈哈,当然,我们不能以发论文而发论文,只是了解下即可。

而拿COLING2018和ACL2018、NAACL2018顶会相比,有以下异同点:

  1. 目前所有自然语言处理和计算语言学会议几乎存在相同的热点和趋势:神经网络、注意机制、表示学习,语义和知识等。
  2. 区别于北美基因的ACL和NAACL,欧洲基因为COLING更加关注语言规律和模型的分析。

代表领域分析

语义表示

对比分析

  1. 语义表示收到了越来越多的关注,对比2018和2016,11->17上升了50%。
  2. 深度学习方法占主导地位
  3. 随着语义表示模型的发展,更多的工作开始关注融合多种信息的、任务或领域特异的、跨语言的、语义消歧的表示学习方法。
  4. 在各顶会(COLING2018和ACL2018、NAACL2018)占比基本相当。
  5. 顶会(COLING2018和ACL2018、NAACL2018)在语义表示领域内容基本一致。

热点和趋势

  1. 融合多种信息的、任务或领域特异的、跨语言的、语义消歧的表示学习方法成为热点。
  2. 由于句子在大部分自然语言处理任务中占据更重要的作用,通用的句子表示学习收到了越来越多的关注。
  3. 随着语义表示框架的逐渐完善,很多工作开始关注如何分析与理解模型的工作机制和评价编码语义的能力。

机器翻译

对比分析

  1. 机器翻译一直是COLING的一个热点,文章数量的占比一直都很大(23/337 vs 23/331)
  2. 神经网络机器翻译的兴起,使得统计学习相关研究大幅度下降(5 vs 1),而神经网络相关研究大幅度提升(4 vs 11)。
  3. 机器翻译在这三个顶会占比基本相当。
  4. COLING更注重语言学知识(比如篇章,句法)在机器翻译中的应用。而ACL和NAACL设计范围更广,包括多模态翻译(图像,语音等)。

热点和趋势

  1. 从模态结构来说,机器翻译领域的baseline,有从RNN-based NMT到Transformer转换的趋势,并且如何改善解码效果也是学术界和工业界一直关注的问题。
  2. 从研究领域来说,稳当翻译多模态翻译(图像翻译,语音翻译),低资源多语言翻译或许继续是未来的热点。
  3. 从机器翻译的角度来看,有些语言的不可解释性依然是个大问题,但也是未来的研究方向。

人机对话

对比分析

  1. 对话领域受到越来越多的关注,文章数量有较大的提升,探讨的主题也越来越丰富
  2. 对话领域和模式识别的其他领域(例如情感,多模态)也逐渐受到了人们的关注。
  3. 对话领域中,聊天系统比重最大。
  4. 对话系统在不同的会议中,比重依然是最大的。
  5. 任务型对话系统在ACL系列中关注度比COLING高。
  6. COLING和NAACL更加偏重于数据构建的工作,而ACL则少见。

热点与趋势

  1. seq2seq是对话系统中常用的方法。
  2. 最热的是构建闲聊系统。
  3. 对话领域和其他领域的结合是未来的趋势。

自动摘要

对比分析

  1. COLING中摘要的比重增加50%(18/331 vs 12/337)
  2. 越来越多的工作面向领域中特定型摘要,eg:Product Summarization,Review Summarization。
  3. 生成式摘要远比16年要高,这得益于端到端的模型在摘要领域的成功。
  4. 相比于ACL2018和NAACL2018,Sentence Summarization只出现在COLING2018,而那两个会议的重点则在于抽取型和生成型结合。
  5. 多文本摘要只出现在COLING2018上。COLING的工作偏向于传统工作。

情感分析

包括很多细方向:

Classification,Transfer,Aspect,Resource,Emotion,Summarization,Dialog,Spam and Others。

对比分析

  1. COLING内的相关文章越来越多(21/337 vs 25/331)
  2. 传统分类的文章则越来越少,说明这个领域的越来越成熟,可研究的方向不多。
  3. 其他类别的文章(如 Aspect,Resource,Emotion)越来越多。
  4. COLING2018有关情感的文章相比于NAACL2018和ACL2018多。
  5. COLING2018 Resource文章8篇,而其他两会没有,那么大概可以说明资源型文章更加偏向于COLING。
  6. ACL2018和NAACL2018 Others方面的文章有4篇和2篇(COLING2018没有),可以看出ACL和NAACL是偏向于新颖的研究的。

多模态信息处理

即Multi-model,包括:

Multi-model text classification(多模态文本分类)

Multi-model sentiment analysis (多模态情感分类)

Image/video captioning (图片/视频标题生成)

Social media information processing (社交媒体信息处理)

Multi-model sementics (多模态语义表示)

对比分析

  1. 多模态领域是COLING的一个崭新的领域,文章数量较少(2016无,2018有3篇)
  2. 社交媒体是多模态的一个重要来源,利用多模态数据增强数据语义表示将会是一个有趣的课题。
  3. 多模态在COLING2018文章较少,在NAACL2018和ACL2018较多,关注度较广,但仍然没有得到研究者的广泛关注。

最后一些话

以上是今年COLING2018预讲会上开场ppt的内容,因为用手机拍摄的,所以有些图片没拍上,但是也不影响大雅,最后希望能帮到在论文迷茫的你!嘿嘿。与你们共勉,一起发顶会论文(说这样的话,我有点慌O.O)

IELTS a bit

assent vi. 同意;赞成

n. 同意;赞成

be adept at v. 擅长

landmark n. 地标;界标;里程碑;纪念碑;划时代的事

adj. 有重大意义或影响的

utterly adv. 完全地;绝对地;彻底地

confidential adj. 机密的;表示信任的;获信任的