🥳 200만 유저의 친구 ‘이루다’ 기술로 AI 캐릭터를 자유롭게 만들어보세요 ‘핑퐁 스튜디오’ 보러가기

Tech

EMNLP 2020 프리뷰

알아두면 쓸데있는 신비한 EMNLP 2020! 저희가 준비해보았습니다.

고상민 구상준 김준성 서상우 이주홍 장성보 정다운 | 2020년 11월 11일 | #Machine_Learning

Conference on Empirical Methods in Natural Language Processing (EMNLP)은 자연어 처리(NLP) 분야를 주도하는 국제 컨퍼런스 중 하나로 매년 많은 NLP 연구자들이 주목하는 학회입니다. 올해 EMNLP는 COVID-19로 인해서 온라인 형식으로 진행됩니다. 그래서 핑퐁팀은 메인 컨퍼런스가 진행되는 11월 16일부터 20일에 다 같이 모여 관심 있는 발표들을 들어볼 예정입니다.

학회에 제출된 논문 중 팀원들이 관심 있는 주제로 각자 한 편씩 선정하여 총 7편을 간단히 리뷰 해보았습니다. 또한 주홍님의 시각화 자료를 기반으로 이번 학회의 키워드, 주제 등을 분석한 내용을 첨부했으니 이번 학회에 관심 있는 분들께 도움이 되었으면 좋겠습니다.

* 본 글에 나열된 논문들과 그 순서는 각 팀원들의 주관적인 취향을 기준으로 정한 것이며 객관적으로 평가된 것이 아니라는 것을 다시 한번 말씀드립니다.

학회 추이

키워드로 보는 학회

워드클라우드
그림 1. EMNLP2020에 게재 승인된 논문 제목에서 추출한 워드 클라우드
키워드 빈도순
그림 2. 빈도순으로 정렬한 논문 제목 키워드

논문 제목에 나타난 단어를 빈도 순으로 나타내 보았습니다. 그 중에서 이번 EMNLP에서 특히 주목할 만한 키워드 세 가지를 살펴 보겠습니다.

Generation

변함없이 제일 많이 사용된 키워드는 “generation”입니다. 무려 105회나 쓰였습니다. 어떻게 좋은 문장을 생성하는가는 자연어 처리에서 매우 중요한 문제입니다. 올해 OpenAI에서 발표한 GPT-3가 놀라운 성과를 보여준 것과 더불어 올해 EMNLP에서는 자연어 생성 관점에서 여러 가지 방향으로 연구가 활발히 진행되고 있습니다. 기존의 연구들이 문맥에 맞는 말을 생성하는 것에 집중하였다면 현재의 생성 연구는 1) 보다 다양한 말을 하도록, 2) 일관적인 말을 하도록, 3) 편견이나 차별이 포함된 말을 하지 않도록 하는 등 여러 가지 방면에서 진행되고 있습니다. 연구자들이 생성에서 현재 어떤 문제에 관심을 갖고 있는지는 이번 학회에서 꼭 주목해야 할 점입니다.

Dialogue

두 번째로 많이 나온 키워드는 “dialogue”로 “dialog”까지 포함하면 총 79회 쓰였습니다. EMNLP 2019의 논문 제목 키워드와 비교를 해보았을 때 “dialogue” 키워드 순위가 작년에 비해 월등히 높아진 것을 알 수 있습니다. 이는 NLP 분야가 발전함에 따라 대화 관련 연구들이 더욱 활발하게 이루어지고 있기 때문입니다. 대화를 잘 한다는 것은 한 가지의 능력이 아니라 종합선물세트 같이 여러 능력을 모두 필요로 합니다. 오픈도메인 챗봇 분야를 연구하고 있는 만큼 핑퐁팀도 이번 EMNLP 에서 어떤 연구가 진행되었는지 주의 깊게 보고자 합니다.

Knowledge

그 다음으로 많이 나온 키워드는 “knowledge”입니다. 특히 “knowledge graph”, “knowledge-grounded”, “knowledge distillation” 관련된 논문들이 많았습니다. 지금까지의 논문들은 주로 QA 분야에서 지식 그래프를 이용하는 것에 그쳤다면 최근에는 대화처리나 생성, 감정 분석 등 다른 태스크에서 외부 지식을 활용하여 문제를 더 잘 풀어 보려는 노력이 활발히 이루어지고 있습니다. 또한 이러한 지식을 어떻게 다른 도메인 문제에 녹여낼 것인지(domain adaptation), 또 방대한 지식들을 보다 가벼운 모델에 담을 수 있는지(경량화)의 관점에서 다뤄지고 있습니다.

논문 Review

총 7편의 논문을 abstract와 핵심 figure를 중심으로 간략하게 리뷰 해보았습니다.

Learning a Simple and Effective Model for Multi-turn Response Generation with Auxiliary Tasks

저자 : Yufan Zhao, Can Xu, Wei Wu (Microsoft Corporation)
키워드 : Response Generation

aux 모델 구조
aux task 종류

$F^2$-Softmax: Diversifying Neural Text Generation via Frequency Factorized Softmax

저자 : Byung-Ju Choi, Jimin Hong, David Keetae Park, Sang Wan Lee (Humelo, Columbia University, KAIST)
키워드 : Generation

F2-softmax 대표 이미지
\[\hat{p}(x_t | x_{<t}) = \hat{p}_1 (c_t| x_{<t}) \cdot\hat{p}_2(x_t| c_t, x_{<t})\] \[\mathcal{C}' = \mathrm{argmax}_{\mathcal{C}}[\mathcal{U}(\mathcal{C}) + \frac{1}{|\mathcal{C}|} \sum_{i \in \mathcal{C}} \mathcal{U}(\mathcal{V}_i)]\]

Intrinsic Probing through Dimension Selection

저자 : Lucas Torroba Hennigen, Adina Williams, Ryan Cotterell (Québec Artificial Intelligence Institute (Mila), University of Cambridge, Facebook AI Research, ETH Zürich)
키워드 : Embeddings, Probing, Contexual Representation

dimension selection 대표 이미지
dimension selection multi language

Will I Sound Like Me? Improving Persona Consistency in Dialogues through Pragmatic Self-Consciousness

저자 : Hyunwoo Kim, Byeongchang Kim, Gunhee Kim (Seoul National University)
키워드 : Generation, Persona Consistency

self consicous agent 그림
imaginary listener 구현

Experience Grounds Language

저자 : Yonatan Bisk, Ari Holtzman, Jesse Thomason et al.
키워드 : Language Grounding

world scope 종류

Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation

저자 : Nils Reimers, Iryna Gurevych (UKP-TUDA)
키워드 : Sentence Embeddings, Multilingual, Knowledge Distillation

knowledge distillation을 이용한 multi lingual sentence embedding

Unsupervised Commonsense Question answering with Self-Talk

저자 : Vered Schwartz, Peter West, Ronan Le Bras, Chandra Bhagavatula, Yejin Choi (Allen Institute for Artificial Intelligence, University of Washington)
키워드 : Question Answering

QA with self-talk

마치며

NLP 기술이 점차 발전하면서 다양한 방법과 주제로 이전보다 많은 양의 논문이 발표되고 있으며 그 것들을 모두 읽는 것은 어렵습니다. 따라서 연구와 개발에 필요한 논문을 잘 고르는 것이 중요합니다. 핑퐁팀은 새로운 아이디어를 제공하는 논문을 취사선택하여 읽고 연구에 도움이 되는 방향을 고민합니다. 이 문제 의식 속에서 나온 저희 글이 EMNLP 2020을 제대로 즐기는 데 조금이나마 도움이 되길 바랍니다.

References

스캐터랩이 직접 전해주는
AI에 관한 소식을 받아보세요

능력있는 현업 개발자, 기획자, 디자이너가
지금 스캐터랩에서 하고 있는 일, 세상에 벌어지고 있는 흥미로운 일들을 알려드립니다.