Лингвисты Вышки на «Диалоге–2017»
На минувшей неделе в Москве прошла международная конференция по компьютерной лингвистике «Диалог». Эта конференция уже много лет служит «местом встречи» прикладных специалистов по обработке естественного языка (программистов, инженеров, лингвистов-аналитиков) с академическими лингвистами, которые этот язык исследуют и моделируют. Конференция длилась четыре дня, и на каждый из них пришлось по несколько докладов школы лингвистики Факультета гуманитарных наук НИУ ВШЭ.
Начался «Диалог» с выступления Юлии Бадрызловой. В секции «Технологии лингвистического анализа» она представила исследование (выполненное вместе с Полиной Паничевой из СПбГУ) по автоматическому обнаружению глагольной метафоры средствами дистрибутивной семантики.
Применение моделей, учитывающих статистику контекстов употребления глагола, позволяют отличить прямое и непрямое значение слова (ср. столяр пилит доску и департамент пилит деньги или террористы взорвали самолет и заявление взорвало блогосферу)
В этот же день научный сотрудник лаборатории нейролингвистики Анастасия Лопухина вместе с Константином Лопухиным (Scraping Hub) рассказали о том, как автоматически разделять разные значения многозначных слов и выявлять при этом случаи регулярной полисемии (и тоже с помощью дистрибутивных моделей).
В этом исследовании также участвовал доцент школы лингвистики Борис Иомдин.
Затем доцент школы лингвистики Светлана Толдова и Максим Ионов из МГУ им. Ломоносова сделали доклад о том, какую роль играют в автоматическом разрешении анафоры семантические признаки.
Вечером того же дня состоялся доклад руководителя школы лингвистики Екатерины Рахилиной с интригрующим названием «Говорю я, Карл…».
Она рассказала об одной интересной устаревшей языковой конструкции, обнаруженной в текстах М.Ю. Лермонтова. Конструкция эта, по-видимому, является калькой из французского языка, однако при этом в современном французском соответствующий оборот также не встречается — следы его удалось найти, только исследовав французские тексты XIX века.
В той же секции выступала и профессор школы лингвистики Валентина Апресян. Её доклад был посвящен отрицательной и положительной поляризации в русском языке.
В секции по «автоматическому построению языковых моделей и получению лингвистических данных» приняли участие преподаватель школы филологии Александр Пиперски и приглашенный преподаватель школы лингвистики, научный сотрудник Университета Осло Андрей Кутузов. Александр Пиперски рассказывал о подходе к исследованию семантического ореола метра с помощью метода выделения ключевых слов.
Андрей Кутузов представил исследование корреляции между формой и значением слова на материале русского языка. Это исследование хотя и не ставит под сомнение, но значительно расширяет представление лингвистов об исключениях из закона произвольности языкового знака.
На следующий день подводились итоги ежегодного соревнования прикладных систем — еще одна традиция «Диалога». В этом году соревновались морфологические анализаторы, в организации «дорожек» участвовали представители школы лингвистики — профессор Ольга Ляшевская, а также студенты и выпускники магистерской программы «Компьютерная лингвистика».
В секции «Новые технологии анализа документов» было два доклада от школы лингвистики. Первый представили Евгения Мещерякова и Любовь Нестеренко — они рассказали о тематической классификации текстов в call-центрах.
Основную сложность в этой задаче составляет низкое качество автоматического распознавания звучащей речи, из-за которого фраза спасибо за звонок, до свидания легко превращается в спасибо за ногти коня.
Второй доклад сделал Даниил Скоринкин, показавший, как можно извлечь из художественного текста социальные сети персонажей, визуализировать их в виде графов, а также понять таким образом кое-что про внутреннюю структуру романа «Война и мир».
В последний день «Диалога» сотрудники школы лингвистики выступали в двух секциях — «Лингвистическая семантика. Формальные модели языка» и «Компьютерная психолингвистика. Автоматизация обучения». В первой секции доцент школы Александр Летучий представил свое исследование предикатов, маркированных и немаркированных по времени.
Во второй секции выступии доцент школы лингвистики Наталия Слюсарь с докладом «Орфографические соседи с заменой буквы при изучении механизмов лексического доступа»…
…а также профессор Ольга Ляшевская и доцент Ольга Виноградова — они рассказали о компьютерном методе полуавтоматической оценки студенческих эссе на экзаменах по английскому в НИУ ВШЭ.
Впечатления участников:
Ольга Ляшевская, профессор школы лингвистики
Мы с коллегами выступали организаторами двух соревнований в рамках «Диалога» — по морфологическому анализу русскоязычных текстов и по определению плагиата. Кстати, тестовые данные для систем определения плагиата помогала готовить наша мастерская «Антиплагиат», организованная в рамках проектной работы третьего курса. В целом, здорово, как много докладов было из Вышки, и особенно приятно было видеть множество докладов наших аспирантов и студентов. Некоторые студенты, нынешние и выпустившиеся, представляли компании, в которых они работают.
А на стендовой сессии, я бы сказала, уровень исследований наших студентов сильно обгонял большинство представленных «взрослых» докладов.Процедура рецензирования в этом году была строже, чем раньше, как мне показалось, например, одной из моих аспиранток пришлось трижды дорабатывать текст, чтобы перевести его из статуса «revise and resubmit» в «принятые к публикации в сборнике». Требовательный программный комитет ожидал, чтобы описанные гипотезы и алгоритмы были проверены экспериментально на большом объеме реальных данных, поэтому «проспекты проектов» и «размышления по поводу» остались за бортом. Даже не знаю, хорошо это или плохо.
Виноградова Ольга Ильинична
Кутузов Андрей Борисович
Мещерякова Евгения Игоревна
Нестеренко Любовь Владимировна
Пиперски Александр Чедович
Скоринкин Даниил Андреевич