Синтаксис смайликов и нейросети для древнеирландского на Колмогоровских чтениях
В этом году на Колмогоровских чтениях было предствалено почти три десятка докладов и постеров, охватывающих разнообразные сферы применения компьютерных технологий в лингвистике. Студенты и преподаватели Вышки, МГУ и МГТУ имени Баумана, а также коллеги из других университетов России представили свои исследования, посвященные автоматическому распознаванию жанра текстов, дискурсивным формулам в пьесах на русском языке, диахронным изменениям коллокаций и семантической близости.
Семинар начался с лекции Леонида Лейбовича Иомдина, который рассказал о работе лингвистического процессора ЭТАП 3, особое внимание уделив синтаксическим и семантическим особенностям переводчика. ЭТАП 3 — одна из немногих систем, полностью основанная на правилах, что довольно необычно для современных исследователей, работающих преимущественно со статистическими методами машинного перевода.
Анастасия и Константин Лопухины представили исследование Центра языка и мозга НИУ ВШЭ, посвященное предсказуемости слов в нейролингвистических исследованиях. Способность человека предугадывать следующее слово в предложении сравнивалась с данными модели, построенной на корпусах русского языка. Корпусная лингвистика в этом случае может помочь предсказать наиболее предпочтительные варианты и сэкономить время исследователей.
Ольга Ляшевская рассказала о Universal Dependencies — новом формате представления синтаксической разметки, которая позволяет унифицировать корпуса разных языков. Последние данные, собранные по материалам русскоязычного сегмента интернета, ставят перед лингвистами своеобразные задачи — например, теперь нужно решать, каким типом связи объединены смайлы, часто встречающиеся в интернет-коммуникации?
Разнообразие подходов к изучению языка было заметно и в методах исследования — от классических статистических метрик в докладе Дианы Соболевой о вопросно-ответной системе до популярных ныне нейронных сетей — Оксана Дереза рассказала об опыте лемматизации языков с ограниченными ресурсами на примере древнеирландского, а Николай Русначенко — об использовании сверточных нейронных сетей для извлечения настроений из аналитических текстов.
В этом году наконец удалось закрепить дату семинара — день рождения выдающегося математика и статистика А. Н. Колмогорова станет днем обсуждения проблем обработки естественного языка.