• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Факультет гуманитарных наук

 

Подписаться на новости

Синтаксис смайликов и нейросети для древнеирландского на Колмогоровских чтениях

25 апреля, в день рождения А.Н. Колмогорова, в третий раз прошел совместный семинар ФГН и ФКН "Колмогоровские чтения". Семинар посвящен проблемам обработки естественного языка автоматическими методами и позволяет лингвистам и математикам обсудить наиболее животрепещущие проблемы в междисциплинарной области Natural Language Processing, не прибегая к посредникам.

В этом году на Колмогоровских чтениях было предствалено почти три десятка докладов и постеров, охватывающих разнообразные сферы применения компьютерных технологий в лингвистике. Студенты и преподаватели Вышки, МГУ и МГТУ имени Баумана, а также коллеги из других университетов России представили свои исследования, посвященные автоматическому распознаванию жанра текстов, дискурсивным формулам в пьесах на русском языке, диахронным изменениям коллокаций и семантической близости. 

Семинар начался с лекции Леонида Лейбовича Иомдина, который рассказал о работе лингвистического процессора ЭТАП 3, особое внимание уделив синтаксическим и семантическим особенностям переводчика. ЭТАП 3 — одна из немногих систем, полностью основанная на правилах, что довольно необычно для современных исследователей, работающих преимущественно со статистическими методами машинного перевода. 

Анастасия и Константин Лопухины представили исследование Центра языка и мозга НИУ ВШЭ, посвященное предсказуемости слов в нейролингвистических исследованиях. Способность человека предугадывать следующее слово в предложении сравнивалась с данными модели, построенной на корпусах русского языка. Корпусная лингвистика в этом случае может помочь предсказать наиболее предпочтительные варианты и сэкономить время исследователей.

Ольга Ляшевская рассказала о Universal Dependencies — новом формате представления синтаксической разметки, которая позволяет унифицировать корпуса разных языков. Последние данные, собранные по материалам русскоязычного сегмента интернета, ставят перед лингвистами своеобразные задачи — например, теперь нужно решать, каким типом связи объединены смайлы, часто встречающиеся в интернет-коммуникации?

Разнообразие подходов к изучению языка было заметно и в методах исследования — от классических статистических метрик в докладе Дианы Соболевой о вопросно-ответной системе до популярных ныне нейронных сетей — Оксана Дереза рассказала об опыте лемматизации языков с ограниченными ресурсами на примере древнеирландского, а Николай Русначенко — об использовании сверточных нейронных сетей для извлечения настроений из аналитических текстов.

В этом году наконец удалось закрепить дату семинара — день рождения выдающегося математика и статистика А. Н. Колмогорова станет днем обсуждения проблем обработки естественного языка.