• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Факультет гуманитарных наук

 

Подписаться на новости

Апельсины, пальмы, солнце… и семантические вектора

Студентка школы лингвистики Лиза Кузьменко съездила на EACL, главную европейскую конференцию по компьютерной лингвистике, выступив там сразу с двумя докладами. Мы публикуем её рассказ о солнечной Испании, вдохновляющих cutting-edge исследованиях и украденных очках.

В начале апреля я побывала на конференции EACL в Валенсии. Эта конференция была прекрасна всем: городом проведения, докладами и людьми, с которыми я общалась.

Начнем с города. Самое прекрасное, что есть в Валенсии (и вообще в Испании), — это погода. После дождливой Москвы очутиться в солнечном месте — это настоящее счастье. В Валенсии в это время цвели самые разные деревья с непередаваемыми ароматами, и множество пальм на улицах создавали настоящую южную атмосферу. Правда, гулять приходилось в основном после конференции, ночью, но пальмы с апельсиновыми деревьями и в лунном свете хороши. Смешно, но я думала, что пока буду в Валенсии, в Москве погода наладится и у меня будет ранняя и длинная весна, но надежды не оправдались.

Не менее замечательной была и сама конференция. У меня на конференции было два доклада: на воркшопе про Balto-Slavic Natural Language Processing и на демо-сессии основной программы конференции. Воркшоп мне очень понравился. Ключевым докладчиком на нём был Сергей Шаров, который рассказывал про Natural language processing (NLP) для всех славянских языков. Докладчики затем рассказывали про различные NLP задачи для своих конкретных языков. Мне очень понравилось выступать со своим докладом: атмосфера на воркшопе царила очень доброжелательная и заинтересованная, после доклада мне задавали много вопросов и предложили несколько ценных идей для продолжения работы, что очень порадовало. После воркшопа все участники отправились на неформальный ужин, на котором у меня внезапно украли солнечные очки. Вот вам и Испания! Но ужин это не сильно испортило, скорее рассмешило.

Программа основной части конференции была очень насыщенная. Каждые два часа приходилось делать нелёгкий выбор — идти на какую-то одну секцию, в то время как интересны все доклады разом. Я в основном выбирала секции по семантике и эмбеддингам (embeddings). Ещё послушала доклады в новом для себя направлении —про генерацию текстов. Я решила ознакомиться с исследованиями по этой теме, так как примерно об этом будет и моя курсовая в этом году (более конкретно, про оценку диалоговых корпусов для создания чатботов). Содержание докладов изумительное — сгенерировать можно всё что угодно: письма, отзывы на товары, биографии людей, и при правильно подобранных параметрах модели сгенерированные тексты будут неотличимы от текстов, написанных людьми. Однако через некоторое время устаёшь от того, что решают эту задачу все примерно одинаково и изюминка каждого доклада в основном в том, какие тренировочные данные используются.

Ещё я с особым вниманием слушала доклады, посвященные выделению семантических ролей (semantic role labeling), потому что про это мы делаем проект в магистратуре. Что интересно, среди докладов было мало докладов про полноценные семантические парсеры, который бы выделяли все роли разом. Был только один доклад про выделение ролей в китайском языке. В основном все занимаются разметкой конкретного набора ролей, например, в конструкциях причины. И, как видно из докладов, в основном решение этой задачи упирается в недостаточное количество размеченных данных.

В секциях по семантике и эмбеддингам в основном обсуждалось то, как можно обогатить эмбеддинги с помощью различных лексических ресурсов. Ещё очень популярная тема сейчас — обучение кросс-лингвистических моделей, то есть таких, которые можно было бы использовать для обработки нескольких языков. Очень запомнился один доклад на постерной сессии, где авторы обучали векторные семантические модели для языков с малым количеством лингвистических ресурсов. Изначально модели обучались, естественно, на данных для английского языка, а потом трансформировались так, чтобы их можно было применить к другим low resource языкам. Как ни странно, в списке этих low resource языков был в том числе и русский. Также мне, как и многим другим, очень понравилась и запомнилась работа Östling  & Tiedemann. Её авторы делали мультиязыковые векторные семантические модели, которые затем можно было сравнивать между собой и, например, вычитать из одного языка другой. Этот доклад также был представлен на постерной сессии.

Нужно сказать, что мне вообще более симпатичны постерные доклады. Почему-то мне кажется, что на постерных сессиях представлены наиболее оригинальные работы, опять же возможность лично общаться с авторами работы тоже очень привлекает. И на этой конференции, и на многих предыдущих постерные сессии мне понравились гораздо больше, чем обычные доклады.

В предпоследний день конференции у меня с моим соавтором Андреем Кутузовым был ещё один доклад про фреймворк WebVectors, одним из представителей которого является RusVectores, но демо-сессия была в дальнем углу здания, и до неё добралась лишь небольшая часть участников.

Ещё очень ценной частью конференции было общение с другими участниками. Так сложилось, что большую часть времени я всё равно общалась с русскоговорящими участниками, однако удалось пообщаться и с другими людьми тоже. На конференционном ужине я разговаривала с исследователем из Израиля и узнала множество интересных и неожиданных вещей, например, что созданный в нашей школе лингвистики корпус языка идиш больше по размеру, чем корпус иврита, который разрабатывают в Израиле (а корпуса идиша у них совсем нет). Можем гордиться! Ещё многие участники интересовались состоянием компьютерной лингвистики в России. Я отвечала, что всё нормально и компьютерная лингвистика на высоте. А ещё многие отмечали, что очень хотят поехать на какую-нибудь конференцию в России, а у нас они редко проводятся (EACL, пожалуй, никогда до нас не доедет), и я всех приглашала на Диалог.

В целом конференция была для меня очень полезной, так как в очередной раз позволила увидеть, какие темы сейчас актуальны в компьютерной лингвистике. Кроме того, я посетила несколько докладов по темам, которыми я сейчас занимаюсь (эмбеддинги, семантический парсер, natural language generation), и поняла, в каком направлении стоит копать в наших проектах. Ну, и немножко загореть в начале апреля тоже бесценно.