Выпускница факультета гуманитарных наук получила премию Бертрана Мейера
Полина Казакова, окончившая образовательную программу «Фундаментальная и компьютерная лингвистика», стала лауреатом премии Бертрана Мейера за лучшую исследовательскую работу на конференции SECR.
Конференция SECR проводится уже тринадцать лет и объединяет исследователей, разработчиков и представителей компаний-лидеров рынка в сфере IT. На конференцию представляют доклады и статьи, лучшая из которых отмечается премией, учрежденной Бертраном Мейером, известным французским программистом, создателем языка Eiffel.
В 2018 году премию получила работа «Тематическая сегментация в информационном поиске». В основе работы — исследование, выполненное выпускницей ВШЭ Полиной Казаковой совместно с ее коллегой Геннадием Штехом, студентом МГУ Николаем Скачковым и под руководством Никиты Никитинского.
«Идея в том, что короткие и тематически однородные (то есть такие, в которых идет речь о чем-то одном) текстовые фрагменты, лучше подходят для представления в векторном, численном, виде, — рассказывает Полина Казакова. — Именно такими представлениями дальше оперируют различные системы, связанные с обработкой естественного языка (NLP). Мы протестировали нашу гипотезу в задаче информационного поиска, где часто приходится работать с большими и тематически разнородными документами. Оказалось, что, если некоторым хитрым образом делить такие большие документы на маленькие смысловые кусочки, можно действительно улучшить качество поиска. Мы и дальше собираемся экспериментировать с этой темой, возможно, попробуем использовать такую сегментацию и в других задачах».
Задачами обработки естественного языка Полина занималась, еще когда училась в Вышке на программе «Фундаментальная и компьютерная лингвистика» (она окончила ее в 2017 году). Теперь же она работает в области data science в проекте IRELA.
«Скоро мы запускаем наш первый большой проект — это платформа анализа данных, состоящая из нескольких модулей, выполняющих разные функции анализа данных и обработки естественного языка. Например, у нас есть модуль мультиязычного поиска — он позволяет искать документы на разных языках, не переводя запрос вручную. Это достаточно сложная задача, гораздо сложнее моноязычного поиска. И там, кстати, мы как раз используем ту самую тематическую сегментацию документов, чтобы получать лучшее качество. Так что мы пишем статьи не ради статей, а ради того, чтобы использовать полученные результаты на практике», — отмечает Полина Казакова.