В школе лингвистики прошел Gensim Coding Sprint
Python-библиотека gensim — популярный инструмент для автоматической обработки языка, основанный на машинном обучении. Он активно используется как коммерческими компаниями, так и академическими исследователями. В gensim реализованы алгоритмы дистрибутивной семантики word2vec и doc2vec, он позволяет решать задачи тематического моделирования (topic modeling) и выделять основные темы текста или документа (например, веб-страницы).
От школы лингвистики в хакатоне участвовали как магистры программы «Компьютерная лингвистика», так и бакалавры старших курсов. Кроме того, к ним присоединились представители МФТИ.
Участники хакатона могли выбирать между заданиями двух типов: исправлять ошибки (баги) непосредственно в коде или читать и улучшать обучающие материалы по gensim. Как отметил организатор хакатона Лев Константиновский, студентам школы лингвистики удалось внести свой вклад в оба дела.
Спасибо большое за организацию вчера. Было приятно познакомиться со студентами школы лингвистики. И конечно же, несколько багов исправили! Удалось поговорить со студентами об их курсовых проектах. Есть интересные, и некоторые используют gensim
После хакатона Лев выразил готовность помочь студентам школы с проектами, использующими библиотеку gensim. Получить его консультации можно, приняв участие в бесплатной (но крайне требовательной) студенческой программе обучения Data Science.
Лев Константиновский
разработчик и community-менеджер gensim