Жизнь минус любовь = прозябание, или обновлённый RusVectōrēs
RusVectōrēs — это инструмент для работы с лексическими моделями дистрибутивной семантики (word embeddings) прямо в браузере. Подобные алгоритмы (word2vec, GloVe, fasttext и другие) в последние несколько лет произвели революцию в обработке естественного языка. Они позволяют «научить» компьютер определять значения слов, используя в качестве обучающего множества большие массивы текстов и статистику совместной встречаемости слов в них.
На нашем сервисе можно попробовать в действии модели, обученные на различных русскоязычных корпусах, а также скачать их для локальной работы. Чтобы вы могли быстро ознакомиться с тем, что может RusVectōrēs, мы подготовили краткий видеобозор. Из него, например, можно узнать, как работает семантический калькулятор, что будет, если вычесть из вектора слова «жизнь» вектор слова «любовь», и какие слова относятся к «России» так же, как «пицца» к «Италии»:
RusVectōrēs можно использовать для демонстрации возможностей дистрибутивной семантики, для быстрой проверки лингвистических гипотез или для интересных и полезных игр на занятиях, связанных с семантикой русского языка. Особо прогрессивные личности даже реализуют на основе наших моделей поэтичный поисковик по стишкам-пирожкам.
Новости проекта за 2016 год:
- Мы доступны по новому адресу http://rusvectores.org. Старый адрес http://ling.go.mail.ru/dsm также работает, но лучше использовать новый домен.
- Модели переобучены на обновленных корпусах: новостной корпус теперь покрывает события вплоть до ноября 2016 года, дамп Википедии также обновлён до этой даты, более полно извлечены тексты из Национального корпуса русского языка.
- Все корпуса прошли фильтрацию через автоматический определитель языка. Это позволило избавиться от случайных украинских, белорусских и казахских фраз.
- Долгое время слова в наших моделях были снабжены частеречными тэгами по стандарту Mystem/НКРЯ. Сейчас, для упрощения сравнения результатов с другими языками, мы перевели тагсет на стандарт Universal PoS Tags. Таким образом, «модель_S» превратилась в «модель_NOUN». Впрочем, вы по-прежнему можете вводить запросы без частеречных тэгов вообще — RusVectōrēs определит часть речи вашего запроса автоматически.
- Двусловные словосочетания с высокой степенью коллокационной близости (по PMI) были склеены в одно слово через спецсимвол «::» и получили отдельные репрезентации (вектора). Таким образом, в моделях теперь присутствует некоторое количество биграмм, например, «боб::дилан_NOUN».
- Все модели снабжены оценками их качества по широко известным тестовым сетам SimLex999 и Google Analogies Dataset .
- Появились подсказки к запросам, адаптирующиеся по мере того, как вы вводите слово. Впрочем, не смущайтесь, если интересующее вас слово не появляется в подсказках: возможно, модели всё равно его знают, просто оно редкое.
- Расширен API, который вы можете использовать для автоматизированных запросов к сервису. В частности, теперь есть возможность запрашивать значения близости для пар слов, а результаты получать не только в tab-separated values, но и в JSON. Смотрите подробности на странице «О проекте»!
- Исправлено много мелких ошибок и внесено много менее важных улучшений (а также новых ошибок, но мы их исправим).
- Движок, на котором работает RusVectōrēs, выложен на Github как отдельное свободное программное обеспечение под названием WebVectors. Это означает, что теперь вы можете легко поднять аналогичный сервис на своих серверах с тем набором дистрибутивных моделей, который интересен лично вам. В частности, уже работает одноименный сервис с моделями для английского и норвежского языков . В апреле мы будем представлять WebVectors на демо-сессии конференции EACL-2017. Если вы окажетесь там же, мы будем рады услышать ваше мнение о сервисе лично!
У нас ещё много планов по дальнейшему совершенствованию RusVectōrēs. Подписывайтесь на наш RSS и оставайтесь с нами!
Команда RusVectōrēs:
Школа лингвистики: приглашенный преподаватель;
Университет Осло, научный сотрудник, докторант
Школа лингвистики: Ассистент