• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Борис Орехов: «Интересно научить нейросеть не имитировать, а создавать что-то новое»

Доцент Школы лингвистики Борис Орехов рассказал в интервью для ПостНауки о том, какие возможности открывает Digital Humanities, как измерить авторский стиль с помощью математической статистики и зачем учить компьютер писать стихи.

Борис Орехов: «Интересно научить нейросеть не имитировать, а создавать что-то новое»

О Digital Humanities

Digital Humanities — это область, в которой применяются различные компьютерные инструменты, необязательно лингвистические. Потому что в рамках Digital Humanities можно изучать и фильмы, и картины, и археологические артефакты. Это область, где мы с помощью компьютерных инструментов изучаем явления человеческой культуры и акцент делаем именно на культурной составляющей.

А компьютерная лингвистика — это самостоятельная область, немного менее исследовательская и более инженерная. В рамках нее разрабатываются инструменты, которые помогают компьютерам обрабатывать тексты на естественном языке. Специалисты по Digital Humanities ими тоже пользуются. Но главным образом они нужны для каких-то инфраструктурных проектов, которые имеют дело с текстом. 

Например, информационный поиск. Что делают поисковики? Скачивают из интернета разные тексты и в ответ на запросы пользователей показывают те, которые, как им кажется, наиболее этим запросам соответствуют. Или, скажем, какой-нибудь юридической конторе нужно проанализировать очень много юридических документов и что-то из них извлечь. 

Компьютерно-лингвистические инструменты давно поставлены на службу тем, кто изучает блоги и социальные сети. Самый частый вариант — это отзывы о каких-нибудь брендах или услугах. Если этих отзывов сотни тысяч, прочесть их невозможно. Но можно настроить робота, который их проанализирует и поймет, что такой-то бренд или такую-то услугу ругают. 

С помощью компьютерной лингвистики можно, изучив условно тысячу текстов, понять политические предпочтения людей, которые эти тексты написали. Это даже иногда не очень хорошо оборачивается: мы помним скандалы с Facebook, который слил кому-то данные, а потом эти данные были использованы для влияния на избирательную кампанию. 

Digital Humanities, или цифровые гуманитарные исследования, стремятся отвечать на те же вопросы, на которые многие десятилетия до них пытались отвечать литературоведы. Но пока компьютеры еще слишком слабы — не в смысле их вычислительных возможностей, а в смысле того, какие задачи они умеют решать. На те вопросы, на которые интересно было бы ответить литературоведам, компьютеры пока отвечать не умеют.

Дело еще и в том, как организован сам процесс. Приходят в Digital Humanities какие-нибудь люди, которые умеют делать компьютерные программы, и думают, что сейчас все посчитают, всех «глупых литературоведов» облапошат. Но дело в том, что люди, приходящие из других областей, не очень хорошо понимают, какие вообще вопросы нужно ставить. Научиться ставить вопросы не так просто, для этого как раз нужны годы погружения в тему, и инженерного бэкграунда бывает недостаточно.

Если специалисты из разных областей научатся общаться между собой, научатся понимать друг друга, мы получим качественно иные результаты.


 

Полный текст беседы можно посмотреть на сайте ПостНауки.