Публикации
This chapter focuses on textual data that is collected for a specific purpose, which are usually referred to as corpora. Scholars use corpora when they examine existing instances of a certain phenomenon or to conduct systematic quantitative analyses of occurrences, which in turn re#ect habits, attitudes, opinions, or trends. For these contexts, it is extremely useful to combine different approaches. For example, a linguist might analyze the frequency of a certain buzzword, whereas a scholar in the political, cultural, or sociological sciences might attempt to explain the change in language usage from the data in question.
В статье дается социологический анализ биографического нарратива о Р. Г. Назирове, реконструируемого на основании устных и письменных свидетельств современников.
В эпоху больших данных растет интерес в том числе и к большим данным в гуманитарных сферах (на- пример, в рамках цифровой гуманитаристики). В России существует Государственный каталог Музейного фонда Российской Федерации, где собирается информация об экспонатах из коллекций российских му- зеев. В настоящее время описано более 16 млн экспонатов. Многие поля в базе заполнены на естествен- ном языке, например, «XIX век» в качестве даты создания предмета, что делает практически невозможным анализ данных. Инструменты автоматической обработки языка (например, извлечение именованных сущ- ностей) позволяют унифицировать данные и привести их в удобный для анализа вид. В работе показано, как можно обрабатывать информацию о дате создания, месте создания, авторах и техниках. В качестве иллюстрации того, как можно использовать нормализованные данные, приводится некоторая аналитика по странам и периодам в разных категориях экспонатов, что позволяет увидеть известные закономерности.
Статья посвящена изучению методов автоматического определения гендерной идентичности авторов на материале художественной прозы 1960-2000 годов. Цель данной работы - выявление оптимальных методов автоматического определения гендерной идентичности авторов. Задачи данного исследования включают в себя выделение грамматических стилистических особенностей художественной прозы 1960-2000 годов и, в особенности, женской прозы, а также текстов XVIII - XIX в.; отслеживание изменений в распределении употребления частей речи и знаков пунктуации на протяжении обозначенного периода и проведение эксперимента по выявлению наиболее результативного алгоритма классификации художественных текстов при помощи машинного обучения. На протяжении всего исследуемого периода в женских и мужских текстах анализировались наиболее частотные части речи. Произведен анализ употребления особо часто используемых знаков препинания из заданного списка: вопросительный знак, восклицательный знак, запятая, двоеточие, точка с запятой, точка, запятая. В статье показан анализ распределения частей речи и знаков пунктуации в художественных текстах мужчин и женщин XVIII-XIX веков. Также проведен эксперимент по выявлению наиболее действенного алгоритма определения гендерной идентичности автора. В результате исследования: 1) установлено, что частотность употребления различных частей речи в женских и мужских текстах заданного периода выглядит следующим образом: существительные, глаголы, предлоги, местоименные существительные, союзы и прилагательные, что отражает специфику художественного стиля; 2) можно заключить, что в современной литературе женщины более активно пользуются средствами пунктуации как выразительными средствами: доля употребления восклицательных, вопросительных знаков и запятых у писательниц значительно превышает значение, полученное посредством анализа мужских текстов; 3) выяснено, что наиболее эффективными классификаторами художественной литературы являются такие реализации алгоритмов, как BayesNet и SMO.
Исследование рассматривает конструкции, включающие в себя название десятилетия – двадцатые, тридцатые, сороковые и т.д. – и определяющее его прилагательное. Интерес к этим конструкциям обусловлен предположением, что по спискам прилагательных, сочетающихся с каждым из десятилетий, и их частотностям можно восстановить мнемонический образ каждого из десятилетий советской и постсоветской истории. Исследование сделано на материале выборки из Национального корпуса русского языка. Выделяются шесть семантических классов прилагательных, каждый из которых задает свое отображение мнемонического образа десятилетия в языке. Сравнительный анализ сочетания десятилетий с прилагательными различной семантики и их частотности дает возможность увидеть то, какие значимые временные периоды двадцатого века существуют в коллективной памяти, и выделить связанные с ними ассоциативные ряды. В результате, удается показать разницу между восприятием десятилетий, и таким образом реконструировать «ландшафт памяти» о советской и постсоветской истории.
В центре внимания статьи - сопоставление двух стихотворений, одно из которых было написано авнгардным поэтом, другое - "сочинено" нейронной сетью. Сопоставление происходило в режиме эксперимента: один из авторов статьи анализировал стихи, не зная, какой текст был сочинен компьютером, а какой - человеком. В статье обсуждаются теоретические и эстетические вопросы, связанные с проблемой восприятия текстов, ролю читателя и категорией автора. Обсуждаются перспективы нейронных сетей.
This paper presents a study of Leo Tolstoy’s War and Peace by means of automatic syntactic and semantic analysis. Using a parser that extracts syntactic dependencies and semantic roles, we were able to compare different characters of the novel in terms of the semantic roles they tend to occupy. Our data shows that there are certain dependencies between the apparent personal traits of a character and his or her positions within the predicate structures. We hope that further research will help us gain more insights into the ‘literary technique’ of Tolstoy and enable us to create a semantic markup of his works.