Вторая встреча Encoding Squad
Наш корпус вырос до 141 пьесы!
На второй встрече команды, которая занимается конвертацией пьес в формат TEI, мы обсудили прогресс и выясняли, что совместными усилиями смогли увеличить размер нашего корпуса со 102 пьес до 141 меньше, чем за месяц, и продолжаем добавлять новые (как минимум до конца года)! Уже сейчас наш проект - самый большой стандартизированный драматический корпус для русской драмы, находящийся в открытом доступе для исследователей!
Ещё мы обсудили единый стандарт транслитерации имён персонажей, необходимость правильного форматирования итоговых XML-документов, Wikidata-идентификаторы для пьес, чтобы открыть наш корпус для связанного облака открытых данных (Linked Open Data).
Проблема уникальности имён персонажей стоит для нас достаточно остро. Примером может служить отрывок из спектакля "Бег" Булгакова: "Африкан, архиепископ Симферопольский и Карасу-Базарский, архипастырь воинства, же - химик Махров".
Персонаж появляется дважды под разными именами. Если вы занимаетесь сетевым анализом, вам нужны уникальные имена персонажей, и пример Африкана и Махрова, приведенный Булгаковым иллюстрирует, как порой сложно сделать цифровые визуализации с уникальными персонажами литературных произведений. Решение лежит в сохранении информации о том, как мы конвертировали пьесу.
Список всех наших пьес ЗДЕСЬ