Электронный корпус хакасского языка является частью проекта по созданию корпусов текстов малых тюркских языков России. Электронный корпус текстов – это база данных, включающая в себя массив текстов на некотором языке в электронном виде, по которой можно искать примеры употребления слов, словосочетаний, грамматических показателей и другую лингвистическую информацию в данном языке.
На территории Российской Федерации распространено большое количество (и, можно сказать, бóльшая часть) тюркских языков. Часть этих языков имеет официальный статус и литературную традицию, то есть на этих языках существует значительное количество текстов. По малым тюркским языкам и диалектам накоплен значительный текстовый материал — записи фольклора, полевые записи исследователей (в том числе участников данного проекта) и др. Значительная часть этих языков, тем более их диалектов, в настоящее время находится под угрозой исчезновения. Существующий объем материалов нуждается в компьютеризации и обеспечении общего доступа к нему, т. е. в создании открытого корпуса тюркских языков России. Открытость корпуса должна обеспечить не только дальнейшее изучение этих языков, но и внести вклад в дело их сохранения и развития.
В рамках проекта предполагается делать параллельные корпуса (то есть такие, в которых все тексты обеспечены переводом на русский язык) с морфологической (в дальнейшем также синтаксической) разметкой. Сейчас корпус хакасского языка снабжен морфологической разметкой, сделанной автоматическим парсером хакасского языка, который был создан в рамках данного проекта.
Словарь – на этой странице размещена ссылка на электронную базу, созданную на основе Хакасско-русского словаря под ред. О.В. Субраковой (Новосибирск, 2006). Словарная база используется в работе автоматического парсера. Приводится описание устройства этой базы.
Грамматика – здесь размещен автоматический парсер хакасского языка и приведена информация о его устройстве. Парсер членит словоформы хакасского языка на морфемы и приводит их лексические и грамматические значения. Лексические значения основ записаны в словарной базе. Подробности об аффиксах, их расположении, форме и значениях приведены в описании под парсером.
Сведения о текстах – на этой странице приводится металингвистическая информация о текстах, включенных в корпус: их авторы и рассказчики, жанр, год и место записи и издания текста, объем текста в словах и предложениях и другая информация.
Поиск в корпусе – на этой странице можно задать поисковый запрос к базе данных текстов, позволяющий найти примеры на интересующие вас лексические и грамматические явления хакасского языка. Подробную инструкцию о том, как это сделать, можно увидеть, перейдя по ссылке в правом верхнем углу страницы, или здесь.
Материалом для корпуса хакасского языка служат изданные параллельные (хакасско-русские) тексты различных жанров (в основном художественных), оцифрованные и приведенные к стандартной орфографии. В корпус включены как тексты на литературном хакасском языке, так и тексты на различных его диалектах. Для последних приводится не только нормализованная запись, но и запись, использованная при публикации этих текстов.
Также планируется создание корпуса хакасского языка в его устной форме. В таком корпусе примеры из текстов можно будет не только читать, но и слушать. В настоящий момент пилотный Устный корпус хакасских диалектов размещен на странице Международной лаборатории языковой конвергенции Высшей школы экономики. Сейчас материал корпуса составляют тексты, собранные экспедициями РГГУ (2001, 2002 гг.), РГГУ и ИЯз РАН (2007 г.) в с. Казановка (Аскизкий район, сагайский диалект) и тексты, собранные экспедицией ИЯз РАН (2011 г.) в сс. Чиланы, Бутрахты, Карагай (Таштыпский район, бельтырский говор). Планируется пополнение устного корпуса полевыми материалами, собранными участниками экспедиций Институт языкознания РАН в Хакасию в 2015–2021 гг.
В качестве дополнительных материалов на сайте с диалектологическими материалами по тюркским языкам вывешиваются различные анкеты-опросники, звуковые файлы в сопровождении расшифровки (100-словники, 200-словники, составленные на историческом принципе большие фонетические опросники1, морфологические и синтаксические опросники).
Основные разработчики корпуса хакасского языка:
Электронный корпус хакасского языка был создан в рамках программы Президиума РАН «Корпусная лингвистика», направление «Создание и развитие корпусных ресурсов по языкам народов России» (подробнее); позже поддерживался на средства:
По всем вопросам можно писать на электронную почту В.С. Мальцевой (malt.wh@gmail.com) и А.В. Дыбо (adybo@mail.ru).
1 См. А.В.Дыбо, О.А.Мудрак, Об историческом принципе при составлении фонетической анкеты для полевого обследования диалекта // III Международная конференция по полевой лингвистике. Тезисы и материалы. М., 2009.