Электронный корпус хакасского языка

Электронный корпус хакасского языка является частью проекта по созданию корпусов текстов малых тюркских языков России. Электронный корпус текстов – это база данных, включающая в себя массив текстов на некотором языке в электронном виде, по которой можно искать примеры употребления слов, словосочетаний, грамматических показателей и другую лингвистическую информацию в данном языке.

Цели и задачи проекта

На территории Российской Федерации распространено большое количество (и, можно сказать, бóльшая часть) тюркских языков. Часть этих языков имеет официальный статус и литературную традицию, то есть на этих языках существует значительное количество текстов. По малым тюркским языкам и диалектам накоплен значительный текстовый материал — записи фольклора, полевые записи исследователей (в том числе участников данного проекта) и др. Значительная часть этих языков, тем более их диалектов, в настоящее время находится под угрозой исчезновения. Существующий объем материалов нуждается в компьютеризации и обеспечении общего доступа к нему, т. е. в создании открытого корпуса тюркских языков России. Открытость корпуса должна обеспечить не только дальнейшее изучение этих языков, но и внести вклад в дело их сохранения и развития.

В рамках проекта предполагается делать параллельные корпуса (то есть такие, в которых все тексты обеспечены переводом на русский язык) с морфологической (в дальнейшем также синтаксической) разметкой. Сейчас корпус хакасского языка снабжен морфологической разметкой, сделанной автоматическим парсером хакасского языка, который был создан в рамках данного проекта.

Разделы сайта

Словарь – на этой странице размещена ссылка на электронную базу, созданную на основе Хакасско-русского словаря под ред. О.В. Субраковой (Новосибирск, 2006). Словарная база используется в работе автоматического парсера. Приводится описание устройства этой базы.

Грамматика – здесь размещен автоматический парсер хакасского языка и приведена информация о его устройстве. Парсер членит словоформы хакасского языка на морфемы и приводит их лексические и грамматические значения. Лексические значения основ записаны в словарной базе. Подробности об аффиксах, их расположении, форме и значениях приведены в описании под парсером.

Сведения о текстах – на этой странице приводится металингвистическая информация о текстах, включенных в корпус: их авторы и рассказчики, жанр, год и место записи и издания текста, объем текста в словах и предложениях и другая информация.

Поиск в корпусе – на этой странице можно задать поисковый запрос к базе данных текстов, позволяющий найти примеры на интересующие вас лексические и грамматические явления хакасского языка. Подробную инструкцию о том, как это сделать, можно увидеть, перейдя по ссылке в правом верхнем углу страницы, или здесь.

Материал корпуса

Материалом для корпуса хакасского языка служат изданные параллельные (хакасско-русские) тексты различных жанров (в основном художественных), оцифрованные и приведенные к стандартной орфографии. В корпус включены как тексты на литературном хакасском языке, так и тексты на различных его диалектах. Для последних приводится не только нормализованная запись, но и запись, использованная при публикации этих текстов.

Также планируется создание корпуса хакасского языка в его устной форме. В таком корпусе примеры из текстов можно будет не только читать, но и слушать. В настоящий момент пилотный Устный корпус хакасских диалектов размещен на странице Международной лаборатории языковой конвергенции Высшей школы экономики. Сейчас материал корпуса составляют тексты, собранные экспедициями РГГУ (2001, 2002 гг.), РГГУ и ИЯз РАН (2007 г.) в с. Казановка (Аскизкий район, сагайский диалект) и тексты, собранные экспедицией ИЯз РАН (2011 г.) в сс. Чиланы, Бутрахты, Карагай (Таштыпский район, бельтырский говор). Планируется пополнение устного корпуса полевыми материалами, собранными участниками экспедиций Институт языкознания РАН в Хакасию в 2015–2021 гг.

В качестве дополнительных материалов на сайте с диалектологическими материалами по тюркским языкам вывешиваются различные анкеты-опросники, звуковые файлы в сопровождении расшифровки (100-словники, 200-словники, составленные на историческом принципе большие фонетические опросники¹, морфологические и синтаксические опросники).

Кто принимал участие в создании корпуса

Основные разработчики корпуса хакасского языка:

Дыбо Анна Владимировна, д.ф.н., чл.-корр. РАН, зав. Отделом урало-алтайских языков Института языкознания РАН
Шеймович Александра Валерьевна, м.н.с. Института языкознания РАН
Мальцева Вера Сергеевна, м.н.с. Института языкознания РАН
Султрекова Эльвира Валериевна, к.ф.н. (в прошлом – н.с. ХакНИИЯЛИ)
Чебочакова Ирина Максимовна, к.ф.н., в.н.с. ХакНИИЯЛИ
Чекменёва Евгения Борисовна, лаборант-исследователь Института языкознания РАН
Крылов Филипп Сергеевич, программист

Поддержка проекта

Электронный корпус хакасского языка был создан в рамках программы Президиума РАН «Корпусная лингвистика», направление «Создание и развитие корпусных ресурсов по языкам народов России» (подробнее); позже поддерживался на средства:

гранта РГНФ № 15-04-12030 «Система автоматического морфологического и синтаксического анализа для корпусов миноритарных тюркских языков России»;
программы ОИФН РАН «Евразийское наследие и его современные смыслы», Направление 4. Мультимедийные технологии в филологических исследованиях (проекты "Развитие корпусов миноритарных тюркских языков России");
проекта «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур», выполняемого на базе Томского государственного университета (грант Правительства РФ № 14.Y26.31.0014);
гранта РНФ №18-18-00501 "Создание диалектологического атласа тюркских языков России".

Обратная связь

По всем вопросам можно писать на электронную почту В.С. Мальцевой (malt.wh@gmail.com) и А.В. Дыбо (adybo@mail.ru).

¹ См. А.В.Дыбо, О.А.Мудрак, Об историческом принципе при составлении фонетической анкеты для полевого обследования диалекта // III Международная конференция по полевой лингвистике. Тезисы и материалы. М., 2009.