Электронный корпус хакасского языка

Электронный корпус хакасского языка был создан в рамках программы Президиума РАН «Корпусная лингвистика», направление «Создание и развитие корпусных ресурсов по языкам народов России» (подробнее); в настоящее время поддерживается на средства гранта РГНФ № 15-04-12030 «Система автоматического морфологического и синтаксического анализа для корпусов миноритарных тюркских языков России» и Программы ОИФН РАН «Евразийское наследие и его современные смыслы», Направление 4. Мультимедийные технологии в филологических исследованиях. (Проекты "Развитие корпусов миноритарных тюркских языков России"). А.В. Дыбо (д.ф.н., чл.-корр. РАН, зав. Отделом урало-алтайских языков Института языкознания РАН) является одним из координаторов этого направления и руководит проектом «Корпуса миноритарных тюркских языков» (со-руководитель: Н.Н. Широбокова, д.ф.н., проф., зав. Отделом языков народов Сибири Института филологии СО РАН).

Основные исполнители проекта, работающие над корпусом хакасского языка:

На территории Российской Федерации распространено большое количество (и, можно сказать, бóльшая часть) тюркских языков. Часть этих языков имеет официальный статус и литературную традицию, то есть на этих языках существует значительное количество текстов. По малым тюркским языкам и диалектам накоплен значительный текстовый материал — записи фольклора, полевые записи исследователей (в том числе участников данного проекта) и др. Значительная часть этих языков, тем более их диалектов, в настоящее время находится под угрозой исчезновения. Существующий объем материалов нуждается в компьютеризации и обеспечении общего доступа к нему, т. е. в создании открытого корпуса тюркских языков России. Открытость корпуса должна обеспечить не только дальнейшее изучение этих языков, но и внести вклад в дело их сохранения и развития.

В рамках проекта предполагается делать параллельные корпуса (все тексты обеспечены русским переводом) с морфологической (в дальнейшем и синтаксической) разметкой.

Материалом для корпуса хакасского языка служат в первую очередь параллельные (хакасско-русские) литературные тексты художественного жанра и эпические тексты, оцифрованные и приведенные к стандартному формату. В распоряжении составителей корпуса есть также оцифрованная версия Большого хакасско-русского словаря на 22 тыс. слов под ред. О.В.Субраковой (Новосибирск, 2006) и иллюстративный материал к нему.

[Подробнее см. раздел Тексты, матрицу металингвистических данных].

Кроме того, планируется создание диалектного подкорпуса хакасского языка. К настоящему времени в рамках проекта производилась обработка полевых материалов по хакасским диалектам (сагайский и бельтирский). По сагайскому диалекту (Казановка) обработаны тексты, собранные экспедициями РГГУ (2001, 2002 гг.), РГГУ и ИЯз РАН (2007 г.), ок. 12 часов звучания (расшифровка, перевод, частично отглоссированы); по бельтирскому диалекту частично обработаны тексты, собранные экспедицией ИЯз РАН (2011 г.), 6 часов звучания (расшифровка, перевод). Звуковые файлы и расшифровка текстов, размеченная по времени, вывешена в Интернет; в дальнейшем предполагается завершение глоссировки и помещение ее также в Интернет. Авторы проекта надеются на содействие хакасских диалектологов в деле расширения диалектного подкорпуса, в частности, на материал других диалектов. Кроме текстов, в диалектном подкорпусе вывешиваются различные анкеты-опросники, звуковые файлы в сопровождении расшифровки (100-словники, 200-словники, составленные на историческом принципе большие фонетические опросники1, морфологические и синтаксические опросники).


1 См. А.В.Дыбо, О.А.Мудрак, Об историческом принципе при составлении фонетической анкеты для полевого обследования диалекта // III Международная конференция по полевой лингвистике. Тезисы и материалы. М., 2009.