Электронный корпус хакасского языка

Инструкция по поиску в корпусе хакасского языка

Общая информация

На данной странице можно осуществлять поиск употреблений слов, морфем и словосочетаний в текстах, представленных в корпусе хакасского языка. Подробную информацию о текстах можно найти на вкладке «Сведения о текстах». Для поиска нужно задать какое-нибудь условие в одном или нескольких из имеющихся полей и нажать кнопку «Поиск».

Результаты поиска появятся после обработки вашего запроса под кнопкой «Поиск». Перед списком примеров выдается строка с подсчетом результатов поиска. В ней приведено число найденных словоформ и число найденных фраз. Число словоформ указывает, сколько словоупотреблений в корпусе подходят под заданное условие. Число фраз указывает, в каком количестве предложений встретились эти словоупотребления. Нужно учитывать, что в одном предложении может быть больше одной словоформы, удовлетворяющей заданным при поиске условиям. Если в корпусе не находится результатов, подходящих под заданное условие, в строке подсчета результатов будет значиться: «Найдено словоформ: 0, фраз: 0.»

Анализ словоформ в корпусе осуществляется автоматическим парсером (подробнее о парсере можно прочесть на вкладке«Грамматика»). Это ведет к тому, что у каждой словоформы представлены все возможные варианты ее анализа вне зависимости от контекста. По этой причине некоторые поисковые запросы не могут быть успешными. Например, словоформа пол всегда будет анализироваться и как глагол со значением ‘быть’, и как существительное со значением ‘пол’ (заимствованное из русского языка). Поэтому при поиске существительных в некоторых случаях в результаты неизбежно попадет и глагол поларға.

Диалектные тексты представлены в двух записях: исходной и нормализованной (приближенной к нормам хакасской орфографии). В текстах на литературном хакасском языке сохранена авторская орфография.

Словоформы, содержащие дефис, могут быть проанализированы двумя способами:

- если соответствующая лексема с дефисом есть в словаре и первая ее часть не изменяется, то обе части анализируются как единая словоформа. а дефис трактуется как буква. Например: чоох-чаах ‘беседа’ ищется по запросам «чоох-чаах», «чоох-».

- если такой лексемы нет, то части слева и справа от дефиса анализируются как отдельные словоформы, а дефис – как знак препинания. Например, так будет разбираться аңнап-хустап ‘охотясь на зверей и птиц’. На запросы «аңнап-хустап», «аңнап-» эта словоформа найдена не будет.

Справа рядом с полями «Словоформа», «Лемма», «Русский перевод леммы», «Русский перевод предложения» есть значок клавиатуры. При нажатии на него открывается виртуальная клавиатура с хакасским алфавитом.

Поиск не различает заглавные и строчные буквы, поэтому на виртуальной клавиатуре представлен только нижний регистр. По запросу «Хыс» и запросу «хыс» будут даны одинаковые результаты.

В полях «Словоформа», «Лемма», «Русский перевод леммы» есть выбор типа поиска (справа от виртуальной клавиатуры).

Точное совпадение: ищет заданную последовательность букв, по краям которой стоят пробелы или знаки препинания. Например, на запрос «хан» найдутся все употребления хакасской словоформы хан в текстах корпуса.

Подстрока: ищет заданную последовательность букв внутри хакасской словоформы. Например, на запрос «хан» найдутся такие словоформы: хан, ханны, ханға, сыххан, аххан и др.

Начало строки: ищет заданную последовательность букв после пробела или знака препинания. Например, на запрос «хан» найдутся все словоформы, которые начинаются с последовательности «хан»: хан, ханны, ханға и т.п.

Конец строки: ищет заданную последовательность букв перед пробелом или знаком препинания. Например, на запрос «хан» найдутся все словоформы, которые кончаются на последовательность «хан»: хан, сыххан, аххан и т.п.

В поле «Русский перевод предложения», в отличие от остальных полей, можно искать несколько слов подряд, но нельзя задать тип поиска – это всегда подстрока. Например, по запросу «в лес» найдутся предложения, содержащие последовательности в лесу, «в лесочке», «коллектив леспромхоза» и т.п.

Параметры поиска

Словоформа (в хакасской орфографии)

Здесь можно ввести интересующую вас словоформу (например, аарлыға ‘дорогому’).

Лемма (в хакасской орфографии)

Здесь можно ввести слово в начальной форме. Для имен это форма именительного падежа единственного числа (например, хыс ‘девочка’; ‘зима’). Для глаголов это форма инфинитива (дательного падежа причастия будущего времени на Ар – например, поларға ‘быть’).

Аффиксы (автоматическая разметка)

При нажатии на кнопку «Выбрать» открывается таблица аффиксов, выделяемых автоматическим парсером. Описание их расположения в словоформе, морфонологии, семантики и сочетаемости можно найти на вкладке «Грамматика».

Можно выбрать один или несколько аффиксов. Если выбрано несколько аффиксов, расположенных в одном слоте, поиск выдаст результаты с каждым из этих аффиксов. Если выбраны аффиксы, расположенные в разных слотах, будут искаться словоформы, в которых эти аффиксы встречаются одновременно. Например, при выборе аффикса дистрибутива Distr ГлА | лА в 1 слоте и аффикса отрицания Neg ПА в 8 слоте будут выведены примеры употребления словоформ с сочетанием этих аффиксов (например, тарағлабааннар ‘не разошлись’). А при выборе аффикса ассумптива Assum ГАдАГ и аффикса условиного наклонения Cond СА в 9 слоте будут выведены примеры употребления словоформ с ассумптивом и словоформ в форме условного наклонения (например, парғадағ ‘похоже, что уходит’ и парзалар ‘если уйдут’).

Если поставить галочку рядом с номером слота (слот 1, слот 2 и т.д. справа в колонке), будут выбраны все аффиксы, находящиеся в данном слоте. Например, при отметке 16 слота найдутся все словоформы с поверхностно выраженными падежными показателями.

Можно также искать словоформы, в которых определенные слоты не заполнены. Для этого нужно выбрать пустое значение (знак — ) в нужном слоте. Например, если отметить галочками пустое значение в слотах 10, 15 и 20, будут найдены словоформы единственного числа.

При нажатии на кнопку «Поиск» таблица аффиксов исчезает. Чтобы изменить или удалить ранее заданное условие в этом поле, нужно нажать на его название ("Аффиксы"), и таблица откроется снова.

Русский перевод леммы

Здесь можно найти лексемы по русскому переводу (например, «вода», «лечить»). Глаголы в русском переводе стоят в форме инфинитива, существительные и прилагательные – в форме именительного падежа единственного числа.

Добавить условие, Удалить условие

При нажатии на кнопку «Добавить условие» возникает возможность искать не одно слово, а словосочетание. Появляется еще один блок с полями, куда можно вводить условие для второго слова. Добавлять условие для другого слова можно неограниченное число раз.

Можно задать расстояние между словами при поиске словосочетаний. После нажатия на кнопку "Добавить условие" в добавленном блоке появляется поле «Максимальное расстояние». По умолчанию оно не задано, т.е. расстояние между искомыми словами может быть любым (в пределах предложения). При задании расстояния 0 нужные слова ищутся только в непосредственном соседстве друг с другом. При задании расстояния 1 добавляются примеры, где заданные слова разделены не более чем одним словом.

При нажатии на кнопку «Удалить условие» один блок полей поиска удаляется.

Русский перевод предложения (подстрока)

В поле «Русский перевод предложения», в отличие от остальных полей, можно искать несколько слов, но нельзя задать тип поиска – это всегда подстрока. Например, по запросу «в лес» найдутся предложения, содержащие последовательность «в лесу», «в лесочке», «коллектив леспромхоза» и т.п.

Подкорпус

При нажатии на кнопку «Выбрать» откроется список текстов, которые есть в корпусе на данный момент, с краткой информацией о них. По умолчанию поиск производится во всех текстах. Однако если вам нужны только некоторые из них, можно снять галочки напротив лишних текстов. В соответствующих окошках можно задать фильтр в виде подстроки, который выберет нужные тексты по названиям, авторми, жанрам, диалектам, времени написания и месту записи/публикации текста.

Счетчик рядом с кнопкой выбора подкорпуса показывает, сколько было выбрано текстов и каков их объем в словоупотреблениях и предложениях. Если подкорпус не задан, счетчик показывает общий объем корпуса на данный момент.

Ширина контекста (число фраз до и после)

Если вам нужно посмотреть не только на те предложения, где употребляется искомое слово или словосочетание, но и на соседние предложения в тексте, увеличьте контекст выдачи с помощью этого поля. При выборе числа 1 будет показываться предложение, удовлетворяющее заданному условию, а также одно предложение, предшествующее ему, и одно предложение, следующее за ним. При выборе числа 2 вы будете видеть по 2 предложения до и после найденного, и т.д.

Выдача примеров

После успешного нахождения примеров на заданное условие они появляются на странице под кнопкой "Поиск". Если примеров нашлось очень много, они размещаются на нескольких страницах – в правом верхнем углу над списком примеров указано, сколько именно получилось страниц, и имеется навигация для перехода на следующие страницы. Под указанием числа страниц есть кнопка «Развернуть омонимию» . При нажатии на нее на экране будут видны все разборы словоформ, предлагаемые автоматическим парсером. По умолчанию для каждой словоформы виден только первый разбор, а остальные можно увидеть, воспользовавшись полосой прокрутки справа в желтом поле, где показано разбиение не морфемы.

Примеры из одного текста в выдаче собраны вместе. Автор и название текста, располагаются над группой примеров, найденных в этом тексте, и сохраняются наверху экрана при прокрутке страницы. Щелкнув по названию текста, вы перейдете на запись металингвистических данных этого текста на соответствующей странице. При диалектных текстах указаны также диалект, к которому относится данный текст, и место его записи, если эта информация имеется.

Каждый пример располагается в отдельном поле на белом фоне, выделенном рамочкой.

Словоформы, удовлетворяющие заданному условию, выделены голубым цветом. Морфемный анализ (глоссирование) расположен под словоформой на желтом фоне. Аффиксы в нем даны в морфонологической записи, о правилах перехода к ней см. раздел «Грамматика». Под каждым аффиксом указано его значение в виде глоссы.

В некоторых текстах у предложений есть адреса внутри текста. Они расположены в верхнем левом углу полей с примерами. Например, для эпосов «Ай-Хуучин», «Алтын-Арыг» указаны строки, которое занимает данное предложения (по соответствующим печатным изданиям), в «Приключениях Алисы в Стране чудес» - номер главы, в «Новом завете» - номер стиха и строки. В текстах из сборника Катанова в этом месте указан номер и название текста в оригинальном издании. В прочих текстах цифры, расположенные в левом верхнем углу примеров, означают номер предложения в тексте.