Формирование диалектного корпуса
Методические материалы
Ручное редактирование
размеченного диалектного текста. Инструкция
Расшифровка аудио / видеозаписи диалектного текста в орфографической записи / Чистка сделанной ранее расшифровки аудиозаписи диалектного текста.
Метаразметка текста
Морфологическая разметка расшифрованного текста с помощью парсера.
Ручное редактирование размеченного текста.
Формирование папки модуля.
1. Удалить из расшифровки диалектного текста тире между предлогами и полнозначными словами.
2. Удалить фигурные скобки.
3. Заменить N на [нрзб].
4. Удалить S, оставляя в недоговоренных словах многоточие.
5. Расшифровать Z.
6. Удалить пробелы перед знаками пауз.
7. Снять кавычки.
8. Употреблять букву Ё.
9. Проверить комментарии, давая их в квадратных скобках.
10. Изменить подачу реплик диалектолога.
11. Речь разных информантов отделять абзацами.
12. Сверить расшифровку с аудиозаписью.
1. Сведения об информантах.
2. Сведения о времени и месте записи.
3. Конкретная ситуация общения.
4. Адресаты речи.
5. Упоминаемые лица (перечисляются только в том случае, если это какие-то конкретные люди, например. родители диктора, а не родители вообще).
6. Время описываемых событий:
1. До революции
2. Революция, гражданская война
3. Коллективизация
4. Великая отечественная война
5. Послевоенный советский период
6. Постсоветский период
7. Тема (#):
1. История жизни
2. Семья
3. Сельскохозяйственные работы
4. Домашние работы
5 .Дом и домашние постройки
6. Односельчане
7. Городская жизнь
8. Трудовая деятельность
9. Обряды, обычаи, приметы
10.Здоровье и лечение
11.Религия
12.Природа
13.История села
14.Развлечения
15.Государство, власть, политика
16.Мораль
17.Учеба
18.Колдовство, гадание
19.Мифические существа, духи
20.Чужие
21.Пьянство и наркомания
22.Происшествие
23.Общая оценка жизни
8. Жанр (@):
1. Рассказ-повествование
2. Рассуждение
3. Описание
4. Сказка
5. Песня
6. Частушка
7. Пословица, поговорка
8. Цитата, аллюзия
9. Произведение религиозного содержания
9. Последовательность подачи в тексте условных обозначений темы и жанра:
при обозначении начала темы, жанра #1@1
при обозначении конца темы, жанра @1#1
10. Приложение. К каждому тексту в конце прилагается словарь, включающий:
– диалектные слова, не имеющие литературных соответствий, типа позьмо;
–
устойчивые сочетания, не имеющие литературных соответствий типа не
знай какой ‘очень хороший’
(Каждый
текст помещается в отдельную папку)
Название папки: фамилия информанта и номер текста (например «Мирошин1»).
Состав папки:
звуковой
файл (Мирошин1)
фото
(Мирошин)
исходный
текст (Мирошин1)
метаинформация
(Мирошин1-Мета). Комментарии типа [плохо слышит]
помещаются в квадратные скобки
биография
(Мирошин-Биогр)
размеченный
текст (Мирошин1-Разм), содержащий морфологическую, тематическую и жанровую
разметку
Автоматическая разметка диалектного текста осуществляется программой … ; редактирование – программой GRAMEDIT.
Условные
обозначения частей речи
Часть речи
Существительное
– S
Местоимение-существительное
– S-PRO
Прилагательное и
местоимение-прилагательное – A
Числительное количественное и
собирательное – NUM
Числительное порядковое
– A-NUM
Глагол
– V
Наречие
–
ADV
Предикатив
– PRAEDIC
Вводное слово
– PARENTH
Предлог
– PR
Союз
– CONJ
Частица
– PART
Междометие
– INTJ
Категории, разряды, формы Именные и
глагольные |
|
Род |
муж,
жен, сред |
Число |
ед, мн |
Падеж |
им,
род, род2, дат, вин, твор, пр, пр2 |
Одушевленность |
од, неод |
Краткость |
кр |
Стяженная
форма |
стяж |
Степень
сравнения |
срав, прев |
Вид |
сов,
несов, |
Залог |
страд |
Инфинитив |
инф,
|
Причастие,
деепричастие |
прич, деепр |
Наклонение |
изъяв,
пов |
Время |
непрош, прош |
наст
(только для быть) |
|
Лицо |
1-л,
2-л, 3-л |
Имена собственные |
|
Имя человека |
имя |
Фамилия |
фам |
Отчество |
отч |
Топоним |
топ |
Микротопоним |
мтоп |
Прозвище |
прозв |
Кличка животного |
клич |
Остальные имена собственные |
onim |
Другие обозначения |
|
Лемма,
отсутствующая в автоматическом словаре |
* |
Идиома
(фразеологизм, устойчивое сочетание) |
IDIOM |
2. Ручное редактирование размеченного
диалектного текста
Инструкция
Единица размечаемого текста |
Индекс, используемый в разметке |
Пример разметки |
|
Слова
диалектолога |
% % |
%А вот когда Вы замуж выходили, свадьба была у Вас?% |
|
Недоговоренные
слова: а)
не опознаются никакие характеристики слова; б)
какие-либо характеристики опознаются |
Многоточие.
Словоформа
не анализируется. |
ч… ск… |
|
Словоформа
произнесена неразборчиво |
нрзб
в квадратных скобках. Разметка отсутствует. |
[нрзб] |
|
Словоформа,
совпадающая по форме и значению со словоформой ЛЯ |
После
начальной формы приводится в круглых скобках литературное соответствие
(оно совпадает с начальной формой). |
говорю{говорить(говорить)=V,несов=изъяв,непрош,ед,1-л} |
|
Знаменательные
лексемы, отсутствующие в литературном языке |
Во
всех случаях отклонения от литературных норм вводится дополнительный индекс =*.
После начальной формы приводится в круглых скобках литературное соответствие. |
кулугурская {кулугурский(старообрядческий)=A=ед,жен,им=*} |
|
Словоформа,
отличающаяся от литературной только родом |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. |
помидору{помидора(помидор)=S,жен,неод=ед,вин=*}-то{то=PART} полила{поливать=V=сов,изъяв,прош,ед,жен} |
|
Словоформа,
отличающаяся от литературной только числовой
характеристикой |
Вводится
индекс =*. После
начальной формы приводится в круглых скобках литературное соответствие. |
с{с=PR} горями
{горе(горе)=S,сред,неод=мн,твор=*} |
|
Словоформы
лексем, изменяющихся по другому типу склонения, нежели в литературном языке. |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. |
церкву{церква(церковь)=S,жен,неод=ед,вин=* } |
|
Словоформы
глаголов, изменяющихся по другому типу спряжения, нежели в литературном
языке. |
Вводится
индекс =*. После
начальной формы приводится в круглых скобках литературное соответствие. |
молются{молиться=V,несов=изъяв,непрош,мн,3-л=*} |
|
Словоформа,
в которой форма возвратного аффикса отличается от формы этого аффикса в ЛЯ |
Вводится
индекс =*. После
начальной формы приводится в круглых скобках литературное соответствие. |
спилси{спиться(спиться)=V=сов,изъяв,прош,ед,муж=*} |
|
Глагол,
отличающийся от литературного только возвратностью |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. |
ходилась{ходиться*(ходить)=V,несов=изъяв,прош,ед,жен=*} |
|
Диалектная
изменяемая по роду, числу и падежу постпозитивная частица |
Вводится
индекс =*. После
начальной формы (ею считается форма то) приводится в круглых скобках
литературное соответствие. |
верёвки{веревка(веревка)=S,жен,неод=мн,им}-ти{то(то)=PART=*}
были{быть(быть)=V=несов,изъяв,прош,мн} что{что(что)=S,сред,неод,ед=им}
толку{толк(толк)=S,муж,неод=ед,род2}-ту{то(то)=PART=*}? |
|
Стяженная
форма прилагательного |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. |
сухоньки{сухонький(сухонький)=А=мн,им=*} |
|
Стяженная
форма глагола |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. |
не{не=PART} доезжа{доезжать(доезжать)=V=несов,деепр=*} Челябинского{Челябинск(Челябинск)=S,топ,муж,неод,ед=род=*} |
|
Словоформа,
отличающаяся основой от соответствующей словоформы ЛЯ |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. |
пекёт {печь/пекчи/пекти(печь)=V,несов=изъяв,непрош,ед,3-л=*} прибегла {прибегать(прибегать)=V=сов,изъяв,прош,ед,жен=*} туды{туды(туда)=ADV=*} особе{особе(особо)=ADV=*} эстоль{эстоль(столько)=ADV=*} |
|
Основа
слова отличается от литературной только наличием-отсутствием
префикса. |
Вводится
индекс =*. После
начальной формы приводится в круглых скобках литературное соответствие. |
взамуж{взамуж(замуж)=ADV=*} |
|
Диалектное
управление глагола или другого слова. |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. |
я ей {она(она)=S-PRO,жен,од,ед=вин=*} разорю на голову{голова(голова)=S,жен,неод=ед,вин={голова=S,жен,неод=ед,вин=*} напекло |
|
Словоформа
с нелексикализованной фонетической особенностью |
|
|
|
Словоформа
с лексикализованной фонетической особенностью |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. |
Паска{Паска(Пасха)=S,жен,неод=ед,им=*} кстят{кстить(крестить)=V,несов=изъяв,непрош,мн,3-л=*}
чё{чё(что)=S,сред,неод=ед,им=*} можа{можа(может)=PARENTH=*} |
|
Нелитературное
слово или слово с нестандартным значением. |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. При отсутствии
однословного литературного соответствия в круглых скобках приводится родовое
наименование. Н-р: обабок (гриб) |
кулугурская {кулугурский(старообрядческий)=A=ед,жен,им=*} срядили{сряжать(договариваться)=V=сов,изъяв,прош,мн=*} больно{больно(очень)=ADV=*} на{на=PR} братке{братка(братская могила)=S,муж,од=ед,пр=*} |
|
Нелитературное
слово, имеющее в ЛЯ близкое соответствие с другим префиксом/суффиксом.
|
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. |
цементовый{цементовый(цементный)=A=ед,муж,им=*} помидорку{помидорка(помидор)=S,жен,неод=ед,вин=*} |
|
Нелитературное
слово, значение которого не ясно |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. В зоне литературного
соответствия в круглых скобках ставится вопросительный знак. |
под{под(под)=PR} бедранку{бедранка(?)=S,жен,неод=ед,вин=*} |
|
Частица,
выполняющая функцию, отсутствующую в ЛЯ |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. В зоне литературного
соответствия в круглых скобках ставится короткое тире. |
и{и(–)=PART=*} дак{дак(–)=PART=*} там{там(там)=ADV} надо{надо(надо)=PRAEDIC} помидорку{помидорка(помидор)=S,жен,неод=ед,вин=*} огуречки{огуречек(огуречек)=S,муж,неод=мн,вин} / полить{поливать(поливать)=V=сов,инф} и{и(–)=PART=*}// |
|
Словоформа,
имеющая более, чем одну, диалектную особенность |
Вводится
индекс =*. Начальная
форма восстанавливается на основе текстовой словоформы. После начальной формы
приводится в круглых скобках литературное соответствие. При отсутствии
однословного литературного соответствия в круглых скобках приводится родовое
наименование. Например: обабок (гриб) |
баску[баской(хороший)=A=стяж,ед,жен,вин=*} |
|
Словоформа,
имеющая неоднозначную грамматическую интерпретацию |
Приводятся
варианты морфологической разметки. |
беги{бежать(бежать)=V,несов=пов,ед,2-л}
вон{вон(вон)=PART} за{за(за)=PR} эту{этот(этот)=A=ед,жен,вин}
/ за{за(за)=PR} омбарушка{омбарушка(амбар)=S,жен,неод=ед,им=*|омбарушка(амбар)=S,жен,неод=ед,вин=*} мясо{мясо(мясо)=S,сред,неод,ед=род=*| мясо=S,сред,неод,ед=вин=*|мясо=S,сред,неод,ед=им=*} много{много(много)=ADV} было{быть(быть)=V=несов,изъяв,прош,ед,сред} ну{ну(ну)=PART} и{и(и)=CONJ} чего{чего(что)=S,сред,неод,ед=им=*|чего(что)=S,сред,неод,ед=вин=*}
же{же(же)=PART} |
|
Идиомы
|
Начальная
форма восстанавливается на основе контекста. После начальной формы приводится
в круглых скобках литературное соответствие или родовое наименование. |
мать+моя+родная{мать
моя родная (боже мой)=IDIOM} на+кой{на
кой(зачем)=IDIOM=*} слава+богу{слава
богу(слава богу)=INTJ} потому+что{потому
что(потому что)=CONJ} Пять+вечеров{Пять вечеров(название
телепрограммы)= IDIOM,onim } |
|
Омонимичные
слова и словоформы. |
Каждая
словоформа получает характеристики в соответствии с контекстом |
да{да(да)=PART} мы{мы(мы)=S,мн,од=им}
будем{быть(быть)=V=сов,изъяв,непрош,мн,1-л} ростить{ростить(растить)=V,несов=инф=*}? %Грибы?% да{да(да)=PRAEDIC} двое{двое(двое)=NUM=им} на{на(на)=PR} фронте{фронт(фронт)=S,муж,неод=ед,пр} погибли{погибать(погибать)=V=сов,изъяв,прош,мн} // пришёл{приходить(приходить)=V=сов,изъяв,прош,ед,муж} один{один(один)=NUM=муж,ед,им}
без{без(без)=PR} ноги{нога(нога)=S,жен,неод=ед,род}
/ а{а(а)=CONJ} это{это(это)=PART}… у{у(у)=PR} одного{один(один)=S,муж,од=ед,род}-то{то=PART}
лёгкие{легкое(легкое)=S,сред,неод=мн,им}
больные{больной(больной)=A=мн,им} были{быть(быть)=V=несов,изъяв,прош,мн} / а{а(а)=CONJ} у{у(у)=PR} одного{один(один)=S,муж,од=ед,род} / это{это(это)=PART} / с{с(с)=PR}
головой{голова(голова)=S,жен,неод=ед,твор} побольше{большой(большой)=A=срав=*) побольше{много(много)=ADV=срав=*} |
|
Имя
собственное |
имя
человека фамилия отчество топоним микротопоним прозвище кличка
животного остальные
имена собственные |
имя
фам отч
топ мтоп прозв клич onim |
Ваня{Ваня(Ваня)=S,имя,муж,од=ед,им} Поликарпова {Поликарпова(Поликарпова)=S,фам,жен,од=ед,им} Матвеевна{Матвеевна(Матвеевна)=S,отч,жен,од=ед,им} в{в=PR} Вольске{Вольск(Вольск)=S,топ,муж,од=ед,пр} посёлок{поселок(поселок)=S,муж,неод=ед,им} Течка{Течка(Течка)=S,топ,жен,неод=ед,им} Восьмое+ марта{Восьмое
марта(Восьмое марта)=IDIOM,onim} Вести{Вести(название телепрограммы)=ONIM} |
В
составных топонимах родовое имя (Волгоградская область, Лысая гора,
Северный Ледовитый океан) получает характеристику имени
нарицательного. |
Саратовская{Саратовский(Саратовский)=A,топ=ед,жен,им} область{область(область)=S,жен,неод=ед,им} |
||