Формирование диалектного корпуса

Методические материалы

Порядок работы                                                                

Чистка текста                                                                     

Метаразметка текста                                                          

Папка модуля                                                                    

Разметка диалектного текста                                            

                      Автоматическая разметка                                                       

                                                                                Ручное редактирование размеченного диалектного текста. Инструкция  

 

 

Порядок работы

 

Расшифровка аудио / видеозаписи диалектного текста в орфографической записи / Чистка сделанной ранее расшифровки аудиозаписи диалектного текста.

Метаразметка текста

Морфологическая разметка расшифрованного текста с помощью парсера.

Ручное редактирование  размеченного текста.

Формирование папки модуля.

 

Чистка текста

1. Удалить из расшифровки диалектного текста тире между предлогами и полнозначными словами.

2. Удалить фигурные скобки.

3. Заменить N на [нрзб].

4. Удалить S, оставляя в недоговоренных словах многоточие.

5. Расшифровать Z.

6. Удалить пробелы перед знаками пауз.

7. Снять кавычки.

8. Употреблять букву Ё.

9. Проверить комментарии, давая их в квадратных скобках.

10. Изменить подачу реплик диалектолога.

11. Речь разных информантов отделять абзацами.

12. Сверить расшифровку с аудиозаписью.

 

Метаразметка текста

 

1.   Сведения об информантах.

2.   Сведения о времени и месте записи.

3.   Конкретная ситуация общения.

4. Адресаты речи.

5.   Упоминаемые лица (перечисляются только в том случае, если это какие-то конкретные люди, например. родители диктора, а не родители вообще).

 

6. Время описываемых событий:

1. До революции

2. Революция, гражданская война

3. Коллективизация

4. Великая отечественная война

5. Послевоенный советский период

6. Постсоветский период

 

7. Тема (#):

1. История жизни

2. Семья

3. Сельскохозяйственные работы

4. Домашние работы

5 .Дом и домашние постройки

6. Односельчане

7. Городская жизнь

8. Трудовая деятельность

9. Обряды, обычаи, приметы

10.Здоровье и лечение

11.Религия

12.Природа

13.История села

14.Развлечения

15.Государство, власть, политика

16.Мораль

17.Учеба

18.Колдовство, гадание

19.Мифические существа, духи

20.Чужие

21.Пьянство и наркомания

22.Происшествие

23.Общая оценка жизни

 

8. Жанр (@):

1. Рассказ-повествование

2. Рассуждение

3. Описание

4. Сказка

5. Песня

6. Частушка

7. Пословица, поговорка

8. Цитата, аллюзия

9. Произведение религиозного содержания

 

 

9.   Последовательность подачи в тексте условных обозначений темы и жанра:

при обозначении начала темы, жанра  #1@1

при обозначении конца темы, жанра   @1#1

10. Приложение. К каждому тексту в конце прилагается словарь, включающий:

–  диалектные слова, не имеющие литературных соответствий, типа позьмо;

–  устойчивые сочетания, не имеющие литературных соответствий типа не знай какой ‘очень хороший


 

Папка модуля

(Каждый текст помещается в отдельную папку)

 

Название папки: фамилия информанта и номер текста (например «Мирошин1»).

Состав папки:

звуковой файл (Мирошин1)

фото (Мирошин)

исходный текст (Мирошин1)

метаинформация (Мирошин1-Мета). Комментарии типа [плохо слышит] помещаются в квадратные скобки

биография (Мирошин-Биогр)

размеченный текст (Мирошин1-Разм), содержащий морфологическую, тематическую и жанровую разметку

 

 

Разметка диалектного текста

 

1. Автоматическая разметка

 

Автоматическая разметка диалектного текста осуществляется программой … ; редактирование – программой GRAMEDIT.

 

Условные обозначения частей речи

 

Часть речи

Существительное                                –  S

Местоимение-существительное                    –  S-PRO

Прилагательное и местоимение-прилагательное    –  A

Числительное количественное и собирательное    –  NUM

Числительное порядковое                        –  A-NUM

Глагол                                         –  V

Наречие                                        –  ADV

Предикатив                                     –  PRAEDIC

Вводное слово                                  –  PARENTH

Предлог                                        –  PR

Союз                                           –  CONJ

Частица                                                                                                        –     PART

Междометие                                     –  INTJ

 

Категории, разряды, формы

Именные и глагольные

Род

муж, жен, сред

Число

ед, мн

Падеж

им, род, род2, дат, вин, твор, пр, пр2

Одушевленность

од, неод

Краткость

кр

Стяженная форма

стяж

Степень сравнения

срав, прев

Вид

сов, несов,

Залог

страд

Инфинитив

инф,

Причастие, деепричастие

прич, деепр

Наклонение

изъяв, пов

Время

непрош, прош

наст (только для быть)

Лицо

1-л, 2-л, 3-л

 

Имена собственные

Имя человека

имя

Фамилия

фам

Отчество

отч

Топоним

топ

Микротопоним

мтоп

Прозвище

прозв

Кличка животного

клич

Остальные имена собственные

onim

Другие обозначения

Лемма, отсутствующая в автоматическом словаре

*

Идиома (фразеологизм, устойчивое сочетание)

IDIOM

 

2. Ручное редактирование размеченного диалектного текста

 

Инструкция

 

Единица

размечаемого текста

Индекс,

используемый

в разметке

Пример

разметки

Слова диалектолога

%    %

%А вот когда Вы замуж выходили, свадьба была у Вас?%     

Недоговоренные слова:

а) не опознаются никакие характеристики слова;

б) какие-либо характеристики опознаются

Многоточие.

Словоформа не анализируется.

ч

ск

Словоформа произнесена неразборчиво

нрзб в квадратных скобках. Разметка отсутствует.

[нрзб]

Словоформа, совпадающая по форме и значению со словоформой ЛЯ

После начальной формы приводится в круглых скобках литературное соответствие (оно совпадает с начальной формой).

говорю{говорить(говорить)=V,несов=изъяв,непрош,ед,1-л}

 

Знаменательные лексемы, отсутствующие в литературном языке

Во всех случаях отклонения от литературных норм вводится дополнительный индекс =*. После начальной формы приводится в круглых скобках литературное соответствие.

кулугурская

{кулугурский(старообрядческий)=A=ед,жен,им=*}

Словоформа, отличающаяся от литературной только родом

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие.

помидору{помидора(помидор)=S,жен,неод=ед,вин=*}-то{то=PART} полила{поливать=V=сов,изъяв,прош,ед,жен}

Словоформа, отличающаяся от литературной только числовой характеристикой

Вводится индекс =*.

После начальной формы приводится в круглых скобках литературное соответствие.

с{с=PR} горями {горе(горе)=S,сред,неод=мн,твор=*}

Словоформы лексем, изменяющихся по другому типу склонения, нежели в литературном языке.

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие.

церкву{церква(церковь)=S,жен,неод=ед,вин=* }

 

Словоформы глаголов, изменяющихся по другому типу спряжения, нежели в литературном языке.

Вводится индекс =*.

После начальной формы приводится в круглых скобках литературное соответствие.

молются{молиться=V,несов=изъяв,непрош,мн,3-л=*}

 

Словоформа, в которой форма возвратного аффикса отличается от формы этого аффикса в ЛЯ

Вводится индекс =*.

После начальной формы приводится в круглых скобках литературное соответствие.

спилси{спиться(спиться)=V=сов,изъяв,прош,ед,муж=*}

 

Глагол, отличающийся от литературного только возвратностью

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие.

ходилась{ходиться*(ходить)=V,несов=изъяв,прош,ед,жен=*}

 

Диалектная изменяемая по роду, числу и падежу постпозитивная частица

Вводится индекс =*.

После начальной формы (ею считается форма то) приводится в круглых скобках литературное соответствие.

верёвки{веревка(веревка)=S,жен,неод=мн,им}-ти{то(то)=PART=*} были{быть(быть)=V=несов,изъяв,прош,мн}

 

что{что(что)=S,сред,неод,ед=им} толку{толк(толк)=S,муж,неод=ед,род2}-ту{то(то)=PART=*}?

 

Стяженная форма прилагательного

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие.

сухоньки{сухонький(сухонький)=А=мн,им=*}

Стяженная форма глагола

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие.

не{не=PART} доезжа{доезжать(доезжать)=V=несов,деепр=*} Челябинского{Челябинск(Челябинск)=S,топ,муж,неод,ед=род=*}

Словоформа, отличающаяся основой от соответствующей словоформы ЛЯ

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие.

пекёт

{печь/пекчи/пекти(печь)=V,несов=изъяв,непрош,ед,3-л=*}

прибегла

{прибегать(прибегать)=V=сов,изъяв,прош,ед,жен=*}

туды{туды(туда)=ADV=*}

особе{особе(особо)=ADV=*}

эстоль{эстоль(столько)=ADV=*}

Основа слова отличается от литературной только наличием-отсутствием префикса.

Вводится индекс =*.

После начальной формы приводится в круглых скобках литературное соответствие.

взамуж{взамуж(замуж)=ADV=*}

 

Диалектное управление глагола или другого слова.

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие.

я ей {она(она)=S-PRO,жен,од,ед=вин=*} разорю

 

на голову{голова(голова)=S,жен,неод=ед,вин={голова=S,жен,неод=ед,вин=*} напекло

Словоформа с нелексикализованной фонетической особенностью

 

 

Словоформа с лексикализованной фонетической особенностью

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие.

Паска{Паска(Пасха)=S,жен,неод=ед,им=*}

кстят{кстить(крестить)=V,несов=изъяв,непрош,мн,3-л=*}

чё{чё(что)=S,сред,неод=ед,им=*}

можа{можа(может)=PARENTH=*}

Нелитературное слово или слово с нестандартным значением.

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие. При отсутствии однословного литературного соответствия в круглых скобках приводится родовое наименование. Н-р: обабок (гриб)

кулугурская

{кулугурский(старообрядческий)=A=ед,жен,им=*}

срядили{сряжать(договариваться)=V=сов,изъяв,прош,мн=*}

больно{больно(очень)=ADV=*}

на{на=PR} братке{братка(братская могила)=S,муж,од=ед,пр=*}

Нелитературное слово, имеющее в ЛЯ близкое соответствие с другим префиксом/суффиксом.

 

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие.

цементовый{цементовый(цементный)=A=ед,муж,им=*}

помидорку{помидорка(помидор)=S,жен,неод=ед,вин=*}

 

Нелитературное слово, значение которого не ясно

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. В зоне литературного соответствия в круглых скобках ставится вопросительный знак.

под{под(под)=PR} бедранку{бедранка(?)=S,жен,неод=ед,вин=*}

 

Частица, выполняющая функцию, отсутствующую в ЛЯ

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. В зоне литературного соответствия в круглых скобках ставится короткое тире.

и{и(–)=PART=*}

дак{дак(–)=PART=*}

 

там{там(там)=ADV} надо{надо(надо)=PRAEDIC} помидорку{помидорка(помидор)=S,жен,неод=ед,вин=*} огуречки{огуречек(огуречек)=S,муж,неод=мн,вин} / полить{поливать(поливать)=V=сов,инф} и{и(–)=PART=*}//

Словоформа, имеющая более, чем одну, диалектную особенность

Вводится индекс =*.

Начальная форма восстанавливается на основе текстовой словоформы. После начальной формы приводится в круглых скобках литературное соответствие. При отсутствии однословного литературного соответствия в круглых скобках приводится родовое наименование. Например: обабок (гриб)

баску[баской(хороший)=A=стяж,ед,жен,вин=*}

Словоформа, имеющая неоднозначную грамматическую интерпретацию

Приводятся варианты морфологической разметки.

беги{бежать(бежать)=V,несов=пов,ед,2-л} вон{вон(вон)=PART} за{за(за)=PR} эту{этот(этот)=A=ед,жен,вин} / за{за(за)=PR} омбарушка{омбарушка(амбар)=S,жен,неод=ед,им=*|омбарушка(амбар)=S,жен,неод=ед,вин=*}

 

мясо{мясо(мясо)=S,сред,неод,ед=род=*|

мясо=S,средеод,ед=вин=*|мясо=S,сред,неод,ед=им=*} много{много(много)=ADV} было{быть(быть)=V=несов,изъяв,прош,ед,сред}

 

ну{ну(ну)=PART} и{и(и)=CONJ} чего{чего(что)=S,сред,неод,ед=им=*|чего(что)=S,сред,неод,ед=вин=*} же{же(же)=PART}

Идиомы

 

Начальная форма восстанавливается на основе контекста. После начальной формы приводится в круглых скобках литературное соответствие или родовое наименование.

мать+моя+родная{мать моя родная (боже мой)=IDIOM}

на+кой{на кой(зачем)=IDIOM=*}

слава+богу{слава богу(слава богу)=INTJ}

потому+что{потому что(потому что)=CONJ}

Пять+вечеров{Пять вечеров(название телепрограммы)= IDIOM,onim }

Омонимичные слова и словоформы.

Каждая словоформа получает характеристики  в соответствии с контекстом

да{да(да)=PART} мы{мы(мы)=S,мн,од=им} будем{быть(быть)=V=сов,изъяв,непрош,мн,1-л} ростить{ростить(растить)=V,несов=инф=*}?

 

%Грибы?%

да{да(да)=PRAEDIC}

 

двое{двое(двое)=NUM=им} на{на(на)=PR} фронте{фронт(фронт)=S,муж,неод=ед,пр} погибли{погибать(погибать)=V=сов,изъяв,прош,мн} // пришёл{приходить(приходить)=V=сов,изъяв,прош,ед,муж} один{один(один)=NUM=муж,ед,им} без{без(без)=PR} ноги{нога(нога)=S,жен,неод=ед,род} / а{а(а)=CONJ} это{это(это)=PART}… у{у(у)=PR} одного{один(один)=S,муж,од=ед,род}-то{то=PART} лёгкие{легкое(легкое)=S,сред,неод=мн,им} больные{больной(больной)=A=мн,им} были{быть(быть)=V=несов,изъяв,прош,мн} / а{а(а)=CONJ} у{у(у)=PR} одного{один(один)=S,муж,од=ед,род} / это{это(это)=PART} / с{с(с)=PR} головой{голова(голова)=S,жен,неод=ед,твор}

 

побольше{большой(большой)=A=срав=*)

побольше{много(много)=ADV=срав=*}

Имя собственное

 имя человека

 фамилия

 отчество

 топоним

 микротопоним

 прозвище

 кличка животного

 остальные имена собственные

имя

фам

отч

топ

мтоп

прозв

клич

onim

Ваня{Ваня(Ваня)=S,имя,муж,од=ед,им}

Поликарпова

{Поликарпова(Поликарпова)=S,фам,жен,од=ед,им}

Матвеевна{Матвеевна(Матвеевна)=S,отч,жен,од=ед,им}

в{в=PR} Вольске{Вольск(Вольск)=S,топ,муж,од=ед,пр}

посёлок{поселок(поселок)=S,муж,неод=ед,им} Течка{Течка(Течка)=S,топ,жен,неод=ед,им}

Восьмое+ марта{Восьмое марта(Восьмое марта)=IDIOM,onim}

Вести{Вести(название телепрограммы)=ONIM}

В составных топонимах родовое имя (Волгоградская область, Лысая гора, Северный Ледовитый океан) получает характеристику имени нарицательного.

Саратовская{Саратовский(Саратовский)=A,топ=ед,жен,им} область{область(область)=S,жен,неод=ед,им}

 

 

На главную страницу