Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Автоматическая транскрипция ирландского

Автор arekuse, февраля 17, 2017, 00:24

0 Пользователи и 1 гость просматривают эту тему.

arekuse

Привет. Ищу единомышленников по созданию автоматизированной транскрипции ирландского в IPA или на первых парах более простой системы. IPA честно говоря отпугивает, но цель, конечно именно IPA.

Начать можно с кайдяна, но в финале можно охватить и диалекты.
Будет использоваться для словаря и конечно же для всех желающих в онлайне.
Может у кого уже были идеи на этот счёт? Можно обменяться здесь идеями.
Я собираюсь писать для этого программу, или хотя бы можно продумать алгоритм.
Возможно с обычных функций анализа паттернов (согласных и гласных) с базой данных.
К примеру, обязательно соблюдение правила "широких и узких гласных", как маркировки палатализации.

То есть
Slender: e, i
Broad: a, o, u

В принципе, большая часть согласных не будет играть особой роли, разве что если речь идёт о мутациях.

Возьмём пример, и заменим согласные на C, широкие на b и узкие на s:

tada -> CbCb -> даёт нам 2 правила: Cb в начале слова Cb в конце слова и bCb в середине слова. Во всех этих случаях согласные "твёрдые"
daide -> CbsCb -> даёт нам, как бы это не было удивительно, 2 правила. Cb в начале слова (=da), iCe в конце слова.

Теперь надо перевести все слова (учитывая комбинации букв и особенные правила, типа gh и dh на конце, мутации и добавочные буквы t, h, s) на эти паттерны и вывести правила. Одновременно учитывать разные комбинации гласных (типа aoi). Я отдаю себе отчёт, что язык не следует правилам, но ирландский в этом деле более постоянен, нежели русский или английский (благодаря кайдяну).

Из двух десятков словарей, что у меня дома, только в двух есть транскрипция.
Thomas Feito Caldas - Wörterbuch Irisch - Deutsch, использует транскрипцию Siadhail'a
И Foclóir Scoile от издательства An Gum. Они используют свою, но у них есть таблица соответствия с IPA.

Система должна также распознавать Lenition и Eclipsis.

Неплохое введение в орфографию даёт Nancy Stanson в Basic Irish: A Grammar and Workbook.

Мне интересны ваши идеи.

arekuse

Выглядеть это будет вроде следующего:

Обозначим нашу небольшую грамматику.

даны согласные, обозначим их как [C]. Различаем далее:
- непалатализированные [C.]
- палатализированные [C']
даны гласные, обозначим их для начала как
- гласные типа slender обозначим как [V]
- гласные типа broad обозначим как [W]

Мы также учитываем следующие нюансы:
- расположение:
- в начале слова ^
- в конце слова *

Позднее бы также будет учитывать следующие вещи: различение простых букв (b, f) и функциональных (типа bh, bhf, которые хотя и состоят из отдельных букв, но являются одним звуком) леницию, назализацию и прочие добавления букв в начале (перед гласными, напр.)

Цель алгоритма установить прежде всего тип согласной, так как это первый вопрос, который возникает при чтении. Поэтому в левой части описываемых ниже функций преобразования согласные будут записываться просто как [C], а в левой, уже будет известен тип, [C.] для непалат., и [C'] для палат. характеристик.

Если перевести словарный запас ирландского (у меня около 60 тысяч слов) в эту схему, получается около 10 000 паттернов.

Скажем, первые 20
V, W, CV, CW, VC, VW, WC, WV, WW, CCV, CCW, CVC, CVV, CVW, CWC, CWV, CWW, VCC, VCV

Для этих паттернов мы описываем правила, прежде всего сконцентрируемся на том, что происходит с согласными.
Не обращайте на транскрипцию, это просто для примера. Транскрипцию ещё нужно расписать. Просто запомните, что ' означает палатализацию.

V->V; [a->a]
W->W; [á->a:]
CV->C'V; bé->[b'e:]
CW->C.W; ma->[ma]
VC->VC'; il->[il']
VW->VW; uí->[ui:]
WC->WC.; ur->[ur]
WV->WV; ae->[ae]* (это неверная транскрипция, но до исключений мы не дошли ещё)
WW->WW; ua->[ua]
CCV->C.C.V; brá->[bra:]

В общем понятно.
Но давайте обратимся сначала к нашему правилу, узкие с узкими, широкие с широкими.

Из него можно сделать следующее правило:

Для всех слов типа гласная-согласная-гласная:
^WCW* всегда ведут к WC.W
^VCV* всегда ведут к VC'V

то же самое относится и к очень простым словам
^CW -> C.W
^CV -> C'V
^VC -> VC' (с исключениями, к примеру слово "is" не читается как "ишь")
^WC -> WC.

Но что делать с остальными, которые окружены прочими буквами?
Паттерны выше для ирландского не подойдут. Нам точно нужно знать, какие именно буквы стоят между согласными, чтобы определить их качество.
Пока не будем учитывать наличие шва-звука. Простые гласные имеют следующую трансприпцию:

Для примера я буду брать вымышленные комбинации из букв b и гласных:

a [a] => bab [bab]
á [a:] => báb [ba:b]
e [e] => beb [b'eb']
é [e:] => béb [b'e:b']
i [i] => bib [b'ib']
í [i:] => bíb [b'i:b']
o [o] => bob [bob]
ó [o:] => bób [bo:b]
u [u] => bub [bub]
ú [u:] => búb [bu:b]

Перейдём к комбинациями букв.
Наш алгоритм должен в первую очередь уметь распознавать именно такие комбинации.

CeáC->[a:]->C'a:C. => beáb [b'а:b] ("бя:б")
CáiC->[a:]->C.a:C' => báib [ba:b'] ("ба:бь")
CeáiC->[a:]->C'a:C' => beáib [b'a:b'] ("бя:бь"), именно в этом примере особенно видны функциональные гласные, то есть те, которые описывают характеристики находящихся рядом согласных!

CéaC->[e:]->C'e:C. => béab [b'e:b] ("бе:б")
CéiC->[e:]->C'e:C' => béib [b'eb'] ("бэбь")

CuíC->[i:]->C.i:C' => buíb [bib'] ("быбь")
CoíC->[i:]->C.i:C' => boíb [bi:b']  ("быбь")
CaíC->[i:]->C.i:C' => baíb [bi:b']  ("быбь")
CuíoC->[i:]->C.i:C. => buíob  [bi:b']  ("быб")

CóiC->[o:]->C.o:C' = bóib [bo:b'] ("бобь")

CúiC->[u:]->C.u:C' => búib [bu:b'] ("бубь")
CiúC->[u:]->C'u:C. => biúb [b'u:b] ("бюб")
CiúiC->[u:]->C'u:C' => biúib [b'u:b'] ("бюбь")

Следующим шагом нужно будет рассмотреть функциональные комбинации согласных, типа bh.

Morumbar


Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр