Author Topic: автоматическая транслитерация арабица > латиница для персидского языка  (Read 27320 times)

0 Members and 1 Guest are viewing this topic.

Offline antbez

  • Posts: 4937
Всё тут написанное можно кратко математически выразить: арабское письмо и латиница не изоморфны друг другу, то есть нет взаимно однозначных соответствий между. Деванагари (по отношению к санскриту) и латиница- изоморфны
Quae medicamenta non sanant, ferrum sanat, quae ferrum non sanat, ignis sanat.

Арабица и латиница не изоморфны друг другу- можно кратко так выразить всё написанное выше
Quae medicamenta non sanant, ferrum sanat, quae ferrum non sanat, ignis sanat.

Offline AlefZet

  • Posts: 551
Спасибо, наконец увидел. Дело в том, что у меня страница "расползлась", и я не увидел توتە.

Конвертор казвики, мне кажется, еще хуже ауылнетовского, потому что страдает диаметрально противоположной крайностью в подходе к транслитерации гласных.  Ауылнетовский конвертор игнорирует дәйекше вообще (что плохо, но не смертельно), а на казвики не только лепят ее везде, кроме случаев где это действительно надо (напр. كٶپ, كٸرۋٵركٸم , ٶڭدەي ).

Собственно, если быть дотошным до конца, в казвики никаких дәйекше и нет, есть хамзованные йа, уау и алиф, что не есть правильно. В общем, орфография - туши свет.

В любом случае, это не в порядке критики разработчиков, я уже сказал, что казахско-казахский конвертор - невозможная вещь.

Конвертор делал я. На базе сербского, а тот был на базе китайского. :) Сербам проще: у них взаимно-однозначное соответствие латинской и кирилловской караджицы. Я сделал новую версию конвертора, использовав свои старые идеи для крымскотатарского и заимствовав из белорусского конверторов. Эта версия пока еще не установлена в проектах Wikimedia, видно это будет после Нового года.

Новый конвертор использует регексы в обычной пеловской нотации, что позволяет сложные конструкции. Теперь структура конвертора такая: первым делом рассматриваются слова из словаря исключений из базы данных (котрый составляется на живой вики), затем из файла (пока отключено), который может быть извлечён из живых вики и будет инвариантным, затем обрабатываются регексы, которые и транслитерируют основную часть текста. Словарь исключений, конечно, сейчас пуст.

Юникод определяет казахской хамзой (дәйекше) HIGH HAMZA и лигатурные ٵ ٶ ٷ ٸ отнесены именно к казахской арабице. В самой первой версии я использовал отдельный знак для HIGH HAMZA, который "улетал" в сторону во всех шрифтах и рассекал вязь, потом отказался в пользу готовых, лигатурных форм.

К сожалению, имеется проблема с символом для Ы, по идее он должен быть как YEH из фарси, но без точек в начальном, среднем и конечном вариантах, однако в Юникоде базового символа для него не имеется, хотя имеются презентационные формы для изолированного, начального, среднего и конечного вариантов. Приходится использовать арабскую ALEF MAKSURA которая без точек.

Другая проблема: Uniscribe в Windows (у меня подключен dll из Vista, более новый в Longhorn Server, который я не имею) не связывает эти лигатурные буквы, хотя BableMap, который, конечно, испльзует тот же dll от Uniscribe ,- связывает.  Видимо, проблема не в самом Uniscribe, а в  приложениях, котрые этот API используют (браузеры, редакторы и др.)

Регексы пока примитивные, но, как я уже писал, есть возможность написать более сложные. Я не являюсь, к сожалению, знатоком регексов, поэтому жду помощь специалиста в этом.

И я убеждён, что "казахско-казахский конвертор" - возможная вещь.   

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

Alessandro,

Посмотрите курдскую вики (ku:)  там имееся транслитератор латиница <-> арабица. Насколько я понимаю, курдская арабица в большей степени персидская, нежели казахская.

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

И я убеждён, что "казахско-казахский конвертор" - возможная вещь.   
Задача транслитерации кириллица -> арабица уже решена. И исправно расставляет хамзу. Конвертор пока не загружен на сервер. Это будет, наверное в теченние недели.
Для просмотра казахской арабицы годятся шрифты "Majalla UI","Microsoft Uighur", "Arabic Typesetting",  Lateef, Scheherazade. Два последних из SIL, остальные из Vista. "Arabic Typesetting" можно добыть из VOLT, и еще в каких-то майкрософтовских продуктах.
Конвертор арабица -> кириллица пока делать не буду, потому-что для kkwiki он не нужен. Но задача вполне себе реализуемая, что для казахской арабицы, что для курдской. Просто надо хорошо знать регексы.

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

Конвертор уже в SVN, желающие могут ознакомиться. И покритиковать ;)

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

Пример текста кириллицей:

Бұрынғы Шағатай ұлысының жерін толық билеуді көздеген Тоғылық Темір Мәуереннахрды Шыңғыс әулеті Денішмендінің атынан билеп отырған Қазағанның көзін құртуды, сол арқылы бұл өңірді Моғолстанға қосып алуды ойлады. Сөйтіп, ол 1358 ж. Қазаған әмірді өлтіртті. Бір жылдан кейін Қазағанның мұрагері Абдолла да қаза болды. Осыдан кейін Мәуереннахр тәуелсіз ұлыстарға бөлінді. Оны пайдалану үшін Тоғлық Темір жанталасты.

то же арабицей (результат работы конвертора см. с помощью шрифтов Majalla UI, Microsoft Uighur, Arabic Typesetting, Lateef, Scheherazade):


بۇرىنعى شاعاتاي ۇلىسىنىڭ جەرىن تولىق بىيلەۋدى كوزدەگەن توعىلىق تەمىر ماۋەرەنناحردى شىڭعىس اۋلەتى دەنىشمەندىنىڭ اتىنان بىيلەپ وتىرعان قازاعاننىڭ كوزىن قۇرتۋدى، سول ارقىلى بۇل ٴوڭىردى موعولستانعا قوسىپ الۋدى ويلادى. ٴسويتىپ، ول ۱۳۵۸ ج. قازاعان ٴامىردى ٴولتىرتتى. ٴبىر جىلدان كەيىن قازاعاننىڭ مۇراگەرى ابدوللا دا قازا بولدى. وسىدان كەيىن ماۋەرەنناحر تاۋەلسىز ۇلىستارعا ٴبولىندى. ونى پايدالانۋ ٴۇشىن توعلىق تەمىر جانتالاستى.



Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

Ну вот и всё. Скрипты на серверах в работе.

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

Offline Tufon

  • Posts: 9
Что могу вам сказать по вопросу автоматической транслитерации арабица-латиница... Порылся недавно в нете и есть коя что новое... на сайте www.tajpers.narod.ru выложена информация на счет некого проекта, авторы которого утверждают, что создали программу автоматического транслитератора с таджикского на персидский при достоверности конверсии 83%, а вот узнать бы как у них дело обстоит с обратной транслитерацией? Может они имеют какие мысли?

Offline tmadi

  • Posts: 2688
Нашел азербайджанский конвертер латиница - абджад. Арабские и иранские заимствования конвертирует более-менее корректно. Обратного направления (абджад - латиница) пока нет, но разработчик клянется что скоро все будет ништяк.

Прямая ссылка: http://rapidshare.com/files/227942027/Kocur.rar

Offline Алекс

  • Posts: 1082
Мәуереннахр
ماۋەرەنناحر

Мда, товарищи. Это же арабское слово, оно должно по-арабски передаваться - ما وراء النهر‎‎.

Sottoportego e corte dei zucchero 3094/b

Offline tmadi

  • Posts: 2688
Мда, товарищи. Это же арабское слово, оно должно по-арабски передаваться - ما وراء النهر‎‎.

Мда, товарищ. Это же о казахско-казахском конвертере (кириллица - абджад) речь шла. Если применять к приведенному тексту все требования кадимской орфографии (что было бы неверно в принципе), то там вообще ошибка на ошибке.

А по-арабски вы все правильно написали, кто бы спорил.

Нашел еще один азербайджанский конвертер. В отличие от вышеупомянутого пашет в обоих направлениях. Но и не восстанавливает арабскую и иранскую орфографию (хотя бы также коряво как первая прога) при конвертации текста на латинице в арабскую версию.

Прямая ссылка: http://www.dilmanc.az/download/AzConvert2_4.zip

Тест-драйв второго конвертера. Берем отрывок стихотворения:
Quote
اؤزومه مخصوص اوْلان باشقا ائلیم واردی منیم
ائلیمه مخصوص اوْلان باشقا دیلیم واردی منیم
ایستهسن قارداش اوْلاق, بیر یاشایاق, بیرلیک ائدک
وئریبن قوْل- قوْلا, بوندان سوْرا بیر یوْلدا گئدک

В результате конвертации получаем:
Quote
Özümə məxəsüs uْlan başqa elim vardı mənim
elimə məxəsüs uْlan başqa dılım vardı mənim
istəhəsn qardaş uْlaq, bir yaşayaq, birlik edək
veribən quْl- quْla, bundan suْra bir yvْlda gedək

В идеале должно быть так:
Quote
Özümə məxsus olan başqa elim vardı mənim
elimə məxsus olan başqa dilim vardı mənim
istəsən qardaş olaq, bir yaşayaq, birlik edək
veribən qol- qola, bundan sora bir yolda gedək

Полученные результаты можно оценить на четверку. Если бы прога харакаты автоматически распознавала и тупорылое шва "ə" не вставляла где не надо - вообще могли бы говорить о четверке с плюсом

Offline Алекс

  • Posts: 1082
Мда, товарищ. Это же о казахско-казахском конвертере (кириллица - абджад) речь шла. Если применять к приведенному тексту все требования кадимской орфографии (что было бы неверно в принципе), то там вообще ошибка на ошибке.

А нафига тогда эта бессмыслица? Упражнение для пальцев?

Sottoportego e corte dei zucchero 3094/b

Offline Alessandro

  • Posts: 2712
    • Alem-i Medeniye
Мда, товарищ. Это же о казахско-казахском конвертере (кириллица - абджад) речь шла. Если применять к приведенному тексту все требования кадимской орфографии (что было бы неверно в принципе), то там вообще ошибка на ошибке.
А нафига тогда эта бессмыслица? Упражнение для пальцев?
Почему бессмыслица... Есть современная казахская орфография на арабице. Используется в Китае. Она более или менее фонетическая, т.е. все заимствования пишутся соответственно произношению. Речь шла о конвертации из кириллицы в эту орфографию и наоборот.
Спасибо, что дочитали.

Offline Алекс

  • Posts: 1082
А в этих системах арабской письменности для тюркских вообще не используется ташдид? Или это только чума-конверторы такие кривые?

Sottoportego e corte dei zucchero 3094/b

Offline Alessandro

  • Posts: 2712
    • Alem-i Medeniye
В "этих" - имеется в виду в джадидских и современных? Да нет вроде как... Если удвоенная согласная, так и пишется две.
Спасибо, что дочитали.

Offline tmadi

  • Posts: 2688
В "этих" - имеется в виду в джадидских и современных? Да нет вроде как... Если удвоенная согласная, так и пишется две.

В южной азербайджанской и южноузбекской весь набор харакатов в наличии.

Offline Alessandro

  • Posts: 2712
    • Alem-i Medeniye
Под современными орфографиями я имел в виду реформированные в XX веке.
В общем, надо кратко обрисовать ситуацию для тех, кто не совсем в теме.
- Существует (с некоторыми региональными вариациями) традиционная орфография для тюркских языков на основе арабицы, т.н. кадим (от ар. къадим - древний). Она основана на тех же принципах, что и персидская - добрая половина гласных не обозначается на письме, арабизмы и фарсизмы пишутся так, как в оригинале. До конца XIX века так писали все тюрки, сейчас так пишут только тюрки Ирана и Афганистана, не затронутые советскими и китайскими реформами.
- В конце XIX века появились новые т.н. джадидские (от ар. джадид - новый) орфографии. Их создатели старались приблизить написание к фонетическому - вводилось последовательное обозначение гласных (правда букв для этого не хватало) и фонетическое написание заимствований. Сейчас эти орфографии нигде не употребляются.
- В 1920-е годы в СССР для многих тюркских языков были созданы полностью фонетические орфографии на основе арабицы. Помимо сделанного в джадидских письменностях были введены буквы с диакритиками для отображения всех необходимых звуков (в т.ч. гласных). В СССР это письмо просуществовало очень недолго, потому что в конце двадцатых началась латинизация. Сегодня такой орфографией пользуются тюрки Китая (уйгуры и казахи).
Спасибо, что дочитали.

Offline Алекс

  • Posts: 1082
Alessandro, спасибо за разъяснения!

Собственно, ч.т.д. - арабская письменность не особо подходит для несемитских языков. Все эти ха разбивающие слова и т.д. - ужасны.

Sottoportego e corte dei zucchero 3094/b


Offline Шамсудднин

  • Newbie
  • Posts: 2
  • Шамсуддин
Люди добрые! Помогите пожалуйста, найти автоматическая онлайн транслитерацию персидского текста на кириллицу или на латиница. За ранее благодарен.

Offline bvs

  • Posts: 8396
Деванагари (по отношению к санскриту) и латиница- изоморфны
Это потому, что санскритская латиница представляет собой транслитерацию деванагари. Точно также можно сделать и прямую взаимно-однозначную транслитерацию арабицы в латиницу (с диакритиками, естественно), другое дело что выглядеть будет непривычно.

Offline Шамсудднин

  • Newbie
  • Posts: 2
  • Шамсуддин
[url=http://lingvoforum.net/index.php?topic=5799.msg312181#msg312181

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: