автоматическая транслитерация арабица > латиница для персидского языка

Автор Alessandro, ноября 1, 2006, 21:58

0 Пользователи и 1 гость просматривают эту тему.

antbez

Всё тут написанное можно кратко математически выразить: арабское письмо и латиница не изоморфны друг другу, то есть нет взаимно однозначных соответствий между. Деванагари (по отношению к санскриту) и латиница- изоморфны
Quae medicamenta non sanant, ferrum sanat, quae ferrum non sanat, ignis sanat.

antbez

Арабица и латиница не изоморфны друг другу- можно кратко так выразить всё написанное выше
Quae medicamenta non sanant, ferrum sanat, quae ferrum non sanat, ignis sanat.

AlefZet

Цитата: tmadi от июля  6, 2007, 13:47
Спасибо, наконец увидел. Дело в том, что у меня страница "расползлась", и я не увидел توتە.

Конвертор казвики, мне кажется, еще хуже ауылнетовского, потому что страдает диаметрально противоположной крайностью в подходе к транслитерации гласных.  Ауылнетовский конвертор игнорирует дәйекше вообще (что плохо, но не смертельно), а на казвики не только лепят ее везде, кроме случаев где это действительно надо (напр. كٶپ, كٸرۋٵركٸم , ٶڭدەي ).

Собственно, если быть дотошным до конца, в казвики никаких дәйекше и нет, есть хамзованные йа, уау и алиф, что не есть правильно. В общем, орфография - туши свет.

В любом случае, это не в порядке критики разработчиков, я уже сказал, что казахско-казахский конвертор - невозможная вещь.

Конвертор делал я. На базе сербского, а тот был на базе китайского. :) Сербам проще: у них взаимно-однозначное соответствие латинской и кирилловской караджицы. Я сделал новую версию конвертора, использовав свои старые идеи для крымскотатарского и заимствовав из белорусского конверторов. Эта версия пока еще не установлена в проектах Wikimedia, видно это будет после Нового года.

Новый конвертор использует регексы в обычной пеловской нотации, что позволяет сложные конструкции. Теперь структура конвертора такая: первым делом рассматриваются слова из словаря исключений из базы данных (котрый составляется на живой вики), затем из файла (пока отключено), который может быть извлечён из живых вики и будет инвариантным, затем обрабатываются регексы, которые и транслитерируют основную часть текста. Словарь исключений, конечно, сейчас пуст.

Юникод определяет казахской хамзой (дәйекше) HIGH HAMZA и лигатурные ٵ ٶ ٷ ٸ отнесены именно к казахской арабице. В самой первой версии я использовал отдельный знак для HIGH HAMZA, который "улетал" в сторону во всех шрифтах и рассекал вязь, потом отказался в пользу готовых, лигатурных форм.

К сожалению, имеется проблема с символом для Ы, по идее он должен быть как YEH из фарси, но без точек в начальном, среднем и конечном вариантах, однако в Юникоде базового символа для него не имеется, хотя имеются презентационные формы для изолированного, начального, среднего и конечного вариантов. Приходится использовать арабскую ALEF MAKSURA которая без точек.

Другая проблема: Uniscribe в Windows (у меня подключен dll из Vista, более новый в Longhorn Server, который я не имею) не связывает эти лигатурные буквы, хотя BableMap, который, конечно, испльзует тот же dll от Uniscribe ,- связывает.  Видимо, проблема не в самом Uniscribe, а в  приложениях, котрые этот API используют (браузеры, редакторы и др.)

Регексы пока примитивные, но, как я уже писал, есть возможность написать более сложные. Я не являюсь, к сожалению, знатоком регексов, поэтому жду помощь специалиста в этом.

И я убеждён, что "казахско-казахский конвертор" - возможная вещь.   

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

AlefZet

Alessandro,

Посмотрите курдскую вики (ku:)  там имееся транслитератор латиница <-> арабица. Насколько я понимаю, курдская арабица в большей степени персидская, нежели казахская.

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

AlefZet

Цитата: AlefZet от декабря 26, 2007, 16:47
И я убеждён, что "казахско-казахский конвертор" - возможная вещь.   
Задача транслитерации кириллица -> арабица уже решена. И исправно расставляет хамзу. Конвертор пока не загружен на сервер. Это будет, наверное в теченние недели.
Для просмотра казахской арабицы годятся шрифты "Majalla UI","Microsoft Uighur", "Arabic Typesetting",  Lateef, Scheherazade. Два последних из SIL, остальные из Vista. "Arabic Typesetting" можно добыть из VOLT, и еще в каких-то майкрософтовских продуктах.
Конвертор арабица -> кириллица пока делать не буду, потому-что для kkwiki он не нужен. Но задача вполне себе реализуемая, что для казахской арабицы, что для курдской. Просто надо хорошо знать регексы.

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

AlefZet


Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

AlefZet

Пример текста кириллицей:

Бұрынғы Шағатай ұлысының жерін толық билеуді көздеген Тоғылық Темір Мәуереннахрды Шыңғыс әулеті Денішмендінің атынан билеп отырған Қазағанның көзін құртуды, сол арқылы бұл өңірді Моғолстанға қосып алуды ойлады. Сөйтіп, ол 1358 ж. Қазаған әмірді өлтіртті. Бір жылдан кейін Қазағанның мұрагері Абдолла да қаза болды. Осыдан кейін Мәуереннахр тәуелсіз ұлыстарға бөлінді. Оны пайдалану үшін Тоғлық Темір жанталасты.

то же арабицей (результат работы конвертора см. с помощью шрифтов Majalla UI, Microsoft Uighur, Arabic Typesetting, Lateef, Scheherazade):


بۇرىنعى شاعاتاي ۇلىسىنىڭ جەرىن تولىق بىيلەۋدى كوزدەگەن توعىلىق تەمىر ماۋەرەنناحردى شىڭعىس اۋلەتى دەنىشمەندىنىڭ اتىنان بىيلەپ وتىرعان قازاعاننىڭ كوزىن قۇرتۋدى، سول ارقىلى بۇل ٴوڭىردى موعولستانعا قوسىپ الۋدى ويلادى. ٴسويتىپ، ول ۱۳۵۸ ج. قازاعان ٴامىردى ٴولتىرتتى. ٴبىر جىلدان كەيىن قازاعاننىڭ مۇراگەرى ابدوللا دا قازا بولدى. وسىدان كەيىن ماۋەرەنناحر تاۋەلسىز ۇلىستارعا ٴبولىندى. ونى پايدالانۋ ٴۇشىن توعلىق تەمىر جانتالاستى.


Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

AlefZet


Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

Tufon

Что могу вам сказать по вопросу автоматической транслитерации арабица-латиница... Порылся недавно в нете и есть коя что новое... на сайте //www.tajpers.narod.ru выложена информация на счет некого проекта, авторы которого утверждают, что создали программу автоматического транслитератора с таджикского на персидский при достоверности конверсии 83%, а вот узнать бы как у них дело обстоит с обратной транслитерацией? Может они имеют какие мысли?

tmadi

Нашел азербайджанский конвертер латиница - абджад. Арабские и иранские заимствования конвертирует более-менее корректно. Обратного направления (абджад - латиница) пока нет, но разработчик клянется что скоро все будет ништяк.

Прямая ссылка: http://rapidshare.com/files/227942027/Kocur.rar

Алекс


Sottoportego e corte dei zucchero 3094/b

tmadi

Цитата: Алекс от мая  1, 2009, 19:46
Мда, товарищи. Это же арабское слово, оно должно по-арабски передаваться - ما وراء النهر‎‎.

Мда, товарищ. Это же о казахско-казахском конвертере (кириллица - абджад) речь шла. Если применять к приведенному тексту все требования кадимской орфографии (что было бы неверно в принципе), то там вообще ошибка на ошибке.

А по-арабски вы все правильно написали, кто бы спорил.

tmadi

Нашел еще один азербайджанский конвертер. В отличие от вышеупомянутого пашет в обоих направлениях. Но и не восстанавливает арабскую и иранскую орфографию (хотя бы также коряво как первая прога) при конвертации текста на латинице в арабскую версию.

Прямая ссылка: http://www.dilmanc.az/download/AzConvert2_4.zip

tmadi

Тест-драйв второго конвертера. Берем отрывок стихотворения:
Цитироватьاؤزومه مخصوص اوْلان باشقا ائلیم واردی منیم
ائلیمه مخصوص اوْلان باشقا دیلیم واردی منیم
ایستهسن قارداش اوْلاق, بیر یاشایاق, بیرلیک ائدک
وئریبن قوْل- قوْلا, بوندان سوْرا بیر یوْلدا گئدک

В результате конвертации получаем:
ЦитироватьÖzümə məxəsüs uْlan başqa elim vardı mənim
elimə məxəsüs uْlan başqa dılım vardı mənim
istəhəsn qardaş uْlaq, bir yaşayaq, birlik edək
veribən quْl- quْla, bundan suْra bir yvْlda gedək

В идеале должно быть так:
ЦитироватьÖzümə məxsus olan başqa elim vardı mənim
elimə məxsus olan başqa dilim vardı mənim
istəsən qardaş olaq, bir yaşayaq, birlik edək
veribən qol- qola, bundan sora bir yolda gedək

Полученные результаты можно оценить на четверку. Если бы прога харакаты автоматически распознавала и тупорылое шва "ə" не вставляла где не надо - вообще могли бы говорить о четверке с плюсом

Алекс

Цитата: tmadi от мая  1, 2009, 20:57
Мда, товарищ. Это же о казахско-казахском конвертере (кириллица - абджад) речь шла. Если применять к приведенному тексту все требования кадимской орфографии (что было бы неверно в принципе), то там вообще ошибка на ошибке.

А нафига тогда эта бессмыслица? Упражнение для пальцев?

Sottoportego e corte dei zucchero 3094/b

Alessandro

Цитата: Алекс от мая  2, 2009, 18:32
Цитата: tmadi от мая  1, 2009, 20:57
Мда, товарищ. Это же о казахско-казахском конвертере (кириллица - абджад) речь шла. Если применять к приведенному тексту все требования кадимской орфографии (что было бы неверно в принципе), то там вообще ошибка на ошибке.
А нафига тогда эта бессмыслица? Упражнение для пальцев?
Почему бессмыслица... Есть современная казахская орфография на арабице. Используется в Китае. Она более или менее фонетическая, т.е. все заимствования пишутся соответственно произношению. Речь шла о конвертации из кириллицы в эту орфографию и наоборот.
Спасибо, что дочитали.

Алекс

А в этих системах арабской письменности для тюркских вообще не используется ташдид? Или это только чума-конверторы такие кривые?

Sottoportego e corte dei zucchero 3094/b

Alessandro

В "этих" - имеется в виду в джадидских и современных? Да нет вроде как... Если удвоенная согласная, так и пишется две.
Спасибо, что дочитали.

tmadi

Цитата: Alessandro от мая  2, 2009, 19:51
В "этих" - имеется в виду в джадидских и современных? Да нет вроде как... Если удвоенная согласная, так и пишется две.

В южной азербайджанской и южноузбекской весь набор харакатов в наличии.

Alessandro

Под современными орфографиями я имел в виду реформированные в XX веке.
В общем, надо кратко обрисовать ситуацию для тех, кто не совсем в теме.
- Существует (с некоторыми региональными вариациями) традиционная орфография для тюркских языков на основе арабицы, т.н. кадим (от ар. къадим - древний). Она основана на тех же принципах, что и персидская - добрая половина гласных не обозначается на письме, арабизмы и фарсизмы пишутся так, как в оригинале. До конца XIX века так писали все тюрки, сейчас так пишут только тюрки Ирана и Афганистана, не затронутые советскими и китайскими реформами.
- В конце XIX века появились новые т.н. джадидские (от ар. джадид - новый) орфографии. Их создатели старались приблизить написание к фонетическому - вводилось последовательное обозначение гласных (правда букв для этого не хватало) и фонетическое написание заимствований. Сейчас эти орфографии нигде не употребляются.
- В 1920-е годы в СССР для многих тюркских языков были созданы полностью фонетические орфографии на основе арабицы. Помимо сделанного в джадидских письменностях были введены буквы с диакритиками для отображения всех необходимых звуков (в т.ч. гласных). В СССР это письмо просуществовало очень недолго, потому что в конце двадцатых началась латинизация. Сегодня такой орфографией пользуются тюрки Китая (уйгуры и казахи).
Спасибо, что дочитали.

Алекс

Alessandro, спасибо за разъяснения!

Собственно, ч.т.д. - арабская письменность не особо подходит для несемитских языков. Все эти ха разбивающие слова и т.д. - ужасны.

Sottoportego e corte dei zucchero 3094/b


Шамсудднин

Люди добрые! Помогите пожалуйста, найти автоматическая онлайн транслитерацию персидского текста на кириллицу или на латиница. За ранее благодарен.

bvs

Цитата: antbez от июля  6, 2007, 15:19
Деванагари (по отношению к санскриту) и латиница- изоморфны
Это потому, что санскритская латиница представляет собой транслитерацию деванагари. Точно также можно сделать и прямую взаимно-однозначную транслитерацию арабицы в латиницу (с диакритиками, естественно), другое дело что выглядеть будет непривычно.


Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр