Лингвофорум

Теоретический раздел => Прикладная лингвистика => Вопросы письменности => Тема начата: Alessandro от ноября 1, 2006, 21:58

Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от ноября 1, 2006, 21:58
Вопрос к знающим фарси: возможна ли автоматическая транслитерация текстов на персидском языке из арабицы в латиницу? Пусть правила транслитерации будут хитроумные (типа "если через два символа после буквы X идёт буква Y, то она транслитерируется в А, а иначе в В"), пусть придётся сделать список исключений и сотни-другой слов (арабизмов каких-нибудь), но тем не менее. Принципиально возможна автоматическая транслитерация или нет?

В случае с тюркскими языками, например, невозможна.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: AlefZet от ноября 2, 2006, 06:47
В отношении тюркских, в частности, казахского не совсем так. Как-то я набрел в Сети на сайт китайских казахов. Так там была транслитерация на лету с арабицы на кириллицу. Но это была _другая_ кириллица. Конечно, орфография выглядела непривычно, но понять было можно.
Для фарси, насколько я знаю, никакой официальной и привычной латинской орфографии не существует, поэтому и проблем особых не предвижу. Где-то в сети уже видел и транслятор с арабицы в латиницу, по-моему на алжирском сайте, (а может и на египетском). Помнится, он был платный.
Название: Re: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: арьязадэ от ноября 2, 2006, 07:07
персидский очень сильно стандартизованный и отточенный тысячилетиями язык.
думаю этот язык должен поддаваться легко любому виду автоматической транслитерации.
я лично никакого препятствия не вижу.
сам свободно читаю без всяких трудностей персидские тексты (включая книги) и на таджикской кириллице, на арабице Ирана и Афанистана, и на латиннице, включая тот же UniPers.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от ноября 2, 2006, 10:52
Цитата: AlefZet от ноября  2, 2006, 06:47
В отношении тюркских, в частности, казахского не совсем так. Как-то я набрел в Сети на сайт китайских казахов. Так там была транслитерация на лету с арабицы на кириллицу. Но это была _другая_ кириллица. Конечно, орфография выглядела непривычно, но понять было можно.
Гм... Как я понимаю, главная проблема с буквой , которая может обозначать o, ö, u, ü, v. По крайней мере так в крымскотатарской арабице. Например, понять при транслитерации из арабицы в латиницу или кириллицу, что означает слово كوز невозможно: это может быть и köz, и küz, они пишутся в арабице одинаково.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от ноября 7, 2006, 13:15
Я тут давеча искал текст одной персидской песенки, и поэтому познакомился с персидской арабицей чуток поближе. Неприятные наблюдения касательно гласных:
во-первых, персы очень часто не обременяют себя обозначением на письме гласных (за исключением â - ا) вообще;
во-вторых, краткая а, если и обозначается, то обозначается алифом, как и долгая, т.е. различить их при транслитерации как будто бы невозможно;
в-третьих, как и в тюрских арабицах, буква йа ی обозначает и [й] и [и] (но тут возможно с помощью проверки соседних символов можно было бы выкрутится при транслитерации);
в-четвёртых, опять же, как и в тюркских арабицах, вав و обозначает и [о], и [у], и [в].
Название: Re: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: shravan от ноября 7, 2006, 16:21
Алиф (без мадды) обозначает краткое а только в начале слова. В остальных случаях он всегда передает â.
Название: Re: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от ноября 9, 2006, 12:41
Цитата: shravan от ноября  7, 2006, 16:21
Алиф (без мадды) обозначает краткое а только в начале слова. В остальных случаях он всегда передает â.
То есть краткое а в середине слова не обозначается никогда вообще?

Посколькку на основной вопрос так никто толком и не ответил, я попробую его несколько сузить: можно ли по тексту, записанному арабицей восстановить пропущенные гласные, не зная языка? То есть существуют ли правила, по которым можно, к примеру, глядя на слово کهن - khn понять, что это kohan, а не kuhen или kohun?
Если таких правил нет и восстановить гласные в словах, не зная языка нельзя, то в принципе можно было бы решить проблему, зашив в транслитератор/переводчик полный словарь языка. Отсюда второй вопрос - существуют ли омонимы, которые отличаются только гласными, и поэтому в арабском алфавите пишутся одинаково?
Название: Re: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: shravan от ноября 9, 2006, 19:44
Алессандро,
в персидском на письме последовательно отражаются только долгие гласные â, i, u (в начале, середине и конце слова), краткий а (в начале слова, как я уже говорил) и е (на конце слов через хе-йе-хавваз). Краткий о либо никак не отражается в неогласованном тексте, либо передается так же, как и долгий u. Краткий а в середине слова никак не обозначается, в конце слова - только в одном случае через хе-йе-хавваз. Кроме того, изафет, в большинстве случаев, никак не отражается на письме, но восстанавливается в процессе чтиения по смыслу.
Таким образом, не существует универсальных правил вокализации персидского текста, записанного в арабской графике. Поэтому, в программе-транслитераторе, на мой взгляд, недостаточно использовать максимально полный словарь. Надо еще научить ее понимать где стоят изафеты, образовывать глагольные формы, распознавать арабские причастия и масдары 9-ти пород (в которых огласовки подчиняются регулярным правилам) и т.д. Не знаю, возможно ли осуществить такое на практике.
ЦитироватьОтсюда второй вопрос - существуют ли омонимы, которые отличаются только гласными, и поэтому в арабском алфавите пишутся одинаково?
Очевидно, вы имели в виду омографы? Конечно же, они существуют, хотя их и не так много. Какие гласные надо вставить в том или ином случае можно догадаться только по контексту.
А вот омонимов действительно много и различаются они только в арабской графике. В юниперсе порой возникают проблемы с пониманием (разумеется, все зависит от степени владения языком).   :)
Название: Re: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от ноября 10, 2006, 22:19
shravan, благодарю за ответ.

То есть автоматический транслитератор в ЮниПерс или другую приемлемую латиницу сделать, грубо говоря, невозможно. :(

Цитата: shravan от ноября  9, 2006, 19:44Очевидно, вы имели в виду омографы? Конечно же, они существуют, хотя их и не так много. Какие гласные надо вставить в том или ином случае можно догадаться только по контексту.
Да, их я и имел в виду.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от июня 16, 2007, 21:09
К вопросу о транслите тюркской арабицы. Маленькая, но полезная программка, транслитерирующая уйгурские тексты с арабицы на латиницу и обратно. Проверил - пашет без багов.

UyghurEdit (http://rapidshare.com/files/37596398/uyghuredit.msi)
Название: Re: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Yaranga от июня 17, 2007, 00:23
tmadi,
كلاسسناجا پروگرامما!
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от июня 17, 2007, 00:27
Ага. Только klassnaya, а не klassnaja.
Название: Re: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Yaranga от июня 17, 2007, 00:36
ئىزۋىنىتە... ئەتو يا پو ئانالوگىيى سو سلاۋيانسكىمى ئى بالتىيسكىمى...:)
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от июня 17, 2007, 00:46
يا تاك يى پونيال
Название: Re: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Yaranga от июня 17, 2007, 01:20
:) Вот я и думаю - если русский так легко транслитерируется, персидский - вообще нипочём будет! :)
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от июня 17, 2007, 09:46
Не так все просто. Фарси - не уйгурский. В принципе,shravan уже все сказал по сабжу.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от июня 17, 2007, 10:03
Да, в том-то всё и дело, что современная уйгурская орфография заметно отличается от традиционной тюрко-персидской. Но в любом случае, при надобности оттранслитить что-нибудь в направлении арабица > латиница или наоборот эта программка поможет сделать черновой перевод и сэкономить время. Спасибо.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от июня 29, 2007, 23:01
Здесь (http://lingvoforum.net/index.php/topic,319.msg41590.html#msg41590) прочел о программке En2Fa, транслитерирующая с латиницы на алифба. Скачал отсюда (http://www.geocities.com/en2fa/download.html), установил себе на комп, но прога вступила в бой с моей китайской виндой и мгновенно пала смертью храбрых. Кто-нибудь пользовался ею? Как она вообще пашет? Заранее спасибо.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от июля 6, 2007, 10:50
Цитата: AlefZet от ноября  2, 2006, 06:47
В отношении тюркских, в частности, казахского не совсем так. Как-то я набрел в Сети на сайт китайских казахов. Так там была транслитерация на лету с арабицы на кириллицу. Но это была _другая_ кириллица. Конечно, орфография выглядела непривычно, но понять было можно.

Вы об этом (http://www.awil.net/Convert/) конвертере? В целом понятно, но в смысле орфографии - никуда не годится. В этом нельзя винить разработчиков конвертера, так как төте жазу на 100% использует преимущества сингармонизма, поэтому отдельных букв для звуков ә, і, ү, ө в казахской арабице нет, лишь иногда дәйекше присутствует (которую разработчики конвертера, судя по всему, сразу послали в глухой игнор). Об этом мы уже говорили здесь (http://lingvoforum.net/index.php/topic,6970.msg109922.html#msg109922).

Дурацкий вариант латиницы тоже не могу поставить в вину авторам идеи - в конце концов, до официального перехода на латиницу все варианты казахского АВС имеют равные (птичьи) права, это дело личного вкуса.

Убедился в том, что конвертация казахского письма невозможна так же, как и фарси, только совсем по другим причинам.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Baruch от июля 6, 2007, 11:48
Арабское письмо, принятое сейчас в Китае для уйгурского и казахского имеет иной характер, чем персидское . В Китае пользуются реформированным арабским, точно обозначающим все гласные, и несложно построить программу перевода с этого письма на кириллицу и обратно.
Для персидского это в принципе невозможно: краткие гласные не обозначаются, арабские слова пишутся по арабской орфографии со многими буквами, которые для собственно персидских слов излишни: три буквы для С, три для З и т.д.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от июля 6, 2007, 12:11
Цитата: Baruch от июля  6, 2007, 11:48
Арабское письмо, принятое сейчас в Китае для уйгурского и казахского имеет иной характер, чем персидское . В Китае пользуются реформированным арабским, точно обозначающим все гласные, и несложно построить программу перевода с этого письма на кириллицу и обратно.
Для персидского это в принципе невозможно: краткие гласные не обозначаются, арабские слова пишутся по арабской орфографии со многими буквами, которые для собственно персидских слов излишни: три буквы для С, три для З и т.д.

Спасибо за справку, но насколько я понял, большинство принимающих участие в этом разговоре форумчан имеет представление о различиях между современными абджадными алфавитами. Поэтому не совсем понятно кому предназначалась ваша информация.

О настоящих трудностях транслитерации фарси на латиницу очень подробно написал shravan, причем "излишние" буквы как раз не упоминались среди насущных проблем, так как для компьютерной программы не трудно и ز, и ذ, и ظ, и даже ض с одинаковым успехом конвертнуть в z.

Кроме того, повторюсь, я не думаю, что для казахского языка "несложно построить программу перевода с этого письма на кириллицу и обратно". Об этом я и писал в своем предыдущем посте.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от июля 6, 2007, 12:25
Мади, а посмотреть на казахскую википедию (http://kk.wikipedia.org/wiki/%D0%91%D0%B0%D1%81%D1%82%D1%8B_%D0%B1%D0%B5%D1%82 (http://kk.wikipedia.org/wiki/%D0%91%D0%B0%D1%81%D1%82%D1%8B_%D0%B1%D0%B5%D1%82)) у вас совсем нет возможности? Просто любопытно было бы услышать ваше мнение по поводу конвертора кириллица > арабица, который используется там.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от июля 6, 2007, 12:35
Цитата: Alessandro от июля  6, 2007, 12:25
Мади, а посмотреть на казахскую википедию (http://kk.wikipedia.org/wiki/%D0%91%D0%B0%D1%81%D1%82%D1%8B_%D0%B1%D0%B5%D1%82 (http://kk.wikipedia.org/wiki/%D0%91%D0%B0%D1%81%D1%82%D1%8B_%D0%B1%D0%B5%D1%82)) у вас совсем нет возможности? Просто любопытно было бы услышать ваше мнение по поводу конвертора кириллица > арабица, который используется там.

Выйти-то на страницу я смог, но вот конвертора там не увидел. Вы не могли бы подсказать прямую ссылку, а то, к своему стыду, найти не могу.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от июля 6, 2007, 13:05
Там сверху страницы есть такие ссылочки кирилlatın и توتە. Если нажмёте на latın, страница оттранслитится в латиницу, если на توتە - в арабицу.
Главная страница в арабописьменном исполнении выглядит вот так http://kk.wikipedia.org/w/index.php?title=%D0%91%D0%B0%D1%81%D1%82%D1%8B_%D0%B1%D0%B5%D1%82&variant=kk-cn (http://kk.wikipedia.org/w/index.php?title=%D0%91%D0%B0%D1%81%D1%82%D1%8B_%D0%B1%D0%B5%D1%82&variant=kk-cn)
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от июля 6, 2007, 13:47
Спасибо, наконец увидел. Дело в том, что у меня страница "расползлась", и я не увидел توتە.

Конвертор казвики, мне кажется, еще хуже ауылнетовского, потому что страдает диаметрально противоположной крайностью в подходе к транслитерации гласных.  Ауылнетовский конвертор игнорирует дәйекше вообще (что плохо, но не смертельно), а на казвики не только лепят ее везде, кроме случаев где это действительно надо (напр. كٶپ, كٸرۋٵركٸم , ٶڭدەي ).

Собственно, если быть дотошным до конца, в казвики никаких дәйекше и нет, есть хамзованные йа, уау и алиф, что не есть правильно. В общем, орфография - туши свет.

В любом случае, это не в порядке критики разработчиков, я уже сказал, что казахско-казахский конвертор - невозможная вещь.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: antbez от июля 6, 2007, 15:19
Всё тут написанное можно кратко математически выразить: арабское письмо и латиница не изоморфны друг другу, то есть нет взаимно однозначных соответствий между. Деванагари (по отношению к санскриту) и латиница- изоморфны
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: antbez от июля 6, 2007, 15:21
Арабица и латиница не изоморфны друг другу- можно кратко так выразить всё написанное выше
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: AlefZet от декабря 26, 2007, 16:47
Цитата: tmadi от июля  6, 2007, 13:47
Спасибо, наконец увидел. Дело в том, что у меня страница "расползлась", и я не увидел توتە.

Конвертор казвики, мне кажется, еще хуже ауылнетовского, потому что страдает диаметрально противоположной крайностью в подходе к транслитерации гласных.  Ауылнетовский конвертор игнорирует дәйекше вообще (что плохо, но не смертельно), а на казвики не только лепят ее везде, кроме случаев где это действительно надо (напр. كٶپ, كٸرۋٵركٸم , ٶڭدەي ).

Собственно, если быть дотошным до конца, в казвики никаких дәйекше и нет, есть хамзованные йа, уау и алиф, что не есть правильно. В общем, орфография - туши свет.

В любом случае, это не в порядке критики разработчиков, я уже сказал, что казахско-казахский конвертор - невозможная вещь.

Конвертор делал я. На базе сербского, а тот был на базе китайского. :) Сербам проще: у них взаимно-однозначное соответствие латинской и кирилловской караджицы. Я сделал новую версию (http://svn.wikimedia.org/viewvc/mediawiki/trunk/phase3/languages/classes/LanguageKk.php?view=markup) конвертора, использовав свои старые идеи для крымскотатарского (http://incubator.wikimedia.org/wiki/User:AlefZet/crh/LanguageCrh.php) и заимствовав из белорусского (http://be-x-old.wikipedia.org/wiki/%D0%A3%D0%B4%D0%B7%D0%B5%D0%BB%D1%8C%D0%BD%D1%96%D0%BA:Alexey/%D0%BA%D0%B0%D0%BD%D0%B2%D1%8D%D1%80%D1%82%D0%B0%D1%80/LanguageBe_tarask.php) конверторов. Эта версия пока еще не установлена в проектах Wikimedia, видно это будет после Нового года.

Новый конвертор использует регексы в обычной пеловской нотации, что позволяет сложные конструкции. Теперь структура конвертора такая: первым делом рассматриваются слова из словаря исключений из базы данных (котрый составляется на живой вики), затем из файла (пока отключено), который может быть извлечён из живых вики и будет инвариантным, затем обрабатываются регексы, которые и транслитерируют основную часть текста. Словарь исключений, конечно, сейчас пуст.

Юникод определяет казахской хамзой (дәйекше) HIGH HAMZA и лигатурные ٵ ٶ ٷ ٸ отнесены именно к казахской арабице. В самой первой версии я использовал отдельный знак для HIGH HAMZA, который "улетал" в сторону во всех шрифтах и рассекал вязь, потом отказался в пользу готовых, лигатурных форм.

К сожалению, имеется проблема с символом для Ы, по идее он должен быть как YEH из фарси, но без точек в начальном, среднем и конечном вариантах, однако в Юникоде базового символа для него не имеется, хотя имеются презентационные формы для изолированного, начального, среднего и конечного вариантов. Приходится использовать арабскую ALEF MAKSURA которая без точек.

Другая проблема: Uniscribe в Windows (у меня подключен dll из Vista, более новый в Longhorn Server, который я не имею) не связывает эти лигатурные буквы, хотя BableMap, который, конечно, испльзует тот же dll от Uniscribe ,- связывает.  Видимо, проблема не в самом Uniscribe, а в  приложениях, котрые этот API используют (браузеры, редакторы и др.)

Регексы пока примитивные, но, как я уже писал, есть возможность написать более сложные. Я не являюсь, к сожалению, знатоком регексов, поэтому жду помощь специалиста в этом.

И я убеждён, что "казахско-казахский конвертор" - возможная вещь.   
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: AlefZet от декабря 26, 2007, 16:51
Alessandro,

Посмотрите курдскую вики (ku:)  там имееся транслитератор латиница <-> арабица. Насколько я понимаю, курдская арабица в большей степени персидская, нежели казахская.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: AlefZet от января 11, 2008, 02:30
Цитата: AlefZet от декабря 26, 2007, 16:47
И я убеждён, что "казахско-казахский конвертор" - возможная вещь.   
Задача транслитерации кириллица -> арабица уже решена. И исправно расставляет хамзу. Конвертор пока не загружен на сервер. Это будет, наверное в теченние недели.
Для просмотра казахской арабицы годятся шрифты "Majalla UI","Microsoft Uighur", "Arabic Typesetting",  Lateef, Scheherazade. Два последних из SIL, остальные из Vista. "Arabic Typesetting" можно добыть из VOLT, и еще в каких-то майкрософтовских продуктах.
Конвертор арабица -> кириллица пока делать не буду, потому-что для kkwiki он не нужен. Но задача вполне себе реализуемая, что для казахской арабицы, что для курдской. Просто надо хорошо знать регексы.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: AlefZet от января 12, 2008, 00:32
Конвертор уже в SVN (http://svn.wikimedia.org/viewvc/mediawiki/trunk/phase3/languages/classes/LanguageKk.php?r1=29359&r2=29594), желающие могут ознакомиться. И покритиковать ;)
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: AlefZet от января 12, 2008, 01:05
Пример текста кириллицей:

Бұрынғы Шағатай ұлысының жерін толық билеуді көздеген Тоғылық Темір Мәуереннахрды Шыңғыс әулеті Денішмендінің атынан билеп отырған Қазағанның көзін құртуды, сол арқылы бұл өңірді Моғолстанға қосып алуды ойлады. Сөйтіп, ол 1358 ж. Қазаған әмірді өлтіртті. Бір жылдан кейін Қазағанның мұрагері Абдолла да қаза болды. Осыдан кейін Мәуереннахр тәуелсіз ұлыстарға бөлінді. Оны пайдалану үшін Тоғлық Темір жанталасты.

то же арабицей (результат работы конвертора см. с помощью шрифтов Majalla UI, Microsoft Uighur, Arabic Typesetting, Lateef, Scheherazade):


بۇرىنعى شاعاتاي ۇلىسىنىڭ جەرىن تولىق بىيلەۋدى كوزدەگەن توعىلىق تەمىر ماۋەرەنناحردى شىڭعىس اۋلەتى دەنىشمەندىنىڭ اتىنان بىيلەپ وتىرعان قازاعاننىڭ كوزىن قۇرتۋدى، سول ارقىلى بۇل ٴوڭىردى موعولستانعا قوسىپ الۋدى ويلادى. ٴسويتىپ، ول ۱۳۵۸ ج. قازاعان ٴامىردى ٴولتىرتتى. ٴبىر جىلدان كەيىن قازاعاننىڭ مۇراگەرى ابدوللا دا قازا بولدى. وسىدان كەيىن ماۋەرەنناحر تاۋەلسىز ۇلىستارعا ٴبولىندى. ونى پايدالانۋ ٴۇشىن توعلىق تەمىر جانتالاستى.

Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: AlefZet от января 13, 2008, 14:22
Ну вот и всё. Скрипты на серверах в работе.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Tufon от ноября 7, 2008, 14:47
Что могу вам сказать по вопросу автоматической транслитерации арабица-латиница... Порылся недавно в нете и есть коя что новое... на сайте www.tajpers.narod.ru выложена информация на счет некого проекта, авторы которого утверждают, что создали программу автоматического транслитератора с таджикского на персидский при достоверности конверсии 83%, а вот узнать бы как у них дело обстоит с обратной транслитерацией? Может они имеют какие мысли?
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от мая 1, 2009, 18:24
Нашел азербайджанский конвертер латиница - абджад. Арабские и иранские заимствования конвертирует более-менее корректно. Обратного направления (абджад - латиница) пока нет, но разработчик клянется что скоро все будет ништяк.

Прямая ссылка: http://rapidshare.com/files/227942027/Kocur.rar
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Алекс от мая 1, 2009, 19:46
Цитата: AlefZet от января 12, 2008, 01:05
Мәуереннахр
Цитата: AlefZet от января 12, 2008, 01:05
ماۋەرەنناحر

Мда, товарищи. Это же арабское слово, оно должно по-арабски передаваться - ما وراء النهر‎‎.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от мая 1, 2009, 20:57
Цитата: Алекс от мая  1, 2009, 19:46
Мда, товарищи. Это же арабское слово, оно должно по-арабски передаваться - ما وراء النهر‎‎.

Мда, товарищ. Это же о казахско-казахском конвертере (кириллица - абджад) речь шла. Если применять к приведенному тексту все требования кадимской орфографии (что было бы неверно в принципе), то там вообще ошибка на ошибке.

А по-арабски вы все правильно написали, кто бы спорил.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от мая 2, 2009, 03:10
Нашел еще один азербайджанский конвертер. В отличие от вышеупомянутого пашет в обоих направлениях. Но и не восстанавливает арабскую и иранскую орфографию (хотя бы также коряво как первая прога) при конвертации текста на латинице в арабскую версию.

Прямая ссылка: http://www.dilmanc.az/download/AzConvert2_4.zip
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от мая 2, 2009, 03:47
Тест-драйв второго конвертера. Берем отрывок стихотворения:
Цитироватьاؤزومه مخصوص اوْلان باشقا ائلیم واردی منیم
ائلیمه مخصوص اوْلان باشقا دیلیم واردی منیم
ایستهسن قارداش اوْلاق, بیر یاشایاق, بیرلیک ائدک
وئریبن قوْل- قوْلا, بوندان سوْرا بیر یوْلدا گئدک

В результате конвертации получаем:
ЦитироватьÖzümə məxəsüs uْlan başqa elim vardı mənim
elimə məxəsüs uْlan başqa dılım vardı mənim
istəhəsn qardaş uْlaq, bir yaşayaq, birlik edək
veribən quْl- quْla, bundan suْra bir yvْlda gedək

В идеале должно быть так:
ЦитироватьÖzümə məxsus olan başqa elim vardı mənim
elimə məxsus olan başqa dilim vardı mənim
istəsən qardaş olaq, bir yaşayaq, birlik edək
veribən qol- qola, bundan sora bir yolda gedək

Полученные результаты можно оценить на четверку. Если бы прога харакаты автоматически распознавала и тупорылое шва "ə" не вставляла где не надо - вообще могли бы говорить о четверке с плюсом
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Алекс от мая 2, 2009, 18:32
Цитата: tmadi от мая  1, 2009, 20:57
Мда, товарищ. Это же о казахско-казахском конвертере (кириллица - абджад) речь шла. Если применять к приведенному тексту все требования кадимской орфографии (что было бы неверно в принципе), то там вообще ошибка на ошибке.

А нафига тогда эта бессмыслица? Упражнение для пальцев?
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от мая 2, 2009, 18:40
Цитата: Алекс от мая  2, 2009, 18:32
Цитата: tmadi от мая  1, 2009, 20:57
Мда, товарищ. Это же о казахско-казахском конвертере (кириллица - абджад) речь шла. Если применять к приведенному тексту все требования кадимской орфографии (что было бы неверно в принципе), то там вообще ошибка на ошибке.
А нафига тогда эта бессмыслица? Упражнение для пальцев?
Почему бессмыслица... Есть современная казахская орфография на арабице. Используется в Китае. Она более или менее фонетическая, т.е. все заимствования пишутся соответственно произношению. Речь шла о конвертации из кириллицы в эту орфографию и наоборот.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Алекс от мая 2, 2009, 19:41
А в этих системах арабской письменности для тюркских вообще не используется ташдид? Или это только чума-конверторы такие кривые?
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от мая 2, 2009, 19:51
В "этих" - имеется в виду в джадидских и современных? Да нет вроде как... Если удвоенная согласная, так и пишется две.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от мая 2, 2009, 19:54
Цитата: Alessandro от мая  2, 2009, 19:51
В "этих" - имеется в виду в джадидских и современных? Да нет вроде как... Если удвоенная согласная, так и пишется две.

В южной азербайджанской и южноузбекской весь набор харакатов в наличии.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Alessandro от мая 2, 2009, 20:28
Под современными орфографиями я имел в виду реформированные в XX веке.
В общем, надо кратко обрисовать ситуацию для тех, кто не совсем в теме.
- Существует (с некоторыми региональными вариациями) традиционная орфография для тюркских языков на основе арабицы, т.н. кадим (от ар. къадим - древний). Она основана на тех же принципах, что и персидская - добрая половина гласных не обозначается на письме, арабизмы и фарсизмы пишутся так, как в оригинале. До конца XIX века так писали все тюрки, сейчас так пишут только тюрки Ирана и Афганистана, не затронутые советскими и китайскими реформами.
- В конце XIX века появились новые т.н. джадидские (от ар. джадид - новый) орфографии. Их создатели старались приблизить написание к фонетическому - вводилось последовательное обозначение гласных (правда букв для этого не хватало) и фонетическое написание заимствований. Сейчас эти орфографии нигде не употребляются.
- В 1920-е годы в СССР для многих тюркских языков были созданы полностью фонетические орфографии на основе арабицы. Помимо сделанного в джадидских письменностях были введены буквы с диакритиками для отображения всех необходимых звуков (в т.ч. гласных). В СССР это письмо просуществовало очень недолго, потому что в конце двадцатых началась латинизация. Сегодня такой орфографией пользуются тюрки Китая (уйгуры и казахи).
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Алекс от мая 2, 2009, 21:10
Alessandro, спасибо за разъяснения!

Собственно, ч.т.д. - арабская письменность не особо подходит для несемитских языков. Все эти ха разбивающие слова и т.д. - ужасны.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: tmadi от мая 29, 2009, 19:09
По сабжу.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Шамсудднин от апреля 12, 2014, 15:27
Люди добрые! Помогите пожалуйста, найти автоматическая онлайн транслитерацию персидского текста на кириллицу или на латиница. За ранее благодарен.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: bvs от апреля 12, 2014, 15:38
Цитата: antbez от июля  6, 2007, 15:19
Деванагари (по отношению к санскриту) и латиница- изоморфны
Это потому, что санскритская латиница представляет собой транслитерацию деванагари. Точно также можно сделать и прямую взаимно-однозначную транслитерацию арабицы в латиницу (с диакритиками, естественно), другое дело что выглядеть будет непривычно.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Шамсудднин от апреля 12, 2014, 23:20
[url=http://lingvoforum.net/index.php?topic=5799.msg312181#msg312181
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Karakurt от января 23, 2017, 16:55
Не знаю куда писать, что тут видно?

А по теме: https://en.glosbe.com/transliteration/Arabic-Latin
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Bhudh от января 23, 2017, 17:46
Цитата: //glosbe.comНа нашем сайте представлены словари практически всех языков планеты Земля
От скромности ребята не помрут, да...

7985 языков в списке. О_о
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: yurifromspb от января 23, 2017, 18:37
Offtop
Ух ты, там даже в контексте можно посмотреть употребление. И корпус фраз, немаленький, по-видимому.






англ.др.-рус.
To be or not to be, that is the question.Бъıти ли не бъıти, се же въпросъ.
To be, or not to be: that is the question.Быти ли не быти ли, се ти орѫдьє.
This can't be the truth.Се не може быти исто.
He was happy being a Jew.Радъ бъı бъıти жидъмь.

Масштаб работы, конечно, впечатляет. Но, как-то анонимно всё, насколько можно доверять этим словарям?
ЦитироватьWho stays behind Glosbe?

Well, there is a big community of people creating dictionaries in Glosbe and a big community of people using Glosbe and these people really make Glosbe. There is also a contribution of people who creates the Glosbe software: our programmist team is small, it consists of two friends. We are located in Poland, we speak Polish and some English. If you wish to meet us or find anything more: contact us.
Название: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: Bhudh от января 23, 2017, 18:49
Цитата: yurifromspb от января 23, 2017, 18:37Но, как-то анонимно всё, насколько можно доверять этим словарям?
Насколько я понял, ребята просто распарсили Викисловарь (все языковые разделы) и добавили список "всех языков" (не знаю, откуда, может, с Этнолога) для пущей важности. И где возможно добавили перекрёстных ссылок.
В общем, эдакий BigData-проект для дипломника.
Название: От: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: b.t.juraev от января 3, 2023, 14:29
ДОНИШҶӮЁН
Название: От: автоматическая транслитерация арабица > латиница для персидского языка
Отправлено: b.t.juraev от января 3, 2023, 14:32
Дониш