Author Topic: автоматическая транслитерация арабица > латиница для персидского языка  (Read 32027 times)

0 Members and 1 Guest are viewing this topic.

Offline Alessandro

  • Posts: 2768
  • Gender: Male
    • Alem-i Medeniye
Вопрос к знающим фарси: возможна ли автоматическая транслитерация текстов на персидском языке из арабицы в латиницу? Пусть правила транслитерации будут хитроумные (типа "если через два символа после буквы X идёт буква Y, то она транслитерируется в А, а иначе в В"), пусть придётся сделать список исключений и сотни-другой слов (арабизмов каких-нибудь), но тем не менее. Принципиально возможна автоматическая транслитерация или нет?

В случае с тюркскими языками, например, невозможна.
Спасибо, что дочитали.

Offline AlefZet

  • Posts: 550
  • Gender: Male
В отношении тюркских, в частности, казахского не совсем так. Как-то я набрел в Сети на сайт китайских казахов. Так там была транслитерация на лету с арабицы на кириллицу. Но это была _другая_ кириллица. Конечно, орфография выглядела непривычно, но понять было можно.
Для фарси, насколько я знаю, никакой официальной и привычной латинской орфографии не существует, поэтому и проблем особых не предвижу. Где-то в сети уже видел и транслятор с арабицы в латиницу, по-моему на алжирском сайте, (а может и на египетском). Помнится, он был платный.

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

Offline арьязадэ

  • Posts: 1881
персидский очень сильно стандартизованный и отточенный тысячилетиями язык.
думаю этот язык должен поддаваться легко любому виду автоматической транслитерации.
я лично никакого препятствия не вижу.
сам свободно читаю без всяких трудностей персидские тексты (включая книги) и на таджикской кириллице, на арабице Ирана и Афанистана, и на латиннице, включая тот же UniPers.

Offline Alessandro

  • Posts: 2768
  • Gender: Male
    • Alem-i Medeniye
В отношении тюркских, в частности, казахского не совсем так. Как-то я набрел в Сети на сайт китайских казахов. Так там была транслитерация на лету с арабицы на кириллицу. Но это была _другая_ кириллица. Конечно, орфография выглядела непривычно, но понять было можно.
Гм... Как я понимаю, главная проблема с буквой , которая может обозначать o, ö, u, ü, v. По крайней мере так в крымскотатарской арабице. Например, понять при транслитерации из арабицы в латиницу или кириллицу, что означает слово كوز невозможно: это может быть и köz, и küz, они пишутся в арабице одинаково.
Спасибо, что дочитали.

Я тут давеча искал текст одной персидской песенки, и поэтому познакомился с персидской арабицей чуток поближе. Неприятные наблюдения касательно гласных:
во-первых, персы очень часто не обременяют себя обозначением на письме гласных (за исключением â - ا) вообще;
во-вторых, краткая а, если и обозначается, то обозначается алифом, как и долгая, т.е. различить их при транслитерации как будто бы невозможно;
в-третьих, как и в тюрских арабицах, буква йа ی обозначает и [й] и [и] (но тут возможно с помощью проверки соседних символов можно было бы выкрутится при транслитерации);
в-четвёртых, опять же, как и в тюркских арабицах, вав و обозначает и [о], и [у], и [в].
Спасибо, что дочитали.

Offline shravan

  • Posts: 3007
  • Gender: Male
    • http://my.mail.ru/mail/shravan/
Алиф (без мадды) обозначает краткое а только в начале слова. В остальных случаях он всегда передает â.
ܐܝܠ ܐܝܠ ܠܡܢܐ ܫܒܩܬܢܝ

Offline Alessandro

  • Posts: 2768
  • Gender: Male
    • Alem-i Medeniye
Алиф (без мадды) обозначает краткое а только в начале слова. В остальных случаях он всегда передает â.
То есть краткое а в середине слова не обозначается никогда вообще?

Посколькку на основной вопрос так никто толком и не ответил, я попробую его несколько сузить: можно ли по тексту, записанному арабицей восстановить пропущенные гласные, не зная языка? То есть существуют ли правила, по которым можно, к примеру, глядя на слово کهن - khn понять, что это kohan, а не kuhen или kohun?
Если таких правил нет и восстановить гласные в словах, не зная языка нельзя, то в принципе можно было бы решить проблему, зашив в транслитератор/переводчик полный словарь языка. Отсюда второй вопрос - существуют ли омонимы, которые отличаются только гласными, и поэтому в арабском алфавите пишутся одинаково?
Спасибо, что дочитали.

Offline shravan

  • Posts: 3007
  • Gender: Male
    • http://my.mail.ru/mail/shravan/
Алессандро,
в персидском на письме последовательно отражаются только долгие гласные â, i, u (в начале, середине и конце слова), краткий а (в начале слова, как я уже говорил) и е (на конце слов через хе-йе-хавваз). Краткий о либо никак не отражается в неогласованном тексте, либо передается так же, как и долгий u. Краткий а в середине слова никак не обозначается, в конце слова - только в одном случае через хе-йе-хавваз. Кроме того, изафет, в большинстве случаев, никак не отражается на письме, но восстанавливается в процессе чтиения по смыслу.
Таким образом, не существует универсальных правил вокализации персидского текста, записанного в арабской графике. Поэтому, в программе-транслитераторе, на мой взгляд, недостаточно использовать максимально полный словарь. Надо еще научить ее понимать где стоят изафеты, образовывать глагольные формы, распознавать арабские причастия и масдары 9-ти пород (в которых огласовки подчиняются регулярным правилам) и т.д. Не знаю, возможно ли осуществить такое на практике.
Quote
Отсюда второй вопрос - существуют ли омонимы, которые отличаются только гласными, и поэтому в арабском алфавите пишутся одинаково?
Очевидно, вы имели в виду омографы? Конечно же, они существуют, хотя их и не так много. Какие гласные надо вставить в том или ином случае можно догадаться только по контексту.
А вот омонимов действительно много и различаются они только в арабской графике. В юниперсе порой возникают проблемы с пониманием (разумеется, все зависит от степени владения языком).   :)
ܐܝܠ ܐܝܠ ܠܡܢܐ ܫܒܩܬܢܝ

Offline Alessandro

  • Posts: 2768
  • Gender: Male
    • Alem-i Medeniye
shravan, благодарю за ответ.

То есть автоматический транслитератор в ЮниПерс или другую приемлемую латиницу сделать, грубо говоря, невозможно. :(

Очевидно, вы имели в виду омографы? Конечно же, они существуют, хотя их и не так много. Какие гласные надо вставить в том или ином случае можно догадаться только по контексту.
Да, их я и имел в виду.
Спасибо, что дочитали.

Offline tmadi

  • Posts: 2688
  • Gender: Male
К вопросу о транслите тюркской арабицы. Маленькая, но полезная программка, транслитерирующая уйгурские тексты с арабицы на латиницу и обратно. Проверил - пашет без багов.

UyghurEdit

Offline Yaranga

  • Posts: 140
  • Gender: Male
    • Emu-Land.net
Гэгъюлетигыт лыгъораветльамил вэтгавык?

Offline tmadi

  • Posts: 2688
  • Gender: Male

Offline Yaranga

  • Posts: 140
  • Gender: Male
    • Emu-Land.net
ئىزۋىنىتە... ئەتو يا پو ئانالوگىيى سو سلاۋيانسكىمى ئى بالتىيسكىمى...:)
Гэгъюлетигыт лыгъораветльамил вэтгавык?


Offline Yaranga

  • Posts: 140
  • Gender: Male
    • Emu-Land.net
:) Вот я и думаю - если русский так легко транслитерируется, персидский - вообще нипочём будет! :)
Гэгъюлетигыт лыгъораветльамил вэтгавык?

Offline tmadi

  • Posts: 2688
  • Gender: Male
Не так все просто. Фарси - не уйгурский. В принципе,shravan уже все сказал по сабжу.

Offline Alessandro

  • Posts: 2768
  • Gender: Male
    • Alem-i Medeniye
Да, в том-то всё и дело, что современная уйгурская орфография заметно отличается от традиционной тюрко-персидской. Но в любом случае, при надобности оттранслитить что-нибудь в направлении арабица > латиница или наоборот эта программка поможет сделать черновой перевод и сэкономить время. Спасибо.
Спасибо, что дочитали.

Offline tmadi

  • Posts: 2688
  • Gender: Male
Здесь прочел о программке En2Fa, транслитерирующая с латиницы на алифба. Скачал отсюда, установил себе на комп, но прога вступила в бой с моей китайской виндой и мгновенно пала смертью храбрых. Кто-нибудь пользовался ею? Как она вообще пашет? Заранее спасибо.

В отношении тюркских, в частности, казахского не совсем так. Как-то я набрел в Сети на сайт китайских казахов. Так там была транслитерация на лету с арабицы на кириллицу. Но это была _другая_ кириллица. Конечно, орфография выглядела непривычно, но понять было можно.

Вы об этом конвертере? В целом понятно, но в смысле орфографии - никуда не годится. В этом нельзя винить разработчиков конвертера, так как төте жазу на 100% использует преимущества сингармонизма, поэтому отдельных букв для звуков ә, і, ү, ө в казахской арабице нет, лишь иногда дәйекше присутствует (которую разработчики конвертера, судя по всему, сразу послали в глухой игнор). Об этом мы уже говорили здесь.

Дурацкий вариант латиницы тоже не могу поставить в вину авторам идеи - в конце концов, до официального перехода на латиницу все варианты казахского АВС имеют равные (птичьи) права, это дело личного вкуса.

Убедился в том, что конвертация казахского письма невозможна так же, как и фарси, только совсем по другим причинам.

Offline Baruch

  • Posts: 1169
Арабское письмо, принятое сейчас в Китае для уйгурского и казахского имеет иной характер, чем персидское . В Китае пользуются реформированным арабским, точно обозначающим все гласные, и несложно построить программу перевода с этого письма на кириллицу и обратно.
Для персидского это в принципе невозможно: краткие гласные не обозначаются, арабские слова пишутся по арабской орфографии со многими буквами, которые для собственно персидских слов излишни: три буквы для С, три для З и т.д.

Offline tmadi

  • Posts: 2688
  • Gender: Male
Арабское письмо, принятое сейчас в Китае для уйгурского и казахского имеет иной характер, чем персидское . В Китае пользуются реформированным арабским, точно обозначающим все гласные, и несложно построить программу перевода с этого письма на кириллицу и обратно.
Для персидского это в принципе невозможно: краткие гласные не обозначаются, арабские слова пишутся по арабской орфографии со многими буквами, которые для собственно персидских слов излишни: три буквы для С, три для З и т.д.

Спасибо за справку, но насколько я понял, большинство принимающих участие в этом разговоре форумчан имеет представление о различиях между современными абджадными алфавитами. Поэтому не совсем понятно кому предназначалась ваша информация.

О настоящих трудностях транслитерации фарси на латиницу очень подробно написал shravan, причем "излишние" буквы как раз не упоминались среди насущных проблем, так как для компьютерной программы не трудно и ز, и ذ, и ظ, и даже ض с одинаковым успехом конвертнуть в z.

Кроме того, повторюсь, я не думаю, что для казахского языка "несложно построить программу перевода с этого письма на кириллицу и обратно". Об этом я и писал в своем предыдущем посте.

Offline Alessandro

  • Posts: 2768
  • Gender: Male
    • Alem-i Medeniye
Мади, а посмотреть на казахскую википедию (http://kk.wikipedia.org/wiki/%D0%91%D0%B0%D1%81%D1%82%D1%8B_%D0%B1%D0%B5%D1%82) у вас совсем нет возможности? Просто любопытно было бы услышать ваше мнение по поводу конвертора кириллица > арабица, который используется там.
Спасибо, что дочитали.

Offline tmadi

  • Posts: 2688
  • Gender: Male
Мади, а посмотреть на казахскую википедию (http://kk.wikipedia.org/wiki/%D0%91%D0%B0%D1%81%D1%82%D1%8B_%D0%B1%D0%B5%D1%82) у вас совсем нет возможности? Просто любопытно было бы услышать ваше мнение по поводу конвертора кириллица > арабица, который используется там.

Выйти-то на страницу я смог, но вот конвертора там не увидел. Вы не могли бы подсказать прямую ссылку, а то, к своему стыду, найти не могу.

Offline Alessandro

  • Posts: 2768
  • Gender: Male
    • Alem-i Medeniye
Там сверху страницы есть такие ссылочки кирилlatın и توتە. Если нажмёте на latın, страница оттранслитится в латиницу, если на توتە - в арабицу.
Главная страница в арабописьменном исполнении выглядит вот так http://kk.wikipedia.org/w/index.php?title=%D0%91%D0%B0%D1%81%D1%82%D1%8B_%D0%B1%D0%B5%D1%82&variant=kk-cn
Спасибо, что дочитали.

Offline tmadi

  • Posts: 2688
  • Gender: Male
Спасибо, наконец увидел. Дело в том, что у меня страница "расползлась", и я не увидел توتە.

Конвертор казвики, мне кажется, еще хуже ауылнетовского, потому что страдает диаметрально противоположной крайностью в подходе к транслитерации гласных.  Ауылнетовский конвертор игнорирует дәйекше вообще (что плохо, но не смертельно), а на казвики не только лепят ее везде, кроме случаев где это действительно надо (напр. كٶپ, كٸرۋٵركٸم , ٶڭدەي ).

Собственно, если быть дотошным до конца, в казвики никаких дәйекше и нет, есть хамзованные йа, уау и алиф, что не есть правильно. В общем, орфография - туши свет.

В любом случае, это не в порядке критики разработчиков, я уже сказал, что казахско-казахский конвертор - невозможная вещь.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: