Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Деванагари - помогите!

Автор Анна Ч., июня 9, 2005, 20:04

0 Пользователи и 1 гость просматривают эту тему.

Анна Ч.

Знатоки деванагари, санскрита или непали! Требуется скорая помощь.

Дано:
Непальский текст набран шрифтом, содержащим не юникодные символы диапазона Devanagari, а, как я понимаю, наиболее употребительные лигатуры - половинки и кусочки.
Требуется: перегнать все в юникодные символы. Для этого нужно знать, какая лигатура из чего получается. Для большинства лигатур исходного шрифта я нашла сочетания в Интернете или нащупала сама, а для 4 - никак не могу :(

Вот табличка. В первой строке пример найденной комбинации. Помогите с остальными, плиз! На работе убивают...

Анна Ч.

Картинка почему-то не добавилась, хотя сделала все, как в хелпе написано :(
Посмотрите ее, ПОЖАЛУЙСТА, по ссылке...

Aramis

2 - это р слоговое начальное
3 - непонятно, дайте весь символ
4 - бх + ? (может быть к)
5 - похоже на обычную й

Анна Ч.

Цитата: Aramis2 - это р слоговое начальное

Я не знаю языка, поэтому русские транслитерации мне ни о чем не говорят :dunno:  Нужно изображение символа (символов). Как в первой строке: последовательный набор символов (скажем, в Ворде) из правой колонки дает лигатуру в левой. Нужны комбинации для остальных.

Aramis

Понял. Только просьба: покажите 3 и 4 полностью, так очеь сложно сказать, что это.

Анна Ч.

Цитата: AramisПонял. Только просьба: покажите 3 и 4 полностью, так очеь сложно сказать, что это.

Так это и есть полностью...
Все символы в левой колонке моей таблицы получаются из какой-то комбинации юникодных символов.
1)Вот таблица юникодных символов для деванагари:
http://www.unicode.org/charts/PDF/U0900.pdf
2) Вот примеры комбинаций и результирующих лигатур: http://www.quartet.fr/images/pe_hs_list2.gif
Моих четырех там нет.

Так, в моей таблице первый символ получается, если набрать в Ворде символ с номером 091С, а за ним - 094D. Тогда правая палочка "откусится", и останется левая половинка первого символа - лигатура. (Это можно сделать, например, в NotePad или в Word2003.)

3-й похож на правую половинку от 0915 или от 092B. Но какую последовательность юникодных символов надо набрать, чтобы получить эту половинку...

Komar

Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

Анна Ч.

Цитата: Komarп.4 - вариантное написание = 091d jha

Спасибо! Уже легче :)

Komar

Там у вас много текста?

Насчёт п.3 - не очень понятно, откуда хвостик отвалился.
Можете прислать мне материал на мыло - посмотрю. Авось ещё что подсказать смогу.
lohanka (а) //mail.ru
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

Анна Ч.

Цитата: KomarТам у вас много текста?

Насчёт п.3 - не очень понятно, откуда хвостик отвалился.
Можете прислать мне материал на мыло - посмотрю. Авось ещё что подсказать смогу.
lohanka (а) //mail.ru

Спасибо огромное! Но вот только текста у меня пока нет, он у клиента в работе. И к тому моменту, как его мне пришлют, я должна составить полную таблицу для перегона этого кривого шрифта в юникод.

п.3
Хвостик отвалился либо от 0915, либо от 092B. От многих символов левую половинку можно откусить с помощью 094D, как в п.1. Но вот можно ли откусить правую?

А п.2 и п.5 не знаете, как получить? Для них наверняка должна быть комбинация...

Komar

Деванагари - слоговое письмо. Символ 094d - вирама - показывает, что согласная произносится без огласовки. Так напр. 0938 स sa, + 094d = स् s. При лигатуре (комбинация нескольких согласных) первая буква отбрасывает вертикальную черту (если она имеется), что также означает её произнесение без огласовки и технически равносильно записи её с вирамой. Т.о. स् s + स sa = स्स ssa. Знаки क फ отбрасывают не вертик. черту а часть хвостика क्स फ्स. Знаки, не имеющие вертик. черты образуют вертикальные лигатуры или пишутся через вираму ट् + ट = ट्ट , ट् + ङ = ट्ङ

п.3 - если это хвостик в составе क फ, то это просто графический элемент, который отдельно не встречается, и следовательно, в юникоде не предусмотрен.

п.2 - вам Арамис уже ответил, что это гласная r 090b ऋ. В начальной позиции гласные пишутся буквою (अ आ इ ई उ ऊ ऋ ॠ ऌ ॡ ए ऐ ओ औ), а после согласных - при помощи диакритики. (- ा ि ी ु ू ृ ॄ ॢ ॣ े ै ो ौ ).  Напр. сочетание स्  и ऋ передаётся как सृ (0938+0943).

п.5 - форма буквы 092f य ya в лигатуре после некоторых согласных - она автоматически появляется где нужно, напр., при 091b+094d+092f छ्य chya)

Для меня непреодолимой проблемой для конвертации между не-юникод деванагари и транслитерацией/юникод-деванагари являются две "неправильные буквы", которые пишутся в деванагари наоборот: r перед лигатурой пишется в её конце, а i пишется перед согласной (или лигатурой), за которыми следует. Т.о. rsss र् + स्स्स् = र्स्स्स् , sssi स्स्स् + ि = स्स्सि . В юникоде достаточно ввести нужные буквы, а они уже сами выстраиваются автоматически. А в не-юникодовских шрифтах меняется само расположение букв - вместо rsss и sssi записывается sssr и isss. А поскольку на месте sss могут стоять разные последовательности из разных согласных, то тут для замены, наверное, нужно выдумывать специальную программу-анализатор.

Потому если текст небольшой, то легче его заново набрать в транслитерации и сконвертировать в юникод с помощью какой-нибудь спец программки типа Itranslator2003 или Baraha. А если текст большой - то не знаю.
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

Aramis

Цитата: KomarДеванагари - слоговое письмо. Символ 094d - вирама - показывает, что согласная произносится без огласовки. Так напр. 0938 स sa, + 094d = स् s. При лигатуре (комбинация нескольких согласных) первая буква отбрасывает вертикальную черту (если она имеется), что также означает её произнесение без огласовки и технически равносильно записи её с вирамой. Т.о. स् s + स sa = स्स ssa. Знаки क फ отбрасывают не вертик. черту а часть хвостика क्स फ्स. Знаки, не имеющие вертик. черты образуют вертикальные лигатуры или пишутся через вираму ट् + ट = ट्ट , ट् + ङ = ट्ङ

п.3 - если это хвостик в составе क फ, то это просто графический элемент, который отдельно не встречается, и следовательно, в юникоде не предусмотрен.

п.2 - вам Арамис уже ответил, что это гласная r 090b ऋ. В начальной позиции гласные пишутся буквою (अ आ इ ई उ ऊ ऋ ॠ ऌ ॡ ए ऐ ओ औ), а после согласных - при помощи диакритики. (- ा ि ी ु ू ृ ॄ ॢ ॣ े ै ो ौ ). Напр. сочетание स् и ऋ передаётся как सृ (0938+0943).

п.5 - форма буквы 092f य ya в лигатуре после некоторых согласных - она автоматически появляется где нужно, напр., при 091b+094d+092f छ्य chya)

Для меня непреодолимой проблемой для конвертации между не-юникод деванагари и транслитерацией/юникод-деванагари являются две "неправильные буквы", которые пишутся в деванагари наоборот: r перед лигатурой пишется в её конце, а i пишется перед согласной (или лигатурой), за которыми следует. Т.о. rsss र् + स्स्स् = र्स्स्स् , sssi स्स्स् + ि = स्स्सि . В юникоде достаточно ввести нужные буквы, а они уже сами выстраиваются автоматически. А в не-юникодовских шрифтах меняется само расположение букв - вместо rsss и sssi записывается sssr и isss. А поскольку на месте sss могут стоять разные последовательности из разных согласных, то тут для замены, наверное, нужно выдумывать специальную программу-анализатор.

Потому если текст небольшой, то легче его заново набрать в транслитерации и сконвертировать в юникод с помощью какой-нибудь спец программки типа Itranslator2003 или Baraha. А если текст большой - то не знаю.

:yes:

Подписываюсь поъ каждымъ словомъ :) И по сему самъ стараюсь не пользоваться неюникодовскими шрифтами :)

Digamma

Цитата: KomarДля меня непреодолимой проблемой для конвертации между не-юникод деванагари и транслитерацией/юникод-деванагари...
А насколько часто такое происходит?
"Я родился на корабле, но куда он плыл и откуда никто не помнит..."

Komar

Цитата: Digamma
Цитата: KomarДля меня непреодолимой проблемой для конвертации между не-юникод деванагари и транслитерацией/юникод-деванагари...
А насколько часто такое происходит?

Это перманентная проблема. К примеру, в сети есть текст Ригведы в шрифте Sanskrit 1.2, или Бхагавад-Гита с комментариями в шрифте DV-TTYogesh, или вот я сам давно набирал что-то шрифтом Sanskrit 98 - это уже обратно в транслитерацию (или юникод) не перегнать. Или вот мне нравится какой-то затейливый старый шрифт деванагари, а конвертировать в него из транслитерации я опять же не умею. Думается, есть программки, которые и туда и сюда всё это умеют, но они незадаром.

Кстати, староформатные шрифты с точки зрения дизайна дают больше возможностей представить текст в том виде, в каком хочешь. Не понравилась в одном шрифте какая-то буква, а в другом понравилась - можно одну эту букву из другого шрифта подставить, да и хоть 10 разных шрифтов в одном слове использовать. А в юникоде символы автоматически комбинируются - фигушки что-то поменяешь.
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

Анна Ч.

Цитата: Komar
Для меня непреодолимой проблемой для конвертации между не-юникод деванагари и транслитерацией/юникод-деванагари являются две "неправильные буквы", которые пишутся в деванагари наоборот...

Я написала макрос в Ворде. Буду конвертить им, а потом ручками переставлять эти две буквы, глядя в оригинал :( А что делать...

Komar, Aramis! Огромное вам спасибо за помощь! :)

Анна Ч.

Еще один вопрос. Вот фрагмент текста, набранный неюникодным шрифтом: http://annafr.narod.ru/question_nepali2.jpg

1 и 2 - это одно и то же или нет?

1 - набрать Юникодом не удается. Это будет 0915+0947+093e, где 093e не прилипает.
2 - набирается нормально. 0915+094b.

1 - это корректное сочетание? Если да, то как его воспроизвести в Юникоде?

Komar

Цитата: Анна Ч.Еще один вопрос. Вот фрагмент текста, набранный неюникодным шрифтом: http://annafr.narod.ru/question_nepali2.jpg

1 и 2 - это одно и то же или нет?

1 - набрать Юникодом не удается. Это будет 0915+0947+093e, где 093e не прилипает.
2 - набирается нормально. 0915+094b.

1 - это корректное сочетание? Если да, то как его воспроизвести в Юникоде?

Первый вариант - пример неправильного позиционирования диакритики. Второй - правильный.
Прочитывается это одинаково.
Так что вам ещё и неточности ввода придётся исправлять.

Так же в вашем примере обратите внимание на диакритическое r - в таком сочетании крючок над линией должен располагаться не над буквой, а над отдельной вертикальной палочкой справа от буквы.
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

Анна Ч.

Цитата: Komar
Первый вариант - пример неправильного позиционирования диакритики. Второй - правильный.
Прочитывается это одинаково.
Так что вам ещё и неточности ввода придётся исправлять.

Ну что ж... Ладно... :)


Цитата: Komar
Так же в вашем примере обратите внимание на диакритическое r - в таком сочетании крючок над линией должен располагаться не над буквой, а над отдельной вертикальной палочкой справа от буквы.

Спасибо! Я проверила - в Юникоде после ввода 093e этот крючок сам на нее сдвигается :)

gasyoun

Ребата, ну Вы как дикари!

 Это проблема давно была решена моим коллегой Баяраном, работает на ура, только и делаю что конвертирую - во все направления.
http://nagari.southindia.ru/EmEditor-SanskritUni-ConvertMacro-V1(Bayaran).zip

Пока правда без академического справочного аппарата, но кое что из своих материалов я выложил ив сети: http://nagari.southindia.ru/fonts

 Если кому интересно - реконструирем два шрифта нагари со всеми лигатурами (http://www.prodtp.ru/index.php?showtopic=2409&hl=)
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

Анна Ч.

Цитата: gasyounработает на ура
http://nagari.southindia.ru/EmEditor-SanskritUni-ConvertMacro-V1(Bayaran).zip

А как это установить? И как пользоваться???


Еще такой вопрос. Все неюникодные деванагарские шрифты (по крайней мере те, что мне удалось найти в сети) не содержат латиницу.
Если совмещать руками: переносить латиницу в дев.шрифт или наоборот, буквы становятся страшненькие, корявенькие. Даже если пытаться учитывать всякие габаритные параметры, которые показывает редактор шрифтов.
Не известно ли вам о существовании в природе шрифта, где была бы и нормальная латиница (ну плюс пунктуация, цифры - ASCII, в общем), и деванагари - но НЕюникодный шрифт, содержащий лигатуры. (В юникодных, понятно, все есть.)

gasyoun

http://nagari.southindia.ru/nagariuniencoding.html
Не мойгу найти, но вот это можно посмотреть.

http://nagari.southindia.ru/Buler-1923.pdf
Страшненький, но пока нету нового.

Шрифти, конечно видел, более того сам делал, и знаю какие тут возникают проблемы. Нужна ли вам кириллица или просто латиница со всей диакртитикой для корректной транслитерации? и зачем НЕюникод, я их всех стер, к черту их.
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

Komar

Цитата: gasyounРебата, ну Вы как дикари!

Это проблема давно была решена моим коллегой Баяраном

Так что же вы молчали?
Об этом надо трубить на всех углах!
И нельзя ли поподробнее, как оно у вас работает.
Вот поставил EmEditor 4.13 Pro, тестирую. Когда текст Sanskrit 1.2 из ворда через буфер туда пихаю - при этом некоторые символы повреждаются. Напр., из agnim пропадает лигатура gn и т.д.
И ещё обнаружилось, что макрос dev2trans у меня работает только под WinXP, а под WinME в результате получается только kaka.

А случайно для ворда макросов нет?

Цитата: Анна Ч.Все неюникодные деванагарские шрифты (по крайней мере те, что мне удалось найти в сети) не содержат латиницу.
Так и есть. В не-юникод раскладку даже не все лигатуры помещаются, для латиницы там уже ни буковки не остаётся. А что мешает совмещать разные не-юникод шрифты?

Цитата: Анна Ч.Если совмещать руками: переносить латиницу в дев.шрифт или наоборот, буквы становятся страшненькие, корявенькие.
Это ещё почему? Разве буквы становятся не тем шрифтом, какой задашь?
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

gasyoun

ЦитироватьТак что же вы молчали?
Об этом надо трубить на всех углах!


Да я и не молчал, кто спрашивал, тому высылал, так что все, что было в моих силах, я сделал.


ЦитироватьИ нельзя ли поподробнее, как оно у вас работает.
Вот поставил EmEditor 4.13 Pro, тестирую. Когда текст Sanskrit 1.2 из ворда через буфер туда пихаю - при этом некоторые символы повреждаются. Напр., из agnim пропадает лигатура gn и т.д.
И ещё обнаружилось, что макрос dev2trans у меня работает только под WinXP, а под WinME в результате получается только kaka.

Увы во все подробности я не смогу войти, ибо время поджимает. С Вордом беда, но Михас пишет мне, что пока не доделает свой шрифт нагари, нету времени до остального. Он ломает голову над тем, как это все интегрировать в Ворде, говорит - не без успехов. WinME - это же шутка Майкрософт, снесите немедленно. Все под XP рачситано, уж извините, под 2000 не пробовал, хотя интересно - 2000, конечно, спокойнее работает.

ЦитироватьА случайно для ворда макросов нет?

Т.е., если Вы хотите много неприятностей, могу указать на ссылку, но это технология NET и если Вы не программист и не обладаете способностями ясновидца, Вам придется туго. Надо подождать, Михас работает как зверь и очень, очень качественно.

ЦитироватьРазве буквы становятся не тем шрифтом, какой задашь?

Нет, все сложнее, там есть не только то, что видимо, еще есть кернинг как минимум. Почитайте на //prodtp.ru Вам необходима теория, там она есть.
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

Анна Ч.

Цитата: gasyoun

Шрифти, конечно видел, более того сам делал, и знаю какие тут возникают проблемы. Нужна ли вам кириллица или просто латиница со всей диакртитикой для корректной транслитерации?

Ни то и ни другое. Мне нужно, чтобы в одном шрифте были и обычные символы ASCII (латиница+цифры+пунктуация), и набор неюникодных деванагариков. Все подобные деван.шрифты содержат только деван.символы, и эти символы занимают как раз диапазон ASCII. А мне нужен шрифт, чтобы с ним можно было печатать и на английском, и на непальском языках.

Цитата: gasyounи зачем НЕюникод, я их всех стер, к черту их.

Потому что наш софт, для которого эта бодяга делается, пока не поддерживает юникод. Поэтому приходится извращаться... :dunno:

Amateur

Цитата: Анна Ч.Потому что наш софт, для которого эта бодяга делается, пока не поддерживает юникод. Поэтому приходится извращаться... :dunno:
Такой софт давно просится в печку. Чесслово! Начальству нужно объяснить, что пора апгрейдиться.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр