Среди многочисленных символов Юникода есть, например, такие:
DZ, Dz, dz, LJ, Lj, lj, NJ, Nj, nj.
Каждый из них представляет собой две лат. буквы, при этом они не соединины между собой, как, например, œ, ʤ или ʦ, и ничем не отличаются от соответствующих пар букв. Они также не являются сокращенияи единиц измерения, как ㎑ или ㎝. Более того, из-за них помимо верхнего и нижнего ригистров букв пришлось вводить еще один, в котором 1-я буква символа – большая, а 2-я – маленькая.
Кто-нибудь знает, в каких языках такие буквы используются; и почему их выделяют в отдельные символы, а не состаляют из 2 букв?
(У нас, вообще-то, тоже есть буква Ы. Интересно, а если бы существовали слова, начинающиеся с Ы, то писали ли бы её как Ьi в начале предложения?)
Цитата: Тайльнемер(У нас, вообще-то, тоже есть буква Ы. Интересно, а если бы существовали слова, начинающиеся с Ы, то писали ли бы её как Ьi в начале предложения?)
Такие слова существуют и их пишут с нормальной Ы.
Есть подозрение, что эти сочетания введены из-за особенностей сортировки в соответствующих языках.
Цитата: ТайльнемерСреди многочисленных символов Юникода есть, например, такие:
DZ, Dz, dz, LJ, Lj, lj, NJ, Nj, nj.
Каждый из них представляет собой две лат. буквы, при этом они не соединины между собой...
А это не имеет существенного значения. Две буквы, но одна графема.
ЦитироватьИнтересно, а если бы существовали слова, начинающиеся с Ы, то писали ли бы её как Ьi в начале предложения?)
Во-первых, как было уже правильно замечено, слова, начинающиеся с Ы, существуют (иностранные топонимы). Во-вторых, с и десятеричной, конечно же, прописное Ы не могло писаться по историческим причинам: буква Ы возникла задолго до появления строчной i и строчных букв в русском письме вообще...
Цитата: oortЕсть подозрение, что эти сочетания введены из-за особенностей сортировки в соответствующих языках.
Очень правдоподобная мысль. Потому что вот например весьма неудобно упорядочивать слова, записанные крымской кириллицей, в которой буква
Дж следует в алфавите за
Ч,
Гъ - за
Г,
Къ - за
К,
Нъ - за
Н. Если возникает надобность упорядочивания, то приходится потом пересортировывать вручную.
ЦитироватьТакие слова существуют и их пишут с нормальной Ы.
Да я в курсе. Это очень редкое явление и не могло ни на что повлиять. Я имел в виду как раз вот это:
Цитироватьс и десятеричной, конечно же, прописное Ы не могло писаться по историческим причинам: буква Ы возникла задолго до появления строчной i и строчных букв в русском письме вообще...
———————————————————————
ЦитироватьЕсть подозрение, что эти сочетания введены из-за особенностей сортировки в соответствующих языках.
Это как? Например DZ. Оно и так всегда будет идти после D с любой другой буквой, т. к. Z — в конце алфавита. Или у них DZ вообще отдельно от D идёт?
А всё-таки что это за язык(и)?
Например, словацкий алфавит начинается так:
A Á Ä B C Č D Ď DZ DŽ E É F G H CH...
В словенском и сербскохорватскобосанскочерногорском LJ NJ DŽ — отдельные буквы, следующие в алфавите за первым своим элементом.:_1_12
Цитата: ТайльнемерИли у них DZ вообще отдельно от D идёт?
Это, на самом деле, совершенно не важно - нужно только, чтобы фонемы были разные. В этом случае чисто технически слова, начинаемые, к примеру, с /
dza/ и с /dza/ будут иметь совершенно разные позиции при сортировке: /dza/, /dzb/, ..., /dzz/, /
dza/...
Цитироватьʤ
Где можно сие найти и есть ли подобные для польского языка (я имею в виду с черточкой тоже)? :oops: Имею в виду ещё dź.
Цитата: SladkorcekГде можно сие найти и есть ли подобные для польского языка (я имею в виду с черточкой тоже)? Имею в виду ещё dź.
Тут:
http://poliglos.info/unicode.php
Цитата: SladkorcekЦитироватьʤ
Где можно сие найти и есть ли подобные для польского языка (я имею в виду с черточкой тоже)? :oops: Имею в виду ещё dź.
Есть только
dz. Диграфа для dź нет.
Найти можно легко: в Windows запустите Character Map (Start -> Run -> "charmap"), выберите шрифт "помощнее" (типа Arial Unicode), и выставьте Group by (снизу) в "Unicode Subrange". Все, можно играться... :)
Кстати, с диграфами ещё ладно, но вот я когда пробовал в Exel сортировать слова, написанные латиницей, то выяснил, что он возмутительным образом не отличает букв с диакритиками от соотвествующих без диакритик. :x То есть воспринимает, к примеру, ö как o. Безобразие...
Цитата: iskenderКстати, с диграфами ещё ладно, но вот я когда пробовал в Exel сортировать слова, написанные латиницей, то выяснил, что он возмутительным образом не отличает букв с диакритиками от соотвествующих без диакритик. :x То есть воспринимает, к примеру, ö как o. Безобразие...
Как говорят программисты, это не bug – это feature... :D
Цитата: iskenderКстати, с диграфами ещё ладно, но вот я когда пробовал в Exel сортировать слова, написанные латиницей, то выяснил, что он возмутительным образом не отличает букв с диакритиками от соотвествующих без диакритик. То есть воспринимает, к примеру, ö как o. Безобразие...
На паскале програмку накатать — и все дела... :_1_12
(Эх, давно я этого не делал... недавно вон накатал — а пустое слово прошло через всю сортировку и приписалось в конец.

Будем учиться заново...)
Цитата: iskenderон возмутительным образом не отличает букв с диакритиками от соотвествующих без диакритик. :x То есть воспринимает, к примеру, ö как o. Безобразие...
Безобразие - да, но это - узаконенное "безобразие" для большинства наиболее распространенных языков.
Всё-таки мне кажется, что выделение диграфов в отдельные символы - это вредно. Ведь их можно написать и двумя символами, при этом внешне они не будут отличаться. Наверняка не все используют двойные символы, а некоторые используют их нерегулярно. Теперь представьте, какая путаница возникнет при поиске слов или при той же сортировке, если в одних словах диграф написан так, а в других - так!
А то, что программы не умеют сортировать слова - это кончно печальный факт. Но двойными символами тут не спастись! Вообще-то, в современных средах программирования предоставляются функции, которые в соответствии с языком правильно сортируют слова. Но, во-1-ых, не все ими пользуются, а во-2-ых, сложость работы в таких программах - надо везде указывать, на каком языке текст.
Цитата: ТайльнемерВсё-таки мне кажется, что выделение диграфов в отдельные символы - это вредно.
:yes: :_1_05
Идея неплоха, но явно не шибко подумали прежде чем делать...