Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Кириллица в Юникоде.

Автор Γρηγόριος, июня 10, 2016, 22:55

0 Пользователи и 1 гость просматривают эту тему.

Rwseg

Цитата: Bhudh от июня 11, 2016, 00:23
Вы думаете, в Уникод его руководители просто так, от балды всё суют?
Без сомнения, иначе бы он не представлял из себя бессистемную свалку символов.*
* Систему какую-то там, конечно, пытаются соблюсти, но всё равно получилась свалка.

Bhudh

Цитата: . от июня 20, 2016, 20:23То есть, вы считаете, что они совершенно умышленно не включают в стандарт некоторые буквы, реально использовавшиеся в письменности (например, яналифный ь), всю кровь уже выпили бардаком с CJK, мурыжат годами пропозалы на реальные письменности, но зато радостно и без лишних вопросов понапихали цветочков, стрелочек, звёздочек и прочих, не имеющих к письменности отношения, узоров?
Вините MicroSoft и его шрифты серии Windings. Они всех приучили к украшательствам, а потом пришёл Уникод. И ему сказали — а мы хотим украшательства, как привыкли!


Цитата: Rwseg от июня 21, 2016, 14:43Без сомнения, иначе бы он не представлял из себя бессистемную свалку символов.*
* Систему какую-то там, конечно, пытаются соблюсти, но всё равно получилась свалка.
Свалка получилась от того, что пересортировать блоки нельзя: вся обратная совместимость рухнет.
Сначала решили, что 640 килобайт одной плоскости хватит всем, потом внезапно оказалось, что письменностей на планете куда больше, чем они рассчитывали, и вновь введённые пришлось упыривать в конец.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

klangtao

Свежий ветер избранных пьянил,
С ног сбивал, из мёртвых воскрешал, -
Потому что если не любил -
Значит, и не жил, и не дышал!

Wolliger Mensch

Цитата: Bhudh от июня 21, 2016, 18:49
Свалка получилась от того, что пересортировать блоки нельзя: вся обратная совместимость рухнет.
Сначала решили, что 640 килобайт одной плоскости хватит всем, потом внезапно оказалось, что письменностей на планете куда больше, чем они рассчитывали, и вновь введённые пришлось упыривать в конец.

Бардак по следующим причинам:
1) Смена парадигм: сначала хотели вставить в уникод вообще все возможные знаки, цельные, раздельные — не важно. При это знаки вставлялись по визуальному сходству, а с другой стороны — по скриптам. Потом парадигма изменилась: развился опентайп, и пошли-поехали гнать буквы отдельно, диакритики отдельно, причём по трудно определимой системе — в одних случаях диакритики отделялись, в других нет, опентайпом же заткнули и скриптовые варианты одних и тех же букв. Вкупе с двойственностью основы (внешний вид ~ скрипта) привело к изрядной каше.
2) Советники-шарлатаны. История с ѽ — это ещё что — это мелкие косяки, которых по всей таблице много. Что они там с грузиницей нахимичили... А что они курили, когда соединили русскую гражданскую азбуку и «климентовицу» — вообще неизвестно. До сих пор для слависта нормальной работы нет — несколько шрифтов, уникодовские костыли в виде дополнительных таблиц, совокупления с неопентайпными шрифтами (это, вроде бы, уже уходит в прошлое).
3) Вы говорите о совместимости, что однако не мешает консорциуму периодически «рекомендовать» использовать вместо одних знаков другие. Люди рекомендациям следуют, совместимость сохраняется лишь формально — новые шрифты нередко «нерекомендованных» знаков уже не содержат.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Γρηγόριος

Цитата: Bhudh от июня 21, 2016, 18:49
...
Цитата: Rwseg от июня 21, 2016, 14:43Без сомнения, иначе бы он не представлял из себя бессистемную свалку символов.*
* Систему какую-то там, конечно, пытаются соблюсти, но всё равно получилась свалка.
Свалка получилась от того, что пересортировать блоки нельзя: вся обратная совместимость рухнет.
Сначала решили, что 640 килобайт одной плоскости хватит всем, потом внезапно оказалось, что письменностей на планете куда больше, чем они рассчитывали, и вновь введённые пришлось упыривать в конец.

Рѣшенїе просто, нужно лишь создать нову кодировку; како нѣкогда вси перешли (нѣкїи немногїи не перешли) на Юнїкодъ, тако и нынѣ перейдутъ на более совершенную кодировку.


Basil

Цитата: Γρηγόριος от июня 21, 2016, 22:47
Рѣшенїе просто, нужно лишь создать нову кодировку; како нѣкогда вси перешли (нѣкїи немногїи не перешли) на Юнїкодъ, тако и нынѣ перейдутъ на более совершенную кодировку.
А ресурсы откуда? Добровольцев набрать, как википедию делают? 
--
Если есть сомнения - значит сомнений нет.

Bhudh

Цитата: Γρηγόριος от июня 21, 2016, 22:47како нѣкогда вси перешли (нѣкїи немногїи не перешли) на Юнїкодъ
Цитата: https://w3techs.com/technologies/details/en-utf8/all/allUTF-8 is used by 87.1% of all the websites whose character encoding we know.
13% от числа всех страничек в сети — это не «нѣкїи немногїи», это вполне приличное число. Причём в рунете этот процент ещё выше, я сайты с КОИ-8 встречал.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

amdf

А ещё у Юникода есть замечательный принцип: однажды названный символ НИКОГДА не меняет своего названия. Даже если был назван с явной, бросающейся в глаза, ошибкой.

Примеры из http://unicode.org/notes/tn27/

U+01A3 LATIN SMALL LETTER OI

These should have been called letter GHA. They are neither pronounced 'oi' nor based on the letters 'o' and 'i'.

U+0CDE KANNADA LETTER FA

There is no Kannada letter 'fa', this character represents the syllable 'llla'
Ведовьство, потвори, чяродеание, волхъвование, зеленничьство, церковнаа татба, мертвеци сволочать, крест посекут, или на стенах трескы емлють из креста.

Bhudh

Цитата: amdf от июня 22, 2016, 10:51однажды названный символ НИКОГДА не меняет своего названия
Неправда. Названия из Unicode 1.0 были изменены. Количества не знаю, но специальная графа в BabelMap говорит сама за себя:


А для неправильно названных глифов существуют примечания типа
Цитата: Formal aliases: KANNADA LETTER LLLA
Notes: obsolete historic letter
          name is a mistake for LLLA
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

amdf

Цитата: Bhudh от июня 22, 2016, 13:25
Цитата: amdf от июня 22, 2016, 10:51однажды названный символ НИКОГДА не меняет своего названия
Неправда. Названия из Unicode 1.0 были изменены.

Правда. В Unicode 2.0+ символы больше не могут менять названия, никогда. http://www.unicode.org/policies/stability_policy.html
Ведовьство, потвори, чяродеание, волхъвование, зеленничьство, церковнаа татба, мертвеци сволочать, крест посекут, или на стенах трескы емлють из креста.

Bhudh



То есть символ, названный в Unicode 1.0 — это не
Цитата: amdf от июня 22, 2016, 10:51однажды названный символ


?
:eat:
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

amdf

Ведовьство, потвори, чяродеание, волхъвование, зеленничьство, церковнаа татба, мертвеци сволочать, крест посекут, или на стенах трескы емлють из креста.

.

Цитата: Bhudh от июня 22, 2016, 14:48


То есть символ, названный в Unicode 1.0 — это не
Цитата: amdf от июня 22, 2016, 10:51однажды названный символ


?
:eat:
Начиная с версии 2.0 — никогда. Там они ещё и некоторые блоки местами поменяли.

Русский перевод, бессмысленный и беспощадный.

.

Цитата: Bhudh от июня 22, 2016, 03:01
Цитата: Γρηγόριος от июня 21, 2016, 22:47како нѣкогда вси перешли (нѣкїи немногїи не перешли) на Юнїкодъ
Цитата: https://w3techs.com/technologies/details/en-utf8/all/allUTF-8 is used by 87.1% of all the websites whose character encoding we know.
13% от числа всех страничек в сети — это не «нѣкїи немногїи», это вполне приличное число. Причём в рунете этот процент ещё выше, я сайты с КОИ-8 встречал.
Это всё равно маргиналы. Часть из них перейдут на Юникод когда-нибудь. Например, когда узнают, что такое SEO, и как негативно на их позициях сказывается приверженность архаичным кодировкам. ;D
Русский перевод, бессмысленный и беспощадный.

Hellerick


Wolliger Mensch

«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Hellerick

Об отказе от ANSI и DOS'овсих кодировок, которые до сих пор часто всплывают как кодировки по умолчанию.

У меня вот нет Windows 10. Когда там текстовой файл из блокнота сохраняешь, какая кодировка получается? Или когда документ из Word'а сохраняешь как html?

Wolliger Mensch

Цитата: Hellerick от июня 26, 2016, 08:37
У меня вот нет Windows 10. Когда там текстовой файл из блокнота сохраняешь, какая кодировка получается? Или когда документ из Word'а сохраняешь как html?

И что мешает при сохранении UTF-8 выбрать?
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Hellerick

То, что другие так не делают.
Качаешь файлы с интернетов, пытаешься архивы открывать, а там — забугорные кодировки, которые еще надо ухитриться расшифровать.
Пока Windows от подобной политики не откажется, победы UTF-8 ждать не приходится.

Bhudh

Вот результаты за сутки, например: (Google) win-1252

Вот вопрос на Stack Overflow 2 часа назад: http://stackoverflow.com/questions/38035667/how-to-make-this-code-most-interactive. В примере HTML-кода: charset=windows-1252.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Rwseg

Цитата: Bhudh от июня 21, 2016, 18:49
Цитата: Rwseg от июня 21, 2016, 14:43Без сомнения, иначе бы он не представлял из себя бессистемную свалку символов.*
* Систему какую-то там, конечно, пытаются соблюсти, но всё равно получилась свалка.
Свалка получилась от того, что пересортировать блоки нельзя: вся обратная совместимость рухнет.
Сначала решили, что 640 килобайт одной плоскости хватит всем, потом внезапно оказалось, что письменностей на планете куда больше, чем они рассчитывали, и вновь введённые пришлось упыривать в конец.
Давайте для примера возьмём латиницу, киррилицу и арабицу.
С одной стороны постулируется приверженность к комбайнам, с другой стороны напихано куча прекомпозитов.

Я могу понять стремление впихнуть прекомпозиты из старых кодировок (ISO, Win), но когда все возможные старые кодировки были отражены, зачем пихать ещё и ещё прекомпозиты?

Первая часть кириллического блока вполне отражала Win-1251+ISO, но дальше пошло-поехало свалка. Кроме реально неразделимых букв (типа ҕ ҥ), начали пихать прекомпозиты, но зачем, какую старую кодировку они отражали? При этом прекомпозитов для знака ударения нет, полагайтесь на диакритики и хороший шрифт. При этом внезапно запихнули ѐ и ѝ. Извините, а чем они отличаются от е́ и и́, что первые достойны отдельного места? Какой-нибудь ӭ есть отдельно, вот для э̄ (макрон очень распространён в языках Крайнего Севера) пожалуйте использовать комбайн.

В арабском ещё хуже. Вместо нормального блока базовых форм без точек и отдельного блока для диакритик (точек и подобного), напихнули какие только можно и не можно прекомпозитов, из самых редких языков, там свалка невообразимая без какой-либо системы.

Wolliger Mensch

Цитата: Rwseg от июля 13, 2016, 23:50
Я могу понять стремление впихнуть прекомпозиты из старых кодировок (ISO, Win), но когда все возможные старые кодировки были отражены, зачем пихать ещё и ещё прекомпозиты?

Первая часть кириллического блока вполне отражала Win-1251+ISO, но дальше пошло-поехало свалка. Кроме реально неразделимых букв (типа ҕ ҥ), начали пихать прекомпозиты, но зачем, какую старую кодировку они отражали? При этом прекомпозитов для знака ударения нет, полагайтесь на диакритики и хороший шрифт. При этом внезапно запихнули ѐ и ѝ. Извините, а чем они отличаются от е́ и и́, что первые достойны отдельного места? Какой-нибудь ӭ есть отдельно, вот для э̄ (макрон очень распространён в языках Крайнего Севера) пожалуйте использовать комбайн.

В арабском ещё хуже. Вместо нормального блока базовых форм без точек и отдельного блока для диакритик (точек и подобного), напихнули какие только можно и не можно прекомпозитов, из самых редких языков, там свалка невообразимая без какой-либо системы.

Э! Не сметь поднимать руку на прекомпозиты!
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Basil

Цитата: Wolliger Mensch от июля 14, 2016, 00:19
Цитата: Rwseg от июля 13, 2016, 23:50
Я могу понять стремление впихнуть прекомпозиты из старых кодировок (ISO, Win), но когда все возможные старые кодировки были отражены, зачем пихать ещё и ещё прекомпозиты?

Первая часть кириллического блока вполне отражала Win-1251+ISO, но дальше пошло-поехало свалка. Кроме реально неразделимых букв (типа ҕ ҥ), начали пихать прекомпозиты, но зачем, какую старую кодировку они отражали? При этом прекомпозитов для знака ударения нет, полагайтесь на диакритики и хороший шрифт. При этом внезапно запихнули ѐ и ѝ. Извините, а чем они отличаются от е́ и и́, что первые достойны отдельного места? Какой-нибудь ӭ есть отдельно, вот для э̄ (макрон очень распространён в языках Крайнего Севера) пожалуйте использовать комбайн.

В арабском ещё хуже. Вместо нормального блока базовых форм без точек и отдельного блока для диакритик (точек и подобного), напихнули какие только можно и не можно прекомпозитов, из самых редких языков, там свалка невообразимая без какой-либо системы.

Э! Не сметь поднимать руку на прекомпозиты!
Аргументы? Почему ѐ и ѝ - прекомпозиты, а е́ и и́ - нет?  :-[
--
Если есть сомнения - значит сомнений нет.

Wolliger Mensch

Цитата: Basil от июля 14, 2016, 03:49
Аргументы? Почему ѐ и ѝ - прекомпозиты, а е́ и и́ - нет?  :-[

Потому что не доделали. Во-первых, переход на поскриптную основу в уникоде проходит очень тяжело и непоследовательно. А в каждой скрипте есть набор составных знаков, которые рациональнее задать прекомпозитами. К таким в русской гражданке относятся буквы гласных со знаком ударения. Но не сделали до сих пор. А учитывая лобби идиотов, которые настаивают на отказ от прекомпозитов, сделают, видимо, ещё не скоро.

Впрочем, если текстологи и проч. лингвисты и филологы написали бы письмо по этому поводу в консорциум, как это уже бывало в прошлом. Но сколько пишущих на русском лингвистов и филологов дружат с шрифтовым делом и знаниями о письменностях вообще, и которых не устраивает «и так сойдёт»?
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Hellerick

Хеллерику прекомпозитов всё равно не хватит, так что пусть лучше модификаторы до ума доводят.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр