Author Topic: Кириллица в Юникоде.  (Read 3742 times)

0 Members and 1 Guest are viewing this topic.

Offline Rwseg

  • Posts: 7045
  • Gender: Male
  • Русег
« Reply #25on: June 21, 2016, 14:43 »
Вы думаете, в Уникод его руководители просто так, от балды всё суют?
Без сомнения, иначе бы он не представлял из себя бессистемную свалку символов.*
* Систему какую-то там, конечно, пытаются соблюсти, но всё равно получилась свалка.

Offline Bhudh

  • Posts: 49059
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
« Reply #26on: June 21, 2016, 18:49 »
То есть, вы считаете, что они совершенно умышленно не включают в стандарт некоторые буквы, реально использовавшиеся в письменности (например, яналифный ь), всю кровь уже выпили бардаком с CJK, мурыжат годами пропозалы на реальные письменности, но зато радостно и без лишних вопросов понапихали цветочков, стрелочек, звёздочек и прочих, не имеющих к письменности отношения, узоров?
Вините MicroSoft и его шрифты серии Windings. Они всех приучили к украшательствам, а потом пришёл Уникод. И ему сказали — а мы хотим украшательства, как привыкли!

Без сомнения, иначе бы он не представлял из себя бессистемную свалку символов.*
* Систему какую-то там, конечно, пытаются соблюсти, но всё равно получилась свалка.
Свалка получилась от того, что пересортировать блоки нельзя: вся обратная совместимость рухнет.
Сначала решили, что 640 килобайт одной плоскости хватит всем, потом внезапно оказалось, что письменностей на планете куда больше, чем они рассчитывали, и вновь введённые пришлось упыривать в конец.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline klangtao

  • Posts: 1579
  • Gender: Male
  • Spiro ergo amo, amo ergo vivo
« Reply #27on: June 21, 2016, 20:50 »
местоимениях
междометиях, конечно
Свежий ветер избранных пьянил,
С ног сбивал, из мёртвых воскрешал, -
Потому что если не любил -
Значит, и не жил, и не дышал!

Online Wolliger Mensch

  • Global Moderator
  • *
  • Posts: 48763
  • Gender: Male
  • Haariger Affe
    • Подушка
« Reply #28on: June 21, 2016, 22:26 »
Свалка получилась от того, что пересортировать блоки нельзя: вся обратная совместимость рухнет.
Сначала решили, что 640 килобайт одной плоскости хватит всем, потом внезапно оказалось, что письменностей на планете куда больше, чем они рассчитывали, и вновь введённые пришлось упыривать в конец.

Бардак по следующим причинам:
1) Смена парадигм: сначала хотели вставить в уникод вообще все возможные знаки, цельные, раздельные — не важно. При это знаки вставлялись по визуальному сходству, а с другой стороны — по скриптам. Потом парадигма изменилась: развился опентайп, и пошли-поехали гнать буквы отдельно, диакритики отдельно, причём по трудно определимой системе — в одних случаях диакритики отделялись, в других нет, опентайпом же заткнули и скриптовые варианты одних и тех же букв. Вкупе с двойственностью основы (внешний вид ~ скрипта) привело к изрядной каше.
2) Советники-шарлатаны. История с ѽ — это ещё что — это мелкие косяки, которых по всей таблице много. Что они там с грузиницей нахимичили… А что они курили, когда соединили русскую гражданскую азбуку и «климентовицу» — вообще неизвестно. До сих пор для слависта нормальной работы нет — несколько шрифтов, уникодовские костыли в виде дополнительных таблиц, совокупления с неопентайпными шрифтами (это, вроде бы, уже уходит в прошлое).
3) Вы говорите о совместимости, что однако не мешает консорциуму периодически «рекомендовать» использовать вместо одних знаков другие. Люди рекомендациям следуют, совместимость сохраняется лишь формально — новые шрифты нередко «нерекомендованных» знаков уже не содержат.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: „рулетке“ — „выпечке“?? Тем более, что сей ляпсус я сам совершил…», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО … ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики…», Авал

Offline Γρηγόριος

  • Posts: 3323
« Reply #29on: June 21, 2016, 22:47 »

Без сомнения, иначе бы он не представлял из себя бессистемную свалку символов.*
* Систему какую-то там, конечно, пытаются соблюсти, но всё равно получилась свалка.
Свалка получилась от того, что пересортировать блоки нельзя: вся обратная совместимость рухнет.
Сначала решили, что 640 килобайт одной плоскости хватит всем, потом внезапно оказалось, что письменностей на планете куда больше, чем они рассчитывали, и вновь введённые пришлось упыривать в конец.

Рѣшенїе просто, нужно лишь создать нову кодировку; како нѣкогда вси перешли (нѣкїи немногїи не перешли) на Юнїкодъ, тако и нынѣ перейдутъ на более совершенную кодировку.


Offline Basil

  • Posts: 1456
  • Gender: Male
« Reply #30on: June 22, 2016, 00:24 »
Рѣшенїе просто, нужно лишь создать нову кодировку; како нѣкогда вси перешли (нѣкїи немногїи не перешли) на Юнїкодъ, тако и нынѣ перейдутъ на более совершенную кодировку.
А ресурсы откуда? Добровольцев набрать, как википедию делают? 
--
Если есть сомнения - значит сомнений нет.

Offline Bhudh

  • Posts: 49059
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
« Reply #31on: June 22, 2016, 03:01 »
како нѣкогда вси перешли (нѣкїи немногїи не перешли) на Юнїкодъ
UTF-8 is used by 87.1% of all the websites whose character encoding we know.
13% от числа всех страничек в сети — это не «нѣкїи немногїи», это вполне приличное число. Причём в рунете этот процент ещё выше, я сайты с КОИ-8 встречал.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline amdf

  • Posts: 3425
  • Gender: Male
  • амдф
    • hex.pp.ua
« Reply #32on: June 22, 2016, 10:51 »
А ещё у Юникода есть замечательный принцип: однажды названный символ НИКОГДА не меняет своего названия. Даже если был назван с явной, бросающейся в глаза, ошибкой.

Примеры из http://unicode.org/notes/tn27/

U+01A3 LATIN SMALL LETTER OI

These should have been called letter GHA. They are neither pronounced 'oi' nor based on the letters 'o' and 'i'.

U+0CDE KANNADA LETTER FA

There is no Kannada letter 'fa', this character represents the syllable 'llla'
Ведовьство, потвори, чяродеание, волхъвование, зеленничьство, церковнаа татба, мертвеци сволочать, крест посекут, или на стенах трескы емлють из креста.

Offline Bhudh

  • Posts: 49059
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
« Reply #33on: June 22, 2016, 13:25 »
однажды названный символ НИКОГДА не меняет своего названия
Неправда. Названия из Unicode 1.0 были изменены. Количества не знаю, но специальная графа в BabelMap говорит сама за себя:


А для неправильно названных глифов существуют примечания типа
Quote from:
Formal aliases: KANNADA LETTER LLLA
Notes: obsolete historic letter
          name is a mistake for LLLA
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline amdf

  • Posts: 3425
  • Gender: Male
  • амдф
    • hex.pp.ua
« Reply #34on: June 22, 2016, 14:38 »
однажды названный символ НИКОГДА не меняет своего названия
Неправда. Названия из Unicode 1.0 были изменены.

Правда. В Unicode 2.0+ символы больше не могут менять названия, никогда. http://www.unicode.org/policies/stability_policy.html
Ведовьство, потвори, чяродеание, волхъвование, зеленничьство, церковнаа татба, мертвеци сволочать, крест посекут, или на стенах трескы емлють из креста.

Offline Bhudh

  • Posts: 49059
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
« Reply #35on: June 22, 2016, 14:48 »

То есть символ, названный в Unicode 1.0 — это не
однажды названный символ

?
:eat:
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline amdf

  • Posts: 3425
  • Gender: Male
  • амдф
    • hex.pp.ua
« Reply #36on: June 22, 2016, 15:19 »
Да мне пофиг.
Ведовьство, потвори, чяродеание, волхъвование, зеленничьство, церковнаа татба, мертвеци сволочать, крест посекут, или на стенах трескы емлють из креста.

Offline .

  • Posts: 732
« Reply #37on: June 26, 2016, 03:02 »

То есть символ, названный в Unicode 1.0 — это не
однажды названный символ

?
:eat:
Начиная с версии 2.0 — никогда. Там они ещё и некоторые блоки местами поменяли.

Русский перевод, бессмысленный и беспощадный.

« Reply #38on: June 26, 2016, 03:06 »
како нѣкогда вси перешли (нѣкїи немногїи не перешли) на Юнїкодъ
UTF-8 is used by 87.1% of all the websites whose character encoding we know.
13% от числа всех страничек в сети — это не «нѣкїи немногїи», это вполне приличное число. Причём в рунете этот процент ещё выше, я сайты с КОИ-8 встречал.
Это всё равно маргиналы. Часть из них перейдут на Юникод когда-нибудь. Например, когда узнают, что такое SEO, и как негативно на их позициях сказывается приверженность архаичным кодировкам. ;D
Русский перевод, бессмысленный и беспощадный.

Online Hellerick

  • Posts: 24654
  • Gender: Male
« Reply #39on: June 26, 2016, 07:09 »
Windows на Unicode перейдет когда-нибудь?

Online Wolliger Mensch

  • Global Moderator
  • *
  • Posts: 48763
  • Gender: Male
  • Haariger Affe
    • Подушка
« Reply #40on: June 26, 2016, 08:24 »
Windows на Unicode перейдет когда-нибудь?

Вы о чём?
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: „рулетке“ — „выпечке“?? Тем более, что сей ляпсус я сам совершил…», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО … ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики…», Авал

Online Hellerick

  • Posts: 24654
  • Gender: Male
« Reply #41on: June 26, 2016, 08:37 »
Об отказе от ANSI и DOS'овсих кодировок, которые до сих пор часто всплывают как кодировки по умолчанию.

У меня вот нет Windows 10. Когда там текстовой файл из блокнота сохраняешь, какая кодировка получается? Или когда документ из Word'а сохраняешь как html?

Online Wolliger Mensch

  • Global Moderator
  • *
  • Posts: 48763
  • Gender: Male
  • Haariger Affe
    • Подушка
« Reply #42on: June 26, 2016, 08:59 »
У меня вот нет Windows 10. Когда там текстовой файл из блокнота сохраняешь, какая кодировка получается? Или когда документ из Word'а сохраняешь как html?

И что мешает при сохранении UTF-8 выбрать?
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: „рулетке“ — „выпечке“?? Тем более, что сей ляпсус я сам совершил…», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО … ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики…», Авал

Online Hellerick

  • Posts: 24654
  • Gender: Male
« Reply #43on: June 26, 2016, 11:15 »
То, что другие так не делают.
Качаешь файлы с интернетов, пытаешься архивы открывать, а там — забугорные кодировки, которые еще надо ухитриться расшифровать.
Пока Windows от подобной политики не откажется, победы UTF-8 ждать не приходится.

Offline Bhudh

  • Posts: 49059
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
« Reply #44on: June 26, 2016, 11:19 »
Вот результаты за сутки, например: (Google) win-1252

Вот вопрос на Stack Overflow 2 часа назад: http://stackoverflow.com/questions/38035667/how-to-make-this-code-most-interactive. В примере HTML-кода: charset=windows-1252.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Rwseg

  • Posts: 7045
  • Gender: Male
  • Русег
« Reply #45on: July 13, 2016, 23:50 »
Без сомнения, иначе бы он не представлял из себя бессистемную свалку символов.*
* Систему какую-то там, конечно, пытаются соблюсти, но всё равно получилась свалка.
Свалка получилась от того, что пересортировать блоки нельзя: вся обратная совместимость рухнет.
Сначала решили, что 640 килобайт одной плоскости хватит всем, потом внезапно оказалось, что письменностей на планете куда больше, чем они рассчитывали, и вновь введённые пришлось упыривать в конец.
Давайте для примера возьмём латиницу, киррилицу и арабицу.
С одной стороны постулируется приверженность к комбайнам, с другой стороны напихано куча прекомпозитов.

Я могу понять стремление впихнуть прекомпозиты из старых кодировок (ISO, Win), но когда все возможные старые кодировки были отражены, зачем пихать ещё и ещё прекомпозиты?

Первая часть кириллического блока вполне отражала Win-1251+ISO, но дальше пошло-поехало свалка. Кроме реально неразделимых букв (типа ҕ ҥ), начали пихать прекомпозиты, но зачем, какую старую кодировку они отражали? При этом прекомпозитов для знака ударения нет, полагайтесь на диакритики и хороший шрифт. При этом внезапно запихнули ѐ и ѝ. Извините, а чем они отличаются от е́ и и́, что первые достойны отдельного места? Какой-нибудь ӭ есть отдельно, вот для э̄ (макрон очень распространён в языках Крайнего Севера) пожалуйте использовать комбайн.

В арабском ещё хуже. Вместо нормального блока базовых форм без точек и отдельного блока для диакритик (точек и подобного), напихнули какие только можно и не можно прекомпозитов, из самых редких языков, там свалка невообразимая без какой-либо системы.

Online Wolliger Mensch

  • Global Moderator
  • *
  • Posts: 48763
  • Gender: Male
  • Haariger Affe
    • Подушка
« Reply #46on: July 14, 2016, 00:19 »
Я могу понять стремление впихнуть прекомпозиты из старых кодировок (ISO, Win), но когда все возможные старые кодировки были отражены, зачем пихать ещё и ещё прекомпозиты?

Первая часть кириллического блока вполне отражала Win-1251+ISO, но дальше пошло-поехало свалка. Кроме реально неразделимых букв (типа ҕ ҥ), начали пихать прекомпозиты, но зачем, какую старую кодировку они отражали? При этом прекомпозитов для знака ударения нет, полагайтесь на диакритики и хороший шрифт. При этом внезапно запихнули ѐ и ѝ. Извините, а чем они отличаются от е́ и и́, что первые достойны отдельного места? Какой-нибудь ӭ есть отдельно, вот для э̄ (макрон очень распространён в языках Крайнего Севера) пожалуйте использовать комбайн.

В арабском ещё хуже. Вместо нормального блока базовых форм без точек и отдельного блока для диакритик (точек и подобного), напихнули какие только можно и не можно прекомпозитов, из самых редких языков, там свалка невообразимая без какой-либо системы.

Э! Не сметь поднимать руку на прекомпозиты!
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: „рулетке“ — „выпечке“?? Тем более, что сей ляпсус я сам совершил…», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО … ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики…», Авал

Offline Basil

  • Posts: 1456
  • Gender: Male
« Reply #47on: July 14, 2016, 03:49 »
Я могу понять стремление впихнуть прекомпозиты из старых кодировок (ISO, Win), но когда все возможные старые кодировки были отражены, зачем пихать ещё и ещё прекомпозиты?

Первая часть кириллического блока вполне отражала Win-1251+ISO, но дальше пошло-поехало свалка. Кроме реально неразделимых букв (типа ҕ ҥ), начали пихать прекомпозиты, но зачем, какую старую кодировку они отражали? При этом прекомпозитов для знака ударения нет, полагайтесь на диакритики и хороший шрифт. При этом внезапно запихнули ѐ и ѝ. Извините, а чем они отличаются от е́ и и́, что первые достойны отдельного места? Какой-нибудь ӭ есть отдельно, вот для э̄ (макрон очень распространён в языках Крайнего Севера) пожалуйте использовать комбайн.

В арабском ещё хуже. Вместо нормального блока базовых форм без точек и отдельного блока для диакритик (точек и подобного), напихнули какие только можно и не можно прекомпозитов, из самых редких языков, там свалка невообразимая без какой-либо системы.

Э! Не сметь поднимать руку на прекомпозиты!
Аргументы? Почему ѐ и ѝ - прекомпозиты, а е́ и и́ - нет?  :-[
--
Если есть сомнения - значит сомнений нет.

Online Wolliger Mensch

  • Global Moderator
  • *
  • Posts: 48763
  • Gender: Male
  • Haariger Affe
    • Подушка
« Reply #48on: July 14, 2016, 09:14 »
Аргументы? Почему ѐ и ѝ - прекомпозиты, а е́ и и́ - нет?  :-[

Потому что не доделали. Во-первых, переход на поскриптную основу в уникоде проходит очень тяжело и непоследовательно. А в каждой скрипте есть набор составных знаков, которые рациональнее задать прекомпозитами. К таким в русской гражданке относятся буквы гласных со знаком ударения. Но не сделали до сих пор. А учитывая лобби идиотов, которые настаивают на отказ от прекомпозитов, сделают, видимо, ещё не скоро.

Впрочем, если текстологи и проч. лингвисты и филологы написали бы письмо по этому поводу в консорциум, как это уже бывало в прошлом. Но сколько пишущих на русском лингвистов и филологов дружат с шрифтовым делом и знаниями о письменностях вообще, и которых не устраивает «и так сойдёт»?
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: „рулетке“ — „выпечке“?? Тем более, что сей ляпсус я сам совершил…», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО … ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики…», Авал

Online Hellerick

  • Posts: 24654
  • Gender: Male
« Reply #49on: July 14, 2016, 09:38 »
Хеллерику прекомпозитов всё равно не хватит, так что пусть лучше модификаторы до ума доводят.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: