Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Unicode

Автор Esvan, октября 23, 2010, 18:55

0 Пользователи и 1 гость просматривают эту тему.

Python

Цитата: Esvan от октября 23, 2010, 18:55
2010.10.11 опубликован Unicode Standard 6.0


Бумажных книжков теперь не будет, всё только онлайн.
Юникод консорциум продолжает наивно верить в существование кириллицы без знаков ударения? ))
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

myst

Цитата: Python от октября 25, 2010, 02:13
по крайней мере в части приложений символы, выходящие за этот предел, будут стабильно превращаться в два квадрата
В каких?

Python

Цитата: myst от октября 25, 2010, 09:39
В каких?
Например, Опера (не только девятьая, но и десятая) имеет такую скверную привычку.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

myst

Цитата: Python от октября 25, 2010, 13:12
Например, Опера (не только девятьая, но и десятая) имеет такую скверную привычку.
Опера внезапно написана на Жабе?

Python

Хотя, с другой стороны, какая разница, сколько квадратов? Все равно в использовании этих символов есть три варианта:
1) На их месте будут квадраты, знаки вопроса, цифры
2) Для прочтения статьи с малораспространенной письменностью нужно будет долго блуждать в поисках соответствующего шрифта.
3) Картинки или pdf вместо html.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Python

Цитата: myst от октября 25, 2010, 13:33
Цитата: Python от октября 25, 2010, 13:12
Например, Опера (не только девятьая, но и десятая) имеет такую скверную привычку.
Опера внезапно написана на Жабе?
Внезапно. 16-разрядные символы используются не только в Жабе, но и во многих других языках и библиотеках. Тысячи их.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

myst

Цитата: Python от октября 25, 2010, 13:38
Внезапно. 16-разрядные символы используются не только в Жабе, но и во многих других языках и библиотеках. Тысячи их.
Это само по себе ещё не значит, что суррогаты не обрабатываются. Так шта, жабское приложение, не умеющее суррогаты,— студию.

Python

Цитата: myst от октября 25, 2010, 13:40
Это само по себе ещё не значит, что суррогаты не обрабатываются.
Безусловно. По идее, джава должна уметь. Тем не менее, разбивка символа на два уже дает повод для ошибочной его обработки в прикладных программах, которые редко даже на кириллице проверяются.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Python

Цитата: myst от октября 25, 2010, 13:40
Так шта, жабское приложение, не умеющее суррогаты,— студию.
ОК. (wiki/en) Thingamablog отображает символ как один квадратик, но при редактировании в режиме html заглючивает, если в тексте присутствует символ, кодируемый как несколько символов. Этот баг проявляется не только на юникодовской экзотике, но и (при наличии джавы последних версий) на комбинационных диакритиках, которые вдруг стали рендериться по более продвинутому алгоритму. Думаю, и в других программах, оперирующих с длиной строки и положением курсора, подобньіе баги могут присутствовать.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

myst

Цитата: Python от октября 25, 2010, 14:08
(wiki/en) Thingamablog отображает символ как один квадратик, но при редактировании в режиме html заглючивает, если в тексте присутствует символ, кодируемый как несколько символов.
Оно без исходников. :(

myst

Цитата: Python от октября 25, 2010, 14:08
Думаю, и в других программах, оперирующих с длиной строки и положением курсора, подобньіе баги могут присутствовать.
Я забыл, кто недавно кричал, что символьный тип ваще не нужен, а длину строки достаточно считать в байтах, Demetrius? :)
UTF-32 решает. В реализациях CL он уже давно. Лисп рулит! :smoke:

Demetrius

@myst
Я до сих пор так считаю.

Криво написанные приложения не причина зря тратить память. Вам же сказали:
Цитата: Python от октября 25, 2010, 14:08
(wiki/en) Thingamablog... заглючивает, если в тексте присутствует символ, кодируемый как несколько символов. Этот баг проявляется не только на юникодовской экзотике, но и (при наличии джавы последних версий) на комбинационных диакритиках, которые вдруг стали рендериться по более продвинутому алгоритму.
То есть перевод на UTF-32 никому бы не помог.

Если приложение кривое, при чём тут UTF-8?

Наоборот, UTF-16 и UTF-32 создают иллюзию, что обрабатывать можно посимвольно, и программисты забывают о том, что всё не так просто.

Python

Цитата: myst от октября 25, 2010, 14:31
Цитата: Python от октября 25, 2010, 14:08
(wiki/en) Thingamablog отображает символ как один квадратик, но при редактировании в режиме html заглючивает, если в тексте присутствует символ, кодируемый как несколько символов.
Оно без исходников. :(
Исходники старых версий должны быть на соурсфордже
http://sourceforge.net/projects/thingamablog/files/
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

myst

Цитата: Demetrius от октября 25, 2010, 14:42
То есть перевод на UTF-32 никому бы не помог.
Насчёт комбинируемых диакритик надо решить раз и навсегда, являются они отдельными символами или нет.

Цитата: Demetrius от октября 25, 2010, 14:42
Если приложение кривое, при чём тут UTF-8?
Приложение ли кривое? Давно ли приложения сами двигают каретки и всё такое?

Цитата: Demetrius от октября 25, 2010, 14:42
Наоборот, UTF-16 и UTF-32 создают иллюзию, что обрабатывать можно посимвольно, и программисты забывают о том, что всё не так просто.
Разработчики приложений вообще не должны заморачиваться подобными вещами.

myst


Python

Цитата: myst от октября 25, 2010, 14:50
Цитата: Python от октября 25, 2010, 14:49
Исходники старых версий должны быть на соурсфордже
http://sourceforge.net/projects/thingamablog/files/
А в чём глюк, кстати?
Если текст с двойными символами набран в wysiwyg, то при попытке перейти в режим html редактор сообщений отображает только первую строку и перестает принимать ввод с клавиатуры.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Python

Цитата: myst от октября 25, 2010, 14:49
Цитата: Demetrius от октября 25, 2010, 14:42
То есть перевод на UTF-32 никому бы не помог.
Насчёт комбинируемых диакритик надо решить раз и навсегда, являются они отдельными символами или нет.
Исторически, precomposed symbols появились раньше, чем combining diacritics, и особого удобства в переходе на сборные символы нет. С другой стороны,  многие символы можно получить лишь путем комбинирования. Будь вопрос так прост, его бы уже давно решили.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

myst

Цитата: Python от октября 25, 2010, 15:18
Исторически, precomposed symbols появились раньше, чем combining diacritics, и особого удобства в переходе на сборные символы нет. С другой стороны,  многие символы можно получить лишь путем комбинирования. Будь вопрос так прост, его бы уже давно решили.
Они до сих пор так и не решили, какой из вариантов предпочесть. В результате наблюдаем помойку. :(

Demetrius

Будь моя воля, я бы оставил только комбинируемые. И комбинировал бы i = ı + точка.

myst

Цитата: Demetrius от октября 25, 2010, 15:50
Будь моя воля, я бы оставил только комбинируемые. И комбинировал бы i = ı + точка.
А они таки символы или нет?

Demetrius

Они несамостоятельные символы, особая сущность. А что?

myst

Цитата: Demetrius от октября 25, 2010, 17:00
Они несамостоятельные символы, особая сущность. А что?
Как что? От этого зависит их обработка.

Python

Насколько я помню, какое-то время была тенденция к переходу на чистые комбинационные диакритики. Но потом, по всей видимости, от нее отказались (для разных задач нужно разное представление символов, алгоритмы нормализации существуют для обоих вариантов).
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Demetrius

Их обработка зависит от локали. В эстонской локали ü — символ, в немецкой — два.

myst

Цитата: Demetrius от октября 25, 2010, 17:12
Их обработка зависит от локали. В эстонской локали ü — символ, в немецкой — два.
А в чём профит такого изврата?

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр