Цитата: Вывод скриптаТаким образом, оптимальным представляется брать N в 7—8 символов. Числа настолько радуют, что закрадывается сомнение, не ошибся ли я где. ;D Кроме того, у Грувера иногда декомпозиции слишком «суровые», мы не будем следовать им всем. Но, думаю, в любом случае, больше, чем 20000 кодовых мест иероглифы с таким подходом явно не займут.
Limit is 3: 9348 codepoints: 2138 hanzi, 7210 combining characters.
Limit is 4: 7992 codepoints: 2565 hanzi, 5427 combining characters.
Limit is 5: 7358 codepoints: 2945 hanzi, 4413 combining characters.
Limit is 6: 7077 codepoints: 3347 hanzi, 3730 combining characters.
Limit is 7: 6944 codepoints: 3711 hanzi, 3233 combining characters.
Limit is 8: 6948 codepoints: 4077 hanzi, 2871 combining characters.
Limit is 9: 7019 codepoints: 4457 hanzi, 2562 combining characters.
Limit is 10: 7076 codepoints: 4758 hanzi, 2318 combining characters.
Limit is 11: 7182 codepoints: 5069 hanzi, 2113 combining characters.
Limit is 12: 7367 codepoints: 5420 hanzi, 1947 combining characters.
Limit is 13: 7492 codepoints: 5690 hanzi, 1802 combining characters.
Limit is 14: 7618 codepoints: 5927 hanzi, 1691 combining characters.
Limit is 15: 7869 codepoints: 6291 hanzi, 1578 combining characters.
Limit is 16: 8125 codepoints: 6653 hanzi, 1472 combining characters.
Limit is 17: 8328 codepoints: 6944 hanzi, 1384 combining characters.
Цитата: fujhi от июля 17, 2012, 12:00То есть таки несовместимая с ASCII?
- Двухбайтовая кодировка. Воистину двухбайтовая, а не как Уникод.
Цитата: fujhi от июля 17, 2012, 12:00Что имеется в виду?
все свойства символа можно узнать их его позиции.
Цитата: Hellerick от июля 17, 2012, 12:31Планируется использовать для себя, конечно же. Я не оставляю надежды сделать свою операционную систему (хочу что-нибудь типа colorForth'а)...
То есть таки несовместимая с ASCII?
И как вы определяете цель своей работы? Где это предполагается использовать, и чем это лучше Юникода?
Цитата: Hellerick от июля 17, 2012, 12:31Легче обрабатывать (никаких суррогатных пар), легче написать рендерер. Дополнительная плюшка: можно придумывать свои иероглифы.
чем это лучше Юникода?
Цитата: Тайльнемер от июля 17, 2012, 12:31Что-то вроде такого:Цитата: fujhi от июля 17, 2012, 12:00Что имеется в виду?
все свойства символа можно узнать их его позиции.
Цитата: fujhi от июля 17, 2012, 12:48Это усложняет реализацию toLower и toUpper: я хотел, чтобы маленькие буквы шли прямо после больших. Возможно, сделаю «совместимую ASCII-латиницу», которая выводится красным цветом в текстах и всегда моноширинна (для идентификаторов в компиляторе, etc) и «настоящую латиницу», выводимую чёрным цветом (для собственно текстов). Хотя Оккам негодуэ... Не знаю.
Под совместимостью с ASCII понимается то, что первые 127 букв будут такие же. Хотя я не уверен, что мне такое чудо нужно́.
Цитата: Hellerick от июля 17, 2012, 13:14Придумывайте, я Вам не мешаю. :donno: Но на практике реализовывать этот мультскриптовый ввод очень муторно, все задолбаются. Я честно пробовал (когда редактор ЛингвоКода писал) и задолбался.
Что если придумывать не кодировку, а «язык мультискриптой разметки», позволяющий записать любой текст в plain ASCII файле?
Цитата: Alone Coder от июля 17, 2012, 15:13Не знаю. Пока что не решил. А как Вы думаете: как лучше?
Русская "А" и латинская "A" - один и тот же символ?
Цитата: Alone Coder от июля 17, 2012, 15:33
Я думаю, лучше не изобретать велосипеды. Даже на Спектруме пользуются стандартными кодировками.
Цитата: Alone Coder от июля 17, 2012, 15:38
CP-866.
Цитата: Alone Coder от июля 17, 2012, 15:33Кому от этого лучше? Я не изобретал бы, если бы мне нравились существующие.
Я думаю, лучше не изобретать велосипеды.
Цитата: Alone Coder от июля 17, 2012, 15:33Если равняться, то лучше на colorForth. Там вообще своя кодировка, со встроенным сжатием по Хаффману с учётом частотности букв в английском. Но там только латиница, мне же хочется некоторой многоязычности и простора.
Даже на Спектруме пользуются стандартными кодировками.
Цитата: fujhi от июля 17, 2012, 15:56
Вариант Хеллерика же — делать надстройку над существующими кодировками — слишком неудобен.
Цитата: Hellerick от июля 17, 2012, 16:10Ну-у-у... Предложенный Вами. Вы же предлагаете создавать надстройку над ASCII.Цитата: fujhi от июля 17, 2012, 15:56
Вариант Хеллерика же — делать надстройку над существующими кодировками — слишком неудобен.
Это мой вариант? :what:
Цитата: Hellerick от июля 17, 2012, 16:10Я хочу сделать кодировку, которой мне было бы приятно пользоваться и которая бы позволяла мне закодировать всё, что может понадобиться. Только и всего.
Впрочем, повторюсь, я не понимаю, чего вы добиваетесь.
Цитата: fujhi от июля 17, 2012, 15:56Я не изобретал бы, если бы мне нравились существующие.
Цитата: Большое количество новых распространенных операционок свидетельствует о том, что народ существующими недоволен. (http://lingvoforum.net/index.php/topic,28846.msg673401.html#msg673401);D
Цитата: fujhi от июля 17, 2012, 16:14Цитата: Hellerick от июля 17, 2012, 16:10Ну-у-у... Предложенный Вами. Вы же предлагаете создавать надстройку над ASCII.Цитата: fujhi от июля 17, 2012, 15:56
Вариант Хеллерика же — делать надстройку над существующими кодировками — слишком неудобен.
Это мой вариант? :what:
Цитата: Bhudh от июля 17, 2012, 16:29tl;drЦитата: Большое количество новых распространенных операционок свидетельствует о том, что народ существующими недоволен. (http://lingvoforum.net/index.php/topic,28846.msg673401.html#msg673401);D
Цитата: fujhi от июля 17, 2012, 16:46tl;dr
Цитата: Hellerick от июля 17, 2012, 16:44Одно второму не мешает. ;D
ASCII — это не «кодировки», это — «The Кодировка».
Цитата: Hellerick от июля 17, 2012, 16:44Сложностью реализации, кларо же. Это расширяемость à la C++: добавлять кучу новых вещей, частично перекрывающих уже существующие. Я хочу расширяемость à la Scheme: мало кирпичиков, из которых можно сложить всё то же и даже больше.
А чем вас не устраивает принцип насширяемости до бесконечности, заложенный в той же UTF-8?
Цитата: Bhudh от июля 17, 2012, 16:48Гтитдтлб? ЧЗБ?
Γτητδτλβ...
Цитата: fujhi от июля 17, 2012, 16:46tl;dr | → | еджвк |
Цитата: Bhudh от июля 17, 2012, 17:17Too long; didn't read. = Многабукаф.
Цитата: fujhi от июля 17, 2012, 16:46tl;dr
→
еджвк
Γτητδτλβ... → Переведи...
Цитата: fujhi от июля 17, 2012, 12:00Я ничего не понимаю в китайском :( поэтому мне сложно понять, что имеется в виду.
То есть введение одного только символа <комбинирующаяся трёхточечная вода слева> может сократить количество требуемых кодовых мест на 2497! (Хотя дальше выгода будет меньшей. Например, если ввести <комбинируемую 去 справа>, то в иероглифе 法 всё равно будет использоваться обычная 去.)
Выбрать, что будет выносится в комбинирующуюся диакритику, предлагаю статистически — если элемент используется в какой-то роли в N или более иероглифах, то ему выделяется соответствующий код.
Цитата: Тайльнемер от июля 18, 2012, 10:40Не думаю, что проще. С моим подходом задача «прочитать одну букву» делается достаточно просто — «прочитать всю диакритику [т.е. символы с кодом больше определённого числа] аж до не-диакритика» (или, если делать диакритику после символа, как в уникоде, то «прочитать один не-диакритик и всю диакритику вплоть до следующего не-диакритика»; но тогда нужен lookahead).
Правильно ли я понимаю, что вы предлагаете для каждого простого иероглифа (типа 口) ввести помимо основного код-пойнта ещё несколько дополнительных код-пойнтов, содержащих тот же иероглиф в роли диакритики того или иного типа?
Если так, то не проще ли выделить несколько код-пойнтов, обозначающих только тип диакритики, или тип разложения иероглифа на части, и представлять иероглиф в виде этого маркера типа и составных частей?
Цитата: Тайльнемер от июля 18, 2012, 10:40Не знаю. Я ни в зуб ногой в корейском. :(
Кстати, как бы вы разложили хангыль?
Цитата: Bhudh от июля 18, 2012, 12:29Что не так?
http://hanzijs.com/character/艸
:???
Цитата: Bhudh от июля 18, 2012, 12:33На совести Грувера. Впрочем, иероглиф редкий и никому не нужный.
Поццему не на 2? :donno:
Цитата: Bhudh от июля 18, 2012, 12:33На два чего?
Поццему не на 2? :donno:
Цитата: Hellerick от июля 18, 2012, 12:38Цитата: Bhudh от июля 18, 2012, 12:33На два чего?
Поццему не на 2? :donno:
Этот «трезубец» разве является отдельной графемой?
Цитата: Hellerick от июля 18, 2012, 12:43Не знаю. Я думал так, хотя не знаю.
Что делать с парами прописная-строчная буква? Всегда и всюду следовать порядку AaBbCc и т.д.?