Author Topic: Рендеринг китайских иероглифов  (Read 6517 times)

0 Members and 1 Guest are viewing this topic.

Offline Тайльнемер

  • Posts: 12736
  • Σοι υν βυρρο. Ix bin æn ézl
Реальным режимом развлекаетесь?
Скорее, «Спектрумом».

Offline Rwseg

  • Posts: 7039
  • Gender: Male
  • Русег
鬱 (radical 192 鬯+19, 29 strokes, cangjie input 木木月山竹 (DDBUH), four-corner 44722, composition ⿳⿲木缶木冖⿰鬯彡)
Пришлось увеличить масштаб в браузере до 300%, чтобы рассмотреть первый и второй иероглифы. :fp: Как раз такие вещи от китайского и отталкивают. :(

Offline Alone Coder

  • Вне лингвистики
  • Posts: 23232
  • Gender: Male
    • Орфовики
Единичные исключения можно рисовать картинкой. Тут бы найти простой и нежручий метод, который покрывает подавляющее большинство случаев.

Offline Demetrius

  • Posts: 12392
  • Бес джинн фея колдунчик
1. Какой набор иероглифов полностью достаточен для написания в принципе произвольных текстов?
Никакой. Это открытая система. А вообще, иероглифы за пределами базовой плоскости уникода Уникода почти не встречаются.

2. Что делать с остальными иероглифами? Как принято поступать в таких случаях?
Я видел где-то в интернете Шаньхайцзин, где отсутствующие иероглифы заменялись на что-то типа [上X下Y]. Но это древний текст, где очень важно сохранить иероглиф. В обычных текстах вполне можно просто заменить омонимом (果 вместо 嗰), а то и вообще латиницей (D вместо 啲). В кантонском ещё компонент «рот» часто заменяют на o (o的 вместо 啲).

3. Реально ли сэкономить за счёт разделения иероглифов на элементы?
Да.

4. Реально ли сэкономить за счёт более мелких рисунков? (Мельче 12x12 не видел.)
Нет. Довольно быстро большинство иероглифов становятся нечитаемыми.

Ну да, всё уже придумано до нас. По-хорошему, надо максимально полно Cangjie воспроизводить.
Я бы не советовал. Цанцзе сильно привязан к тому, что это система ввода, и поэтому он больше оптимизирован для ввода, чем для программного вывода.

Тут бы найти простой и нежручий метод, который покрывает подавляющее большинство случаев.
Мне кажется, что имело бы смысл взять базу разбиений (тыц, тыц) и написать скрипт, который найдёт максимально эффективное разбиение. Проблема в том, что разбиения не всегда в пропорции 1:1 (для самых частых компонентов это что-то типа 1:2).

Ещё мне кажется лишним кодировать сразу и упрощённые, и традиционные. Всё равно конкретный человек обычно предпочитает либо те, либо те. Поэтому брать те начертания, которые использует целевая аудитория.

А, то есть, рекурсивно.
Оно рекурсивно только в одну сторону. При переходе от формы к коду мы разбиваем иероглиф рекурсивно. При рисовании знака по коду у нас рекурсии нет, нужно составлять таблицы.

Мы разбиваем основной иероглиф по основному разбиению (снаружи внутрь; если нельзя, то снизу вверх; если нельзя, то слева направо). Если разбиение даёт два компонента, то от первого берётся два знака, от второго — три (說 YRCRU/卜口金口山  = 言 Y[MM]R/卜[一一]口 + 兌 CR[H]U/金口[竹]山). Если есть три явных компонента, то 2 + 2 + 1 (謝 YRHHI = 言 Y[MM]R + 身 + H[X]H + 寸 [D]I). Если какой-то компонент сам по себе неделимый, то на другие будет больше места (как в случае с 鬱, где «крышка» между 木缶木 и 鬯彡 пишется одной буквой — B/月, поэтому имеем 2+1+2).

Таким образом, в вашем примере:
鬱 DDBUH = 木缶木 D[OJU]D + крышка B + 鬯彡 U[PHH]H
Иероглифа [鬯彡] нет, но если бы он был, он бы писался UPHHH = 鬯 UP + 彡 HHH
彡 естественным образом разбивается на HHH
鬯 UIP = обрамление снизу U  + I[???]I + ヒ P — тут я даже не знаю, как его разбить

Таким образом, при вводе в компьютер мы разбираем иероглифы рекурсивно. При выводе — не рекурсивно. Из DDBUH никак не узнаешь, что DD — это на самом деле DJOUD.
«Честного не жди слова, // Я тебя предам снова»

Offline Alone Coder

  • Вне лингвистики
  • Posts: 23232
  • Gender: Male
    • Орфовики
Когда китайские иероглифы стали квадратными? Какой в этом был смысл до изобретения подвижных литер (по официальной истории в XI веке)?
Можно предположить, что иероглифы типа [12] слились в один до того, как стали квадратными. Так ли это?

Online Hellerick

  • Posts: 27982
  • Gender: Male
Я так понимаю, иероглифы предназначены для рисования на бамбуковых дощечках.



Ширина дощечек определяет ширину иероглифа. Высота иероглифа была стандартизирована, чтобы четче понимать, где кончается один, и начинается другой иероглиф. Ну а потом просто для того, чтобы красивше было.

Offline Alone Coder

  • Вне лингвистики
  • Posts: 23232
  • Gender: Male
    • Орфовики
Однако египтяне, которые тоже писали на тростнике, имели неквадратные иероглифы. И монголы, которые тоже писали вертикально, не старались отделять символы или делать их одной высоты...

Online Hellerick

  • Posts: 27982
  • Gender: Male
У египтян был папирус без особых ограничений по площади.
У монголов была алфавитная письменность. Если символов не так много, то в них труднее запутаться.

Offline mnashe

  • Administrator
  • *
  • Posts: 44712
  • Gender: Male
Раньше иногда практиковалось разбиение иероглифов пополам, и кодирование каждой половины, например в виде ячейке 8x16, отдельно. Так экономилась куча позиций.
Может, это делалось не столько для экономии позиций, сколько для вписывания в удобный технический стандарт (по одному байту на строку растра)?
Я понимаю, что текстовый режим всё равно неприменим (в 512 позиций никак не впишешься), но думаю, что и в графических режимах до появления Windows старались использовать восьмипиксельные символы.
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

Offline Demetrius

  • Posts: 12392
  • Бес джинн фея колдунчик
Когда китайские иероглифы стали квадратными? Какой в этом был смысл до изобретения подвижных литер (по официальной истории в XI веке)?
Зависит от того, что Вы понимаете под «квадратными».

— Если общую тенденцию к прямоугольным линиям и избеганию кругов, то это, действительно, было в письме 隸書 dàisyū (лишу; clerical script), которое действительно связывают с появлением бамбуковых дощечек.

— Если под «квадратными» понимается вписанность в квадрат, то в дайсю они ещё были вписаны не в квадрат, а в прямоугольник (высота была меньшей, чем ширина; это экономило место на бамбуковых дощечках). В более поздних стилях они квадратные, но и в более ранних, наверное, можно найти такие, пропорции которых стремились к квадрату.

— Если имеется в виду вписанность иероглифа в прямоугольник, при котором сравнительно легко выделить границы символов, то что-то такое можно найти уже в чжоуских гадательных надписях (пусть и не очень аккуратно):


Можно предположить, что иероглифы типа [12] слились в один до того, как стали квадратными. Так ли это?
Насколько я понимаю, нет. Иероглифы типа [12] в древнейших надписях писались обычно только с фонетическим компонентом, т.е. вместо [12] писали 2 (или 1), а добавление семантических компонентов происходило позже для уточнения, и с сохранением вписанности в прямоугольник.

Однако египтяне, которые тоже писали на тростнике, имели неквадратные иероглифы.
У них язык был другой. У египтян слова часто были в несколько слогов, тогда как у китайцев почти всегда в один (сейчас, правда, говорят о полутораслогах, т.е. были слова в два слога, где первый редуцированный, но это картины не меняет). В результате у египтян не было соответствия «один знак — один слог [или полутораслог]» и не было нужды, добавляя новые детерминативы, вписывать их внутрь существующего символа.

И монголы, которые тоже писали вертикально, не старались отделять символы или делать их одной высоты...
У этих письменность вообще по другому принципу построена.
«Честного не жди слова, // Я тебя предам снова»

Насколько я понимаю, нет.
Я зря тут дал ответ «нет», т.к. неясно, что вы понимаете под квадратностью. Но о слиянии речь не идёт, т.к. «неслитых» форм в принципе не было, НЯП.
«Честного не жди слова, // Я тебя предам снова»

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: