Непонятно с чего вдруг (а скорее всего потому что трудно всё-таки их запоминать, иероглифы) пришла идея записывать их латиницей, добавляя в конце обычного пинъина один или несколько заведомо нечитаемых (непроизносимых, на манер французского) букв, пользуясь стандартностью финалей и вообще ограниченностью слогов. Так, в конце любого слога заведомо не может иметься 17 букв: B, C, D, F, G, H, J, K, L, M, P, Q, S, T, W, X, Z. ("y" можно оставить для записи ǚ, как в 女 nǚrén женщина), коие буквы и можно последовательно прибавлять к пинъинской записи иероглифа.
Например, в моём первом попавшемся китайско-русском словаре находим 20 разных иероглифов, произношение которых пинъином передаётся как "ai", разными тонами (но тоны в нашем случае вещь не первоочередная, их можно и не указывать). Добавляя нечитаемые буквы, можно их записать как
aiB
aiC
aiD
aiF
aiG
aiH
aiJ
и т.д.
Поскольку 17-ти не хватает, можно для 18-го иероглифа добавить две буквы: aiBZ, aiCX etc.
Возможно, это было бы полезно хотя бы для обучения в каком-то плане.
Какое-нибудь woG aiZ niD даёт и произношение, и указывает на разницу с другими иероглифами, произносимыми подобным образом.
А если иерогов будет 120 - как их записывать? aiAAAAA.... :D
120 - ну, это разве что shi в каком-нибудь очень большом словаре. Тогда количество непроизносимых символов превысит количество произносимых, только и всего. Всё равно это будет некий уникальный набор символов для каждого иероглифа. Пожалуй, лучше сразу установить ограничения: что берётся только путунхуа, а не вэнъян....
придется исключить как минимум p t k m h w которые попадаются в финалях диалектов и/или в кантонском и/или в историческом написании чего-нибудь
можно оставить b c d f для обозначения тонов - но ведь с тем же успехом можно писать сами цифры 1 2 3 4
Цитата: _Давид от января 8, 2019, 20:50
придется исключить как минимум p t k m h w которые попадаются в финалях диалектов и/или в кантонском и/или в историческом написании чего-нибудь
предложение же заключается в буквенной записи одного диалекта, а не всех имеющихся
Цитата: _Давид от января 8, 2019, 20:50
можно оставить b c d f для обозначения тонов - но ведь с тем же успехом можно писать сами цифры 1 2 3 4
как я понимаю идею, речь идёт не об использовании букв для записи тонов, а о записи самих иерогов при помощи букв, т.е. омонимы записываются разными иерогами и соответствующее им буквенная запись тоже разная (зато буквенная запись в отличие от иероглифической содержит в себе намёк на произношение).
Цитата: Neeraj от января 8, 2019, 19:01
А если иерогов будет 120 - как их записывать? aiAAAAA.... :D
Комбинация из двух букв дает 17x17 = 289 :donno:
Цитата: BormoGlott от января 8, 2019, 21:56
как я понимаю идею, речь идёт не об использовании букв для записи тонов, а о записи самих иерогов при помощи букв, т.е. омонимы записываются разными иерогами и соответствующее им буквенная запись тоже разная (зато буквенная запись в отличие от иероглифической содержит в себе намёк на произношение).
Соответственно легко написать программу, которая транслирует иероглифы в данное написание и (в чем и суть)
обратно тоже.
А присваивать непроизносимые буквы можно в соответствии с последовательностью появления иероглифов в 6 уровнях HSK (там в целом 5000 слов, иероглифов больше). В таком случае самые частотные иероглифы получат начальные буквы (В, С...), менее частотные - последующие. Это тоже сможет служить неким ориентиром.
Или просто взять частотный словарь иероглифов путунхуа, буде таковой имеется в природе.
Буквы назначаем с учетом тонов:
1-й: B, C, D, F
2-й: G, H, J, K
3-й: L, M, P, Q
4-й: S, T, W, X
Нейтральный: Z
Может удобнее цифрами?
Удобнее телеграфными кодами. :yes:
Я имею в виду, букву на автомате хочется прочесть. Например aiB как айб. С цифрами такого не возникает.
Цитата: Easyskanker от января 9, 2019, 12:57
Я имею в виду, букву на автомате хочется прочесть. Например aiB как айб. С цифрами такого не возникает.
От цифр будет рябить в глазах, да это будет и не латиница уже. А прочесть букву, возможно, иногда будет и полезно, например для запоминания. Запомнить букву всяко легче, чем пользоваться разными мнемоническими приемами для запоминания иероглифа.
Тоны, я думаю, не стоит указывать, так как буквенное обозначение и так однозначно указывает на иероглиф. Для самих китайцев (а расчёт на то, что и они будут пользоваться системой как дополнительной) это ни к чему. Знатоки утверждают, что тоны даже не стоит специально заучивать по номерам, а заучивать надо просто слова и обороты, попутно имитируя мелодику речи.
Цитата: Easyskanker от января 9, 2019, 12:57
Я имею в виду, букву на автомате хочется прочесть. Например aiB как айб. С цифрами такого не возникает.
Вообще-то это обычная история, что пишется не так, как читается. Важно иметь простые правила чтения, а в нашем случае проще некуда.
Цитата: Hellerick от января 9, 2019, 11:14
Буквы назначаем с учетом тонов:
1-й: B, C, D, F
2-й: G, H, J, K
3-й: L, M, P, Q
4-й: S, T, W, X
Нейтральный: Z
Может лучше так:
1-й: B, P , D, T
2-й: G, C, L, J
3-й: W, F, K, Q
4-й: S, Z, H, X
Нейтральный: M
Цитата: Easyskanker от января 9, 2019, 12:06
Может удобнее цифрами?
По-моему, так и делают в некоторых китайско-английских словарях. К пиньину для разных иероглифов добавляют надстрочный индекс.
Цитата: Hellerick от января 9, 2019, 11:14
Буквы назначаем с учетом тонов:
1-й: B, C, D, F
2-й: G, H, J, K
3-й: L, M, P, Q
4-й: S, T, W, X
Нейтральный: Z
А если будет больше четырех омофонов с одним тоном?
Цитата: Basil от января 9, 2019, 21:35
А если будет больше четырех омофонов с одним тоном?
А в чём вы видите проблему?
У меня давно уже была идея для облегчения запоминания иероглифов, графический облик которых в памяти никак не удерживается, придумать для них условные чтения, в которых каждому составному элементу иероглифа приписывается некое звуковое значение.
Например, иероглиф 眙 разбивается на 目, 厶, 口 с условными фонетическими значениями мыр, ги, чупс и соответственно читаем 眙 мыргичупс; 坛 разбиваем на 土 ды, 二 рш, 厶 ги и читаем 坛 дыршги, и т.п. С нормальным китайским произношением это никак не связано, и предполагается, что такое "графическое" звучание надо заучивать параллельно с нормальным фонетическим как второе чтение. Смысл в том, чтобы заменить запоминие написания запоминанием условного произношения, т.к. во всяком случае у меня лично произношение слов держится в голове лучше, чем их написание (и это не только к китайскому языку относится).
Цитата: Devorator linguarum от января 10, 2019, 15:23
У меня давно уже была идея для облегчения запоминания иероглифов, графический облик которых в памяти никак не удерживается, придумать для них условные чтения, в которых каждому составному элементу иероглифа приписывается некое звуковое значение.
Например, иероглиф 眙 разбивается на 目, 厶, 口 с условными фонетическими значениями мыр, ги, чупс и соответственно читаем 眙 мыргичупс; 坛 разбиваем на 土 ды, 二 рш, 厶 ги и читаем 坛 дыршги, и т.п. С нормальным китайским произношением это никак не связано, и предполагается, что такое "графическое" звучание надо заучивать параллельно с нормальным фонетическим как второе чтение. Смысл в том, чтобы заменить запоминие написания запоминанием условного произношения, т.к. во всяком случае у меня лично произношение слов держится в голове лучше, чем их написание (и это не только к китайскому языку относится).
:pop: https://magazeta.com/2007/05/wubi-chinese-input-method/ (https://magazeta.com/2007/05/wubi-chinese-input-method/)
Цитата: Neeraj от января 10, 2019, 17:28
:pop: https://magazeta.com/2007/05/wubi-chinese-input-method/
[off][/off]
!
Цитата: BormoGlott от января 10, 2019, 17:54
Цитата: Neeraj от января 10, 2019, 17:28
:pop: https://magazeta.com/2007/05/wubi-chinese-input-method/ (https://magazeta.com/2007/05/wubi-chinese-input-method/)
!
Ну так коды ввода иерогов как раз и описываются последовательностью латинских букв - чем не иероглифы латиницей.. хоть какая-то польза :)
Цитата: Neeraj от января 10, 2019, 18:03
Цитата: BormoGlott от января 10, 2019, 17:54
Цитата: Neeraj от января 10, 2019, 17:28
:pop: https://magazeta.com/2007/05/wubi-chinese-input-method/
[off][/off]!
Ну так коды ввода иерогов как раз и описываются последовательность латинских букв - чем не иероглифы латиницей.. хоть какая-то польза :)
И никаких тебе дополнительных справочников... в современных словарях иероглифов код Уби всё больше становится практически обязательным элементом информации об иероглифе наряду с указанием количеством черт, ключе и т.п.
Цитата: Neeraj от января 10, 2019, 18:03
Ну так коды ввода иерогов как раз и описываются последовательностью латинских букв - чем не иероглифы латиницей..
Это не то. Это паллиатив для решения проблемы набора иероглифов на буквенной клавиатуре. Причём собственно иероглиф не набирается, вместо этого программа предлагает выбрать из подборки.
Представьте как во времена телеграфа Морзе происходила передача сообщения на китайском. Телеграфист получал телеграмму, брал с полки большой справочник, в котором все иероглифы были записаны в таблицу, и начинал искать, сверяясь с телеграммой, иероглиф по указанной странице, строчке и колонке. Передача телеграммы происходила обратным образом: после того, как нужный иероглиф найден в таблицах, в телеграмму записывается страница, строка и колонка. И так каждый иероглиф сообщения.
Пользуясь системой записи, предложенной топстартером, передавать телеграфное сообщение азбукой Морзе можно обычным образом.
Имеющиеся на сегодняшний день системы набора китайских иероглифов по сути то же самое, что и китайский телеграф позапозапрошлого века, только автоматизированный с помощью программного обеспечения.
Цитата: BormoGlott от января 9, 2019, 21:15
Цитата: Hellerick от января 9, 2019, 11:14
Буквы назначаем с учетом тонов:
1-й: B, C, D, F
2-й: G, H, J, K
3-й: L, M, P, Q
4-й: S, T, W, X
Нейтральный: Z
Может лучше так:
1-й: B, P , D, T
2-й: G, C, L, J
3-й: W, F, K, Q
4-й: S, Z, H, X
Нейтральный: M
Если требуется указать тон (например, в учебной литературе), это можно сделать и традиционным способом, надстрочными знаками. Букв и так мало, расходовать их ещё на тоны жалко. Букву М можно зарезервировать для имён личных, будет удобно. Самый частотный иероглиф для определённого слога можно оставлять без нечитаемой буквы. В устойчивых сочетаниях иероглифов (словах) можно опускать кодировку для первого, например не zhuob-zib (стол), а zhuo-zib. В общем, надо испробовать идею на практике, хотя бы на первом уровне HSK, и тогда будет ясно более определённо, насколько она работает.
Цитата: l-d-p от января 10, 2019, 21:01
Букв и так мало, расходовать их ещё на тоны жалко
если добавлять две буквы, то к семнадцати вариантам добавится еще 272. А если будет мало, то что помешает использовать три дополнительные буквы.
Цитата: BormoGlott от января 10, 2019, 15:02
Цитата: Basil от января 9, 2019, 21:35
А если будет больше четырех омофонов с одним тоном?
А в чём вы видите проблему?
Очевидно, как написать такой латиницей 5+ омофоничных иероглифов, чтобы их можно было различить?
Цитата: Basil от января 10, 2019, 22:34
как написать такой латиницей 5+ омофоничных иероглифов, чтобы их можно было различить
просто, например, пишем пиньинем звуковую форму и добавляем в конце одну две нечитаемые буквы.
Цитата: BormoGlott от января 10, 2019, 22:45
Цитата: Basil от января 10, 2019, 22:34
как написать такой латиницей 5+ омофоничных иероглифов, чтобы их можно было различить
просто, например, пишем пиньинем звуковую форму и добавляем в конце одну две нечитаемые буквы.
Вот, я смотрю, Bormoglott идею понял. Осталось составить достаточно большую базу данных иероглифов и их латинобуквенных кодировок, чтобы можно было, выявив все возможные подводные камни и разобравшись с ними, ею пользоваться. Я всё-таки хочу сделать эту базу на основе частотного словаря иероглифов.
Вот первый вариант этой датабазы... НО, чесно говоря, я не вижу способа прикрепить мой файл к данному форуму...
a 阿 ā 471
am 啊 a exclamatory particle 753
ai 爱 ài love, be fond of, like 394
aim 埃 āi fine dust, dirt 1121
aib 艾 ài
artemisia, mugwort;
translit. 1291
aid 碍 ài
obstruct, hinder, block,
deter 1437
an 安 ān peaceful, tranquil, quiet 232
anem 案 àn table, bench; legal case 518
aneb 按 àn
put hand on, press down
with hand 573
aned 暗 àn
dark; obscure; in secret,
covert 829
anef 岸 àn bank, shore; beach, coast 971
ao 奥 ào
mysterious, obscure,
profound 972
ba 把 bǎ
hold, take; guard; regard
as 110
bam 八 bā eight; all around, all sides 451
bab 吧 ba emphatic final particle 470
bad 巴 bā
greatly desire, anxiously
hope 546
baf 爸 bà father, papa 1050
bah 罢 bà cease, finish, stop; give up 1305
bai 白 bái
white; pure, unblemished;
bright 286
baim 百 bǎi
one hundred; numerous,
many 407
baib 败 bài be defeated, decline, fail 862
baid 摆 bǎi
put, place; display; swing,
sway 1158
baif 拜 bài
do obeisance, bow,
kowtow 1218
ban 办 bàn
manage, do, handle; deal
with 367
banem 半 bàn half 513
baneb 般 bān
sort, manner, kind,
category 629
baned 版 bǎn printing blocks; edition 810
banef 班 bān
class, group, grade; squad;
job 884
baneh 板 bǎn
plank, board; iron or tin
plate 930
banej 伴 bàn
companion, comrade,
partner; accompany 1298
bang 帮 bāng
help, assist; defend; shoe
upper 769
bangem 邦 bāng nation, country, state 1363
bao 报 bào report, tell, announce 234
baom 保 bǎo
protect, safeguard, defend,
care 266baob 包 bāo
wrap, pack, bundle;
package 454
baod 宝 bǎo
treasure, jewel; precious,
rare 811
baof 暴 bào violent, brutal, tyrannical 1028
baoh 抱 bào
embrace, hold in arms,
enfold 1122
baoj 爆 bào
crackle, pop, burst,
explode 1243
baok 胞 bāo
womb, placenta, fetal
membrane 1341
baol 薄 báo
thin, slight, weak; poor,
stingy 1433
bei 被 bèi blanket 154
beim 北 běi north; northern; northward 315
beib 备 bèi prepare, ready, perfect 397
beid 背 bèi
back; back side; behind;
betray 787
beif 贝 bèi sea shell; money, currency 1133
beih 悲 bēi sorrow, grief; sorry, sad 1166
beij 倍 bèi times, fold, multiple times 1392
beik 杯 bēi cup, glass 1396
beil 辈 bèi generation, lifetime; class 1477
ben 本 běn root, origin, source; basis 92
benem 奔 bēn
run fast, flee; rush about;
run 1285
bi 比 bǐ
to compare, liken;
comparison; than 199
bim 必 bì surely, most certainly; must 248
bib 笔 bǐ writing brush; write; stroke 956
bid 避 bì
avoid; turn aside; escape;
hide 991
bif 毕 bì
end, finish, conclude;
completed 1093
bih 币 bì
currency, coins, legal
tender 1188
bij 彼 bǐ that, there, those 1256
bik 闭 bì
shut, close; obstruct, block
up 1267
bil 鼻 bí
nose; first; KangXi radical
209 1335
bip 壁 bì
partition wall; walls of a
house 1380
bian 变 biàn
change, transform, alter;
rebel 225
bianem 便 biàn
convenience, ease;
expedient 271
bianeb 边 biān edge, margin, side, border 316bianed 编 biān
knit, weave; arrange;
compile 858
bianef 遍 biàn
everywhere, all over,
throughout 1012
bianeh 辩 biàn
dispute, argue, debate,
discuss 1355
biao 表 biǎo
show, express, manifest,
display 177
biaom 标 biāo
mark, symbol, label, sign;
stand the bole of a tree 473
bie 别 bié separate, other; do not 222
bing 并 bìng unite; and 141
bingem 兵 bīng soldier, troops 398
bingeb 病 bìng illness, sickness, disease 427
binged 冰 bīng ice; ice-cold 1070
bo 波 bō
waves, breakers;
undulations 664
bom 伯 bó uncle (dad's older brother) 821
bob 博 bó
gamble, play games; wide,
broad 965
bod 播 bō
sow, spread; broadcast;
cast away, reject 1275
bu 不 bù no, not; un-; negative prefix 4
bum 部 bù part, division, section 84
bub 步 bù step, pace; walk, stroll 349
bud 布 bù cotton cloth, textiles, linen 380
buf 补 bǔ
mend, patch, fix, repair,
restore 944
buh 捕 bǔ arrest, catch, seize 1312
cai 才 cái talent, ability; just, only 235
Не, нормально файл тут не прикрепить.
Кому интересно, могу выслать по почте.
На первый взгляд неспециалиста, такая запись более удобна для запоминания чем иероги.
Выглядит лучше, чем я думал.
Посмотрим, что у нас получилось, на нескольких простых примерах.
我们的汉语老师是中国人。
Пиньинь:
Wǒmen de hànyǔ lǎoshī shì zhōngguó rén.
Наша система:
Women de hanyum laoship shi zhongguo ren.
Перевод:
Наш учитель китайского – китаец.
我爱你。
Wǒ ài nǐ.
Wo ai ni.
Я тебя люблю.
她爱她的爸爸。
Tā ài tā de bàba.
Tam ai tam de bafbaf.
Она любит своего папу.
我爱我的妈妈。
Wǒ ài wǒ de māmā.
Wo ai wo de mabmab.
Я люблю свою маму.
电影快开始了。
Diànyǐng kuài kāishǐ le.
Dianem-yingeb kuai kai-shiw le.
Фильм скоро начнётся.
我们赶紧吧。
Wǒmen gǎnjǐn ba.
Women ganed-jinej bab.
Давай поторапливаться.
等一下。
Děng yí xià.
Deng yi xia.
Подожди чуток.
我去买点儿零食。
Wǒ qù mǎidiǎnr língshí.
Wo qu maidianr lingef-shizep.
Я схожу подкуплю еды.
那你快点儿。
Nà nǐ kuàidiǎnr.
Na ni kuaidianr.
Тогда быстрей.
你要吃什么?
Nǐ yào chī shénme?
Ni yao chim shenme?
Ты что-нибудь будешь есть?
爆米花和可乐。
Bàomǐhuā hé Kělè.
Baoj-mi-huab he Kelem.
Попкорн и колу.
好的,马上回来。
Hǎo de, mǎshàng huílái.
Hao de, mashang huim-lai.
Хорошо, сейчас вернусь.
Как видно, самые частотные слова, включая большинство служебных частиц и личные местоимения, не прибавляют никаких кодировок, так что в простых текстах запись сильно похожа на обычный пиньин.
Буква С зарезервирована под имена собственные, например:
王李
Wáng Lǐ
Wangc Lijc
Цитата: l-d-p от января 12, 2019, 20:05
Буква С зарезервирована под имена собственные, например:
Зачем?
Вроде бы, остальные языки прекрасно заглавными буквами обходятся.
Цитата: Hellerick от января 12, 2019, 20:14
Цитата: l-d-p от января 12, 2019, 20:05
Буква С зарезервирована под имена собственные, например:
Зачем?
Вроде бы, остальные языки прекрасно заглавными буквами обходятся.
Верно, у нас ведь латиница. Значит, можно её разрезервировать.
Цитата: BormoGlott от января 11, 2019, 20:31
На первый взгляд неспециалиста, такая запись более удобна для запоминания чем иероги.
Думаю, не нужно быть крутым специалистом, чтобы понять, что какое-нибудь "buh" куда легче запомнить, чем "捕" (если человек не знаком с иероглифической письменностью и не обладает фантастической зрительной памятью).
Цитата: Hellerick от января 11, 2019, 20:33
Выглядит лучше, чем я думал.
В процессе создания датабазы пришло понимание, что эти латинобуквенные запоминалки должны быть легко произносимы и по возможности красивше, тогда их легче запомнить. Поэтому в качестве первой кодировочной буквы выбрана сонорная M, и где надо вставлена E между согласными.
Цитата: BormoGlott от января 12, 2019, 20:08
Цитата: l-d-p от января 12, 2019, 20:05
Посмотрим, что у нас получилось
:=
Спасибо. У меня остаются некоторые сомнения насчёт самого частотного словаря: скажем, какой-нибудь цвет "зелёный" идёт под номером аж 1088, или какая-нибудь цифра отстоит очень далеко от начала, а ведь все основные цвета и цифры даются уже в первом уровне HSK. Поэтому я бы самочинно поменял многое местами. Есть над чем поразмыслить...
Слово-код HSK rank Pinyin
ā 阿 453 ā
am 啊 509 a
āb 呵 2043 ā
ài 爱 113 ài
ǎim 矮 604 ǎi
àib 碍 1404 ài
āid 唉 1576 āi
āif 哎 1616 āi
āih 哀 1980 āi
áij 癌 2002 ái
āik 挨 2110 āi
àil 隘 2559 ài
ǎip 蔼 2614 ǎi
àis 暧 2644 ài
ān 安 398 ān
ànem 案 739 àn
àneb 按 760 àn
àned 暗 1202 àn
ànef 岸 1248 àn
áng 昂 2083 áng
ào 傲 1007 ào
áom 熬 1661 áo
àob 奥 1732 ào
āod 凹 2471 āo
bā 八 119 bā
bàm 爸 162 bà
bad 吧 266 ba
bǎf 把 370 bǎ
bāh 巴 1124 bā
bàj 罢 1810 bà
bák 拔 1879 bá
bàl 霸 2029 bà
bāp 叭 2418 bā
bàs 坝 2445 bà
bāt 疤 2537 bā
bāv 扒 2552 bā
bái 白 237 bái
bǎim 百 259 bǎi
bàib 败 848 bài
bàid 拜 917 bài
bǎif 摆 1313 bǎi
bāih 掰 2657 bāi
bān 班 302 bān
bànem 办 429 bàn
bàneb 半 464 bàn
bāned 般 489 bān
bǎnef 板 533 bǎn
bāneh 搬 593 bān
bànej 扮 1010 bàn
bǎnek 版 1198 bǎn
bànel 伴 1354 bàn
bānep 斑 2129 bān
bānes 颁 2251 bān
bànet 瓣 2487 bàn
bànev 拌 2630 bàn
bāng 帮 290 bāng
bàngem 棒 1032 bàng
bǎngeb 膀 1539 bǎng
bànged 傍 1644 bàng
bǎngef 绑 2301 bǎng
bǎngeh 榜 2362 bǎng
bàngej 磅 2495 bàng
bàngek 谤 2578 bàng
bào 报 229 bào
bāom 包 445 bāo
bǎob 饱 602 bǎo
bǎod 保 660 bǎo
bàof 抱 898 bào
bǎoh 宝 1199 bǎo
báoj 薄 1401 báo
bàok 暴 1743 bào
bàol 爆 1789 bào
bāop 胞 1822 bāo
bǎos 堡 1885 bǎo
báot 雹 2654 báo
běi 北 98 běi
bēim 杯 167 bēi
bèib 备 258 bèi
bèid 被 380 bèi
bèif 倍 948 bèi
bèih 背 1187 bèi
bèij 贝 1305 bèi
bēik 悲 1316 bēi
bèil 辈 1417 bèi
bēip 卑 2132 bēi
bēis 碑 2199 bēi
bèit 惫 2521 bèi
bèiv 狈 2546 bèi
běn 本 54 běn
bèn 笨 1035 bèn
bēnem 奔 1803 bēn
bēng 崩 2189 bēng
bèngem 蹦 2465 bèng
bèngeb 迸 2586 bèng
bénged 甭 2608 béng
bǐ 比 222 bǐ
bǐm 笔 306 bǐ
bìb 必 404 bì
bíd 鼻 568 bí
bìf 毕 890 bì
bìh 避 1251 bì
bìj 币 1328 bì
bǐk 彼 1342 bǐ
bìl 闭 1344 bì
bìp 壁 1386 bì
bīs 逼 1903 bī
bìt 臂 1953 bì
bìv 蔽 2164 bì
bìx 弊 2263 bì
bǐz 鄙 2341 bǐ
bìzem 庇 2447 bì
bìzeb 痹 2607 bì
biàn 便 233 biàn
biānem 边 243 biān
biàneb 变 395 biàn
biàned 遍 876 biàn
biānef 编 1209 biān
biàneh 辩 1375 biàn
biānej 鞭 1608 biān
biǎnek 扁 1976 biǎn
biànel 辨 2064 biàn
biǎnep 贬 2355 biǎn
biànes 辫 2574 biàn
biǎo 表 216 biǎo
biāom 标 724 biāo
bié 别 228 bié
biēm 憋 2557 biē
bīn 宾 338 bīn
bīnem 滨 2328 bīn
bīneb 濒 2560 bīn
bìng 病 261 bìng
bīngem 冰 553 bīng
bìngeb 并 629 bìng
bǐnged 饼 1038 bǐng
bīngef 兵 1093 bīng
bǐngeh 丙 2392 bǐng
bó 博 870 bó
bōm 播 931 bō
bób 膊 1042 bó
bōd 玻 1504 bō
bóf 脖 1590 bó
bōh 波 1693 bō
bój 伯 1707 bó
bók 勃 1891 bó
bōl 拨 2008 bō
bōp 剥 2086 bō
bós 驳 2115 bó
bót 舶 2250 bó
bóv 搏 2273 bó
bǒx 簸 2632 bǒ
bù 不 4 bù
bùm 步 249 bù
bùb 部 619 bù
bùd 布 1090 bù
bǔf 补 1241 bǔ
bǔh 捕 1813 bǔ
bùj 怖 1989 bù
bǔk 哺 2453 bǔ
cā 擦 995 cā
cài 菜 164 cài
cáim 才 399 cái
cáib 材 869 cái
cǎid 彩 908 cǎi
cāif 猜 974 cāi
cǎih 采 1133 cǎi
cáij 财 1157 cái
cáik 裁 1331 cái
cǎil 踩 1646 cǎi
cǎip 睬 2577 cǎi
cān 参 463 cān
cānem 餐 959 cān
cáneb 惭 1672 cán
cáned 残 1766 cán
cǎnef 惨 1888 cǎn
càneh 灿 2374 càn
cáng 藏 1229 cáng
cāngem 苍 1972 cāng
cāngeb 舱 2034 cāng
cānged 仓 2052 cāng
cāngef 沧 2527 cāng
cǎo 草 515 cǎo
cāom 操 1320 cāo
cāob 糙 1679 cāo
cáod 嘈 2613 cáo
cè 厕 1058 cè
cèm 测 1210 cè
cèb 册 1434 cè
cèd 策 1695 cè
cèf 侧 1781 cè
céng 层 499 céng
céngem 曾 1105 céng
chá 茶 165 chá
chám 查 449 chá
chàb 差 506 chà
chád 察 757 chá
chāf 插 1422 chā
chāh 叉 1601 chā
chàj 诧 2428 chà
chàk 岔 2555 chà
chái 柴 1549 chái
chāim 拆 1574 chāi
chǎn 产 1068 chǎn
chànem 颤 2060 chàn
cháneb 缠 2126 chán
chǎned 阐 2197 chǎn
chānef 搀 2605 chān
cháneh 馋 2646 chán
cháng 常 220 cháng
chǎngem 场 231 chǎng
chàngeb 唱 330 chàng
chánged 尝 981 cháng
chǎngef 厂 1247 chǎng
chángeh 偿 1367 cháng
chángej 肠 1535 cháng
chàngek 倡 1593 chàng
chāngel 昌 1920 chāng
chàngep 畅 2165 chàng
chǎnges 敞 2375 chǎng
chāo 超 510 chāo
cháom 朝 1135 cháo
cháob 潮 1356 cháo
chǎod 吵 1564 chǎo
chāof 抄 1597 chāo
chǎoj 炒 1649 chǎo
cháok 巢 2241 cháo
cháol 嘲 2253 cháo
chāop 钞 2393 chāo
chē 车 106 chē
chèm 彻 1339 chè
chèb 撤 1798 chè
chěd 扯 2144 chě
chèf 澈 2602 chè
chèn 衬 612 chèn
chénem 沉 1179 chén
chéneb 尘 1485 chén
chèned 趁 1581 chèn
chénef 陈 1688 chén
chéneh 臣 1762 chén
chénej 晨 1837 chén
chének 辰 2249 chén
chéng 成 356 chéng
chéngem 城 437 chéng
chéngeb 程 673 chéng
chénged 诚 907 chéng
chéngef 乘 921 chéng
chēngeh 称 1102 chēng
chéngej 承 1143 chéng
chéngek 呈 1906 chéng
chéngel 惩 2017 chéng
chēngep 撑 2191 chēng
chénges 澄 2436 chéng
chénget 橙 2631 chéng
chèngev 秤 2640 chèng
chī 吃 121 chī
chím 迟 570 chí
chíb 持 691 chí
chǐd 尺 1416 chǐ
chíf 池 1483 chí
chǐh 齿 1505 chǐ
chìj 翅 1572 chì
chìk 赤 1938 chì
chìl 斥 2040 chì
chíp 驰 2154 chí
chǐs 耻 2187 chǐ
chǐt 侈 2543 chǐ
chōng 充 1161 chōng
chōngem 冲 1164 chōng
chóngeb 虫 1350 chóng
chǒnged 宠 1630 chǒng
chóngef 崇 1869 chóng
chōu 抽 909 chōu
chǒum 丑 1527 chǒu
chòub 臭 1580 chòu
chóud 愁 1582 chóu
chóuf 绸 1655 chóu
chóuh 仇 1892 chóu
chóuj 筹 1946 chóu
chóuk 酬 2106 chóu
chóul 畴 2414 chóu
chóup 稠 2604 chóu
chū 出 22 chū
chúm 除 452 chú
chǔb 楚 522 chǔ
chùd 处 641 chù
chǔf 础 877 chǔ
chúh 厨 1020 chú
chūj 初 1149 chū
chùk 触 1332 chù
chǔl 储 1886 chǔ
chùp 畜 2118 chù
chuān 穿 293 chuān
chuánem 船 485 chuán
chuáneb 传 682 chuán
chuāned 川 1756 chuān
chuànef 串 2025 chuàn
chuǎneh 喘 2094 chuǎn
chuáng 床 317 chuáng
chuāngem 窗 885 chuāng
chuàngeb 创 1142 chuàng
chuǎnged 闯 1585 chuǎng
chuángef 幢 2366 chuáng
chuī 吹 1387 chuī
chuím 垂 1913 chuí
chuíb 椎 2316 chuí
chuíd 锤 2493 chuí
chuīf 炊 2593 chuī
chūn 春 530 chūn
chúnem 纯 1302 chún
chúneb 唇 2051 chún
chǔned 蠢 2196 chǔn
cì 次 218 cì
cím 词 536 cí
cǐb 此 623 cǐ
cìd 刺 1277 cì
cíf 辞 1415 cí
cíh 慈 1871 cí
cíj 磁 1986 cí
cík 瓷 2237 cí
cíl 雌 2279 cí
cìk 伺 2443 cì
cóng 从 195 cóng
cōngem 聪 586 cōng
cōngeb 匆 1466 cōng
cónged 丛 1947 cóng
còu 凑 2194 còu
cū 粗 951 cū
cùm 促 1293 cù
cùb 醋 1675 cù
cuàn 窜 2319 cuàn
cuì 脆 1548 cuì
cuīm 催 1571 cuī
cuìb 粹 1975 cuì
cuīd 摧 2184 cuī
cún 存 699 cún
cūnem 村 1168 cūn
cùneb 寸 2061 cùn
cuò 错 282 cuò
cuòm 措 1310 cuò
cuòb 挫 2303 cuò
cuōd 搓 2547 cuō
cuōf 磋 2581 cuō
dà 大 17 dà
dǎm 打 85 dǎ
dáb 答 473 dá
dád 达 1078 dá
dāf 搭 2031 dā
dah 瘩 2627 da
dài 带 424 dài
dàim 戴 919 dài
dàib 袋 935 dài
dàid 代 1070 dài
dàif 待 1152 dài
dāih 呆 1368 dāi
dàij 贷 1460 dài
dǎik 逮 2205 dǎi
dǎil 歹 2484 dǎi
dàip 怠 2528 dài
dàn 但 193 dàn
dànem 蛋 336 dàn
dāneb 单 432 dān
dāned 担 503 dān
dànef 弹 780 dàn
dàneh 淡 1351 dàn
dànej 旦 1355 dàn
dǎnek 胆 1373 dǎn
dānel 耽 1657 dān
dànep 诞 2102 dàn
dànes 惮 2634 dàn
dāng 当 360 dāng
dàngem 档 1512 dàng
dǎngeb 挡 1536 dǎng
dǎnged 党 1687 dǎng
dàngef 荡 1850 dàng
dào 到 176 dào
dàom 道 185 dào
dǎob 导 685 dǎo
dàod 倒 773 dào
dāof 刀 884 dāo
dǎoh 岛 1192 dǎo
dàoj 盗 1923 dào
dàok 稻 2352 dào
dǎol 蹈 2398 dǎo
dǎop 捣 2425 dǎo
dāos 叨 2466 dāo
dàot 悼 2503 dào
de 的 1 de
dém 得 182 dé
deb 地 348 de
déd 德 1074 dé
děng 等 213 děng
dēngem 灯 557 dēng
dēngeb 登 831 dēng
dènged 瞪 2127 dèng
dēngef 蹬 2597 dēng
dì 第 200 dì
dìm 弟 295 dì
dǐb 底 748 dǐ
dīd 低 767 dī
díf 敌 1120 dí
dìh 递 1438 dì
dīj 滴 1525 dī
dìk 帝 1691 dì
dǐl 抵 1758 dǐ
dìp 蒂 1851 dì
dīs 堤 2322 dī
dìt 缔 2408 dì
diǎn 点 64 diǎn
diànem 电 88 diàn
diàneb 店 161 diàn
diǎned 典 547 diǎn
diànef 殿 1901 diàn
diāneh 颠 2168 diān
diànej 垫 2378 diàn
diànek 奠 2397 diàn
diànel 淀 2562 diàn
diànep 惦 2641 diàn
diào 调 433 diào
diàom 掉 843 diào
diàob 钓 1617 diào
diāod 雕 2022 diāo
diàof 吊 2128 diào
diāoh 叼 2639 diāo
dié 蝶 1618 dié
diēm 跌 1912 diē
diéb 叠 2229 dié
diéd 谍 2284 dié
dìng 定 361 dìng
dǐngem 顶 1256 dǐng
dìngeb 订 1322 dìng
dīnged 丁 1771 dīng
dīngef 盯 2062 dīng
dīngeh 钉 2228 dīng
dīngej 叮 2384 dīng
diū 丢 985 diū
dōng 东 78 dōng
dòngem 动 190 dòng
dǒngeb 懂 326 dǒng
dōnged 冬 573 dōng
dòngef 洞 1259 dòng
dòngeh 冻 1584 dòng
dǒngej 董 1927 dǒng
dòngek 栋 2421 dòng
Это, как вариант, я попробовал сделать базу на основе 2663 иероглифов HSK. Берутся последовательно все 6 уровней HSK, причём каждый из уровней ранжируется по частотности. В результате каждому из цзы приписывается некий HSK-ранг. Далее сортируем по алфавиту и для каждого слога делаем сортировку по этому HSK-рангу. Далее, как обычно, добавляем кодировку.
Вывод таков, что большой разницы с базой, построенной чисто на основе частотного словаря, не наблюдается. Для примера приведём те же предложения, что и раньше:
我们的汉语老师是中国人。
Пиньинь:
Wǒmen de hànyǔ lǎoshī shì zhōngguó rén.
Cистема на основе частотного словаря:
Women de hanyum laoship shi zhongguo ren.
HSK-система:
Women de hanyu laoshid shi zhongguo ren.
Перевод:
Наш учитель китайского – китаец.
我爱你。
Wǒ ài nǐ.
Wo ai ni.
Wo ai ni.
Я тебя люблю.
她爱她的爸爸。
Tā ài tā de bàba.
Tam ai tam de bafbaf.
Ta ai ta de bambam.
Она любит своего папу.
我爱我的妈妈。
Wǒ ài wǒ de māmā.
Wo ai wo de mabmab.
Wo ai wo de mammam.
Я люблю свою маму.
电影快开始了。
Diànyǐng kuài kāishǐ le.
Dianem-yingeb kuai kai-shiw le.
Dianem-ying kuaim kai-shib le.
Фильм скоро начнётся.
我们赶紧吧。
Wǒmen gǎnjǐn ba.
Women ganed-jinej bab.
Women ganed-jinek bad.
Давай поторапливаться.
等一下。
Děng yí xià.
Deng yi xia.
Deng yi xia.
Подожди чуток.
我去买点儿零食。
Wǒ qù mǎidiǎnr língshí.
Wo qu maidianr lingef-shizep.
Wo qu maidianr ling-shizep.
Я схожу подкуплю еды.
那你快点儿。
Nà nǐ kuàidiǎnr.
Na ni kuaidianr.
Na ni kuaidianr.
Тогда быстрей.
你要吃什么?
Nǐ yào chī shénme?
Ni yao chim shenme?
Ni yao chi shenme?
Ты что-нибудь будешь есть?
爆米花和可乐。
Bàomǐhuā hé Kělè.
Baoj-mi-huab he Kelem.
Baol-mi-huab he kem-lem.
Попкорн и колу.
好的,马上回来。
Hǎo de, mǎshàng huílái.
Hao de, mashang huim-lai.
Hao de, mab-shang huim-lai.
Хорошо, сейчас вернусь.