Лингвофорум

Теоретический раздел => Интерлингвистика и лингвопроектирование => Проекты письменностей и транслитераций => Тема начата: l-d-p от января 8, 2019, 18:52

Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 8, 2019, 18:52
Непонятно с чего вдруг (а скорее всего потому что трудно всё-таки их запоминать, иероглифы) пришла идея записывать их латиницей, добавляя в конце обычного пинъина один или несколько заведомо нечитаемых (непроизносимых, на манер французского) букв, пользуясь стандартностью финалей и вообще ограниченностью слогов. Так, в конце любого слога заведомо не может иметься 17 букв: B, C, D, F, G, H, J, K, L, M, P, Q, S, T, W, X, Z. ("y" можно оставить для записи ǚ, как в 女 nǚrén женщина), коие буквы и можно последовательно прибавлять к пинъинской записи иероглифа.

Например, в моём первом попавшемся китайско-русском словаре находим 20 разных иероглифов, произношение которых пинъином передаётся как "ai", разными тонами (но тоны в нашем случае вещь не первоочередная, их можно и не указывать). Добавляя нечитаемые буквы, можно их записать как
aiB
aiC
aiD
aiF
aiG
aiH
aiJ
и т.д.
Поскольку 17-ти не хватает, можно для 18-го иероглифа добавить две буквы: aiBZ, aiCX etc.

Возможно, это было бы полезно хотя бы для обучения в каком-то плане.
Какое-нибудь woG aiZ niD даёт и произношение, и указывает на разницу с другими иероглифами, произносимыми подобным образом.


Название: Китайские иероглифы латиницей
Отправлено: Neeraj от января 8, 2019, 19:01
А если иерогов будет 120  - как их записывать? aiAAAAA....  :D 
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 8, 2019, 19:28
120 - ну, это разве что shi в каком-нибудь очень большом словаре. Тогда количество непроизносимых символов превысит количество произносимых, только и всего. Всё равно это будет некий уникальный набор символов для каждого иероглифа. Пожалуй, лучше сразу установить ограничения: что берётся только путунхуа, а не вэнъян....
Название: Китайские иероглифы латиницей
Отправлено: _Давид от января 8, 2019, 20:50
придется исключить как минимум p t k m h w которые попадаются в финалях диалектов и/или в кантонском и/или в историческом написании чего-нибудь

можно оставить b c d f для обозначения тонов - но ведь с тем же успехом можно писать сами цифры 1 2 3 4

Название: Китайские иероглифы латиницей
Отправлено: BormoGlott от января 8, 2019, 21:56
Цитата: _Давид от января  8, 2019, 20:50
придется исключить как минимум p t k m h w которые попадаются в финалях диалектов и/или в кантонском и/или в историческом написании чего-нибудь
предложение же заключается в буквенной записи одного диалекта, а не всех имеющихся

Цитата: _Давид от января  8, 2019, 20:50
можно оставить b c d f для обозначения тонов - но ведь с тем же успехом можно писать сами цифры 1 2 3 4
как я понимаю идею, речь идёт не об использовании букв для записи тонов, а о записи самих иерогов при помощи букв, т.е. омонимы записываются разными иерогами и соответствующее им буквенная запись тоже разная (зато буквенная запись в отличие от иероглифической содержит в себе намёк на произношение).
Название: Китайские иероглифы латиницей
Отправлено: Basil от января 9, 2019, 04:15
Цитата: Neeraj от января  8, 2019, 19:01
А если иерогов будет 120  - как их записывать? aiAAAAA....  :D
Комбинация из двух букв дает  17x17 = 289  :donno:
Название: Китайские иероглифы латиницей
Отправлено: Basil от января 9, 2019, 04:17
Цитата: BormoGlott от января  8, 2019, 21:56
как я понимаю идею, речь идёт не об использовании букв для записи тонов, а о записи самих иерогов при помощи букв, т.е. омонимы записываются разными иерогами и соответствующее им буквенная запись тоже разная (зато буквенная запись в отличие от иероглифической содержит в себе намёк на произношение).
Соответственно легко написать программу, которая  транслирует иероглифы в данное написание и (в чем и суть) обратно тоже.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 9, 2019, 08:31
А присваивать непроизносимые буквы можно в соответствии с последовательностью появления иероглифов в 6 уровнях HSK (там в целом 5000 слов, иероглифов больше). В таком случае самые частотные иероглифы получат начальные буквы (В, С...), менее частотные - последующие. Это тоже сможет служить неким ориентиром.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 9, 2019, 09:03
Или просто взять частотный словарь иероглифов путунхуа, буде таковой имеется в природе.
Название: Китайские иероглифы латиницей
Отправлено: Hellerick от января 9, 2019, 11:14
Буквы назначаем с учетом тонов:
1-й: B, C, D, F
2-й: G, H, J, K
3-й: L, M, P, Q
4-й: S, T, W, X
Нейтральный: Z
Название: Китайские иероглифы латиницей
Отправлено: Easyskanker от января 9, 2019, 12:06
Может удобнее цифрами?
Название: Китайские иероглифы латиницей
Отправлено: Hellerick от января 9, 2019, 12:45
Удобнее телеграфными кодами.  :yes:
Название: Китайские иероглифы латиницей
Отправлено: Easyskanker от января 9, 2019, 12:57
Я имею в виду, букву на автомате хочется прочесть. Например aiB как айб. С цифрами такого не возникает.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 9, 2019, 19:59
Цитата: Easyskanker от января  9, 2019, 12:57
Я имею в виду, букву на автомате хочется прочесть. Например aiB как айб. С цифрами такого не возникает.

От цифр будет рябить в глазах, да это будет и не латиница уже. А прочесть букву, возможно, иногда будет и полезно, например для запоминания. Запомнить букву всяко легче, чем пользоваться разными мнемоническими приемами для запоминания иероглифа.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 9, 2019, 20:06
Тоны, я думаю, не стоит указывать, так как буквенное обозначение и так однозначно указывает на иероглиф. Для самих китайцев (а расчёт на то, что и они будут пользоваться системой как дополнительной) это ни к чему. Знатоки утверждают, что тоны даже не стоит специально заучивать по номерам, а заучивать надо просто слова и обороты, попутно имитируя мелодику речи.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 9, 2019, 20:44
Цитата: Easyskanker от января  9, 2019, 12:57
Я имею в виду, букву на автомате хочется прочесть. Например aiB как айб. С цифрами такого не возникает.

Вообще-то это обычная история, что пишется не так, как читается. Важно иметь простые правила чтения, а в нашем случае проще некуда.
Название: Китайские иероглифы латиницей
Отправлено: BormoGlott от января 9, 2019, 21:15
Цитата: Hellerick от января  9, 2019, 11:14
Буквы назначаем с учетом тонов:
1-й: B, C, D, F
2-й: G, H, J, K
3-й: L, M, P, Q
4-й: S, T, W, X
Нейтральный: Z
Может лучше так:
1-й: B, P , D, T
2-й: G, C, L, J
3-й: W, F, K, Q
4-й: S, Z, H, X
Нейтральный: M
Название: Китайские иероглифы латиницей
Отправлено: Basil от января 9, 2019, 21:33
Цитата: Easyskanker от января  9, 2019, 12:06
Может удобнее цифрами?
По-моему, так и делают в некоторых китайско-английских словарях. К пиньину для разных иероглифов добавляют надстрочный индекс.
Название: Китайские иероглифы латиницей
Отправлено: Basil от января 9, 2019, 21:35
Цитата: Hellerick от января  9, 2019, 11:14
Буквы назначаем с учетом тонов:
1-й: B, C, D, F
2-й: G, H, J, K
3-й: L, M, P, Q
4-й: S, T, W, X
Нейтральный: Z
А если будет больше четырех омофонов с одним тоном?
Название: Китайские иероглифы латиницей
Отправлено: BormoGlott от января 10, 2019, 15:02
Цитата: Basil от января  9, 2019, 21:35
А если будет больше четырех омофонов с одним тоном?
А в чём вы видите проблему?
Название: Китайские иероглифы латиницей
Отправлено: Devorator linguarum от января 10, 2019, 15:23
У меня давно уже была идея для облегчения запоминания иероглифов, графический облик которых в памяти никак не удерживается, придумать для них условные чтения, в которых каждому составному элементу иероглифа приписывается некое звуковое значение.

Например, иероглиф 眙 разбивается на 目, 厶, 口 с условными фонетическими значениями мыр, ги, чупс и соответственно читаем 眙 мыргичупс; 坛 разбиваем на 土 ды, 二 рш, 厶 ги и читаем 坛 дыршги, и т.п. С нормальным китайским произношением это никак не связано, и предполагается, что такое "графическое" звучание надо заучивать параллельно с нормальным фонетическим как второе чтение. Смысл в том, чтобы заменить запоминие написания запоминанием условного произношения, т.к. во всяком случае у меня лично произношение слов держится в голове лучше, чем их написание (и это не только к китайскому языку относится).
Название: Китайские иероглифы латиницей
Отправлено: Neeraj от января 10, 2019, 17:28
Цитата: Devorator linguarum от января 10, 2019, 15:23
У меня давно уже была идея для облегчения запоминания иероглифов, графический облик которых в памяти никак не удерживается, придумать для них условные чтения, в которых каждому составному элементу иероглифа приписывается некое звуковое значение.

Например, иероглиф 眙 разбивается на 目, 厶, 口 с условными фонетическими значениями мыр, ги, чупс и соответственно читаем 眙 мыргичупс; 坛 разбиваем на 土 ды, 二 рш, 厶 ги и читаем 坛 дыршги, и т.п. С нормальным китайским произношением это никак не связано, и предполагается, что такое "графическое" звучание надо заучивать параллельно с нормальным фонетическим как второе чтение. Смысл в том, чтобы заменить запоминие написания запоминанием условного произношения, т.к. во всяком случае у меня лично произношение слов держится в голове лучше, чем их написание (и это не только к китайскому языку относится).
:pop:  https://magazeta.com/2007/05/wubi-chinese-input-method/ (https://magazeta.com/2007/05/wubi-chinese-input-method/)
Название: Китайские иероглифы латиницей
Отправлено: BormoGlott от января 10, 2019, 17:54
Цитата: Neeraj от января 10, 2019, 17:28
:pop:  https://magazeta.com/2007/05/wubi-chinese-input-method/
[off][/off]!
Название: Китайские иероглифы латиницей
Отправлено: Neeraj от января 10, 2019, 18:03
Цитата: BormoGlott от января 10, 2019, 17:54
Цитата: Neeraj от января 10, 2019, 17:28
:pop:  https://magazeta.com/2007/05/wubi-chinese-input-method/ (https://magazeta.com/2007/05/wubi-chinese-input-method/)
!
Ну так коды ввода иерогов как раз и описываются последовательностью латинских букв - чем не иероглифы латиницей.. хоть какая-то польза  :)
Название: Китайские иероглифы латиницей
Отправлено: Neeraj от января 10, 2019, 18:09
Цитата: Neeraj от января 10, 2019, 18:03
Цитата: BormoGlott от января 10, 2019, 17:54
Цитата: Neeraj от января 10, 2019, 17:28
:pop:  https://magazeta.com/2007/05/wubi-chinese-input-method/
[off][/off]!
Ну так коды ввода иерогов как раз и описываются последовательность латинских букв - чем не иероглифы латиницей.. хоть какая-то польза  :)
И никаких тебе дополнительных справочников...  в современных словарях иероглифов код Уби всё больше становится практически обязательным элементом информации об иероглифе  наряду с указанием количеством черт, ключе и т.п.
Название: Китайские иероглифы латиницей
Отправлено: BormoGlott от января 10, 2019, 19:39
Цитата: Neeraj от января 10, 2019, 18:03
Ну так коды ввода иерогов как раз и описываются последовательностью латинских букв - чем не иероглифы латиницей..
Это не то. Это паллиатив для решения проблемы набора иероглифов на буквенной клавиатуре. Причём собственно иероглиф не набирается, вместо этого программа предлагает выбрать из подборки.

Представьте как во времена телеграфа Морзе происходила передача сообщения на китайском. Телеграфист получал телеграмму, брал с полки большой справочник, в котором все иероглифы были записаны в таблицу, и начинал искать, сверяясь с телеграммой, иероглиф по указанной странице, строчке и колонке. Передача телеграммы происходила обратным образом: после того, как нужный иероглиф найден в таблицах, в телеграмму записывается страница, строка и колонка. И так каждый иероглиф сообщения.
Пользуясь системой записи, предложенной топстартером, передавать телеграфное сообщение азбукой Морзе можно обычным образом.
Имеющиеся на сегодняшний день системы набора китайских иероглифов по сути то же самое, что и китайский телеграф позапозапрошлого века, только автоматизированный с помощью программного обеспечения.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 10, 2019, 21:01
Цитата: BormoGlott от января  9, 2019, 21:15
Цитата: Hellerick от января  9, 2019, 11:14
Буквы назначаем с учетом тонов:
1-й: B, C, D, F
2-й: G, H, J, K
3-й: L, M, P, Q
4-й: S, T, W, X
Нейтральный: Z
Может лучше так:
1-й: B, P , D, T
2-й: G, C, L, J
3-й: W, F, K, Q
4-й: S, Z, H, X
Нейтральный: M


Если требуется указать тон (например, в учебной литературе), это можно сделать и традиционным способом, надстрочными знаками. Букв и так мало, расходовать их ещё на тоны жалко. Букву М можно зарезервировать для имён личных, будет удобно. Самый частотный иероглиф для определённого слога можно оставлять без нечитаемой буквы. В устойчивых сочетаниях иероглифов (словах) можно опускать кодировку для первого, например не zhuob-zib (стол), а zhuo-zib. В общем, надо испробовать идею на практике, хотя бы на первом уровне HSK, и тогда будет ясно более определённо, насколько она работает.
Название: Китайские иероглифы латиницей
Отправлено: BormoGlott от января 10, 2019, 22:16
Цитата: l-d-p от января 10, 2019, 21:01
Букв и так мало, расходовать их ещё на тоны жалко
если добавлять две буквы, то к семнадцати вариантам добавится еще 272. А если будет мало, то что помешает использовать три дополнительные буквы.
Название: Китайские иероглифы латиницей
Отправлено: Basil от января 10, 2019, 22:34
Цитата: BormoGlott от января 10, 2019, 15:02
Цитата: Basil от января  9, 2019, 21:35
А если будет больше четырех омофонов с одним тоном?
А в чём вы видите проблему?
Очевидно, как написать такой латиницей 5+ омофоничных иероглифов, чтобы их можно было различить?
Название: Китайские иероглифы латиницей
Отправлено: BormoGlott от января 10, 2019, 22:45
Цитата: Basil от января 10, 2019, 22:34
как написать такой латиницей 5+ омофоничных иероглифов, чтобы их можно было различить
просто, например, пишем пиньинем звуковую форму и добавляем в конце одну две нечитаемые буквы.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 11, 2019, 09:21
Цитата: BormoGlott от января 10, 2019, 22:45
Цитата: Basil от января 10, 2019, 22:34
как написать такой латиницей 5+ омофоничных иероглифов, чтобы их можно было различить
просто, например, пишем пиньинем звуковую форму и добавляем в конце одну две нечитаемые буквы.

Вот, я смотрю, Bormoglott идею понял. Осталось составить достаточно большую базу данных иероглифов и их латинобуквенных кодировок, чтобы можно было, выявив все возможные подводные камни и разобравшись с ними, ею пользоваться. Я всё-таки хочу сделать эту базу на основе частотного словаря иероглифов.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 11, 2019, 19:48
Вот первый вариант этой датабазы... НО, чесно говоря, я не вижу способа прикрепить мой файл к данному форуму...
a 阿 ā 471
am 啊 a exclamatory particle 753
ai 爱 ài love, be fond of, like 394
aim 埃 āi fine dust, dirt 1121
aib 艾 ài
artemisia, mugwort;
translit. 1291
aid 碍 ài
obstruct, hinder, block,
deter 1437
an 安 ān peaceful, tranquil, quiet 232
anem 案 àn table, bench; legal case 518
aneb 按 àn
put hand on, press down
with hand 573
aned 暗 àn
dark; obscure; in secret,
covert 829
anef 岸 àn bank, shore; beach, coast 971
ao 奥 ào
mysterious, obscure,
profound 972
ba 把 bǎ
hold, take; guard; regard
as 110
bam 八 bā eight; all around, all sides 451
bab 吧 ba emphatic final particle 470
bad 巴 bā
greatly desire, anxiously
hope 546
baf 爸 bà father, papa 1050
bah 罢 bà cease, finish, stop; give up 1305
bai 白 bái
white; pure, unblemished;
bright 286
baim 百 bǎi
one hundred; numerous,
many 407
baib 败 bài be defeated, decline, fail 862
baid 摆 bǎi
put, place; display; swing,
sway 1158
baif 拜 bài
do obeisance, bow,
kowtow 1218
ban 办 bàn
manage, do, handle; deal
with 367
banem 半 bàn half 513
baneb 般 bān
sort, manner, kind,
category 629
baned 版 bǎn printing blocks; edition 810
banef 班 bān
class, group, grade; squad;
job 884
baneh 板 bǎn
plank, board; iron or tin
plate 930
banej 伴 bàn
companion, comrade,
partner; accompany 1298
bang 帮 bāng
help, assist; defend; shoe
upper 769
bangem 邦 bāng nation, country, state 1363
bao 报 bào report, tell, announce 234
baom 保 bǎo
protect, safeguard, defend,
care 266baob 包 bāo
wrap, pack, bundle;
package 454
baod 宝 bǎo
treasure, jewel; precious,
rare 811
baof 暴 bào violent, brutal, tyrannical 1028
baoh 抱 bào
embrace, hold in arms,
enfold 1122
baoj 爆 bào
crackle, pop, burst,
explode 1243
baok 胞 bāo
womb, placenta, fetal
membrane 1341
baol 薄 báo
thin, slight, weak; poor,
stingy 1433
bei 被 bèi blanket 154
beim 北 běi north; northern; northward 315
beib 备 bèi prepare, ready, perfect 397
beid 背 bèi
back; back side; behind;
betray 787
beif 贝 bèi sea shell; money, currency 1133
beih 悲 bēi sorrow, grief; sorry, sad 1166
beij 倍 bèi times, fold, multiple times 1392
beik 杯 bēi cup, glass 1396
beil 辈 bèi generation, lifetime; class 1477
ben 本 běn root, origin, source; basis 92
benem 奔 bēn
run fast, flee; rush about;
run 1285
bi 比 bǐ
to compare, liken;
comparison; than 199
bim 必 bì surely, most certainly; must 248
bib 笔 bǐ writing brush; write; stroke 956
bid 避 bì
avoid; turn aside; escape;
hide 991
bif 毕 bì
end, finish, conclude;
completed 1093
bih 币 bì
currency, coins, legal
tender 1188
bij 彼 bǐ that, there, those 1256
bik 闭 bì
shut, close; obstruct, block
up 1267
bil 鼻 bí
nose; first; KangXi radical
209 1335
bip 壁 bì
partition wall; walls of a
house 1380
bian 变 biàn
change, transform, alter;
rebel 225
bianem 便 biàn
convenience, ease;
expedient 271
bianeb 边 biān edge, margin, side, border 316bianed 编 biān
knit, weave; arrange;
compile 858
bianef 遍 biàn
everywhere, all over,
throughout 1012
bianeh 辩 biàn
dispute, argue, debate,
discuss 1355
biao 表 biǎo
show, express, manifest,
display 177
biaom 标 biāo
mark, symbol, label, sign;
stand the bole of a tree 473
bie 别 bié separate, other; do not 222
bing 并 bìng unite; and 141
bingem 兵 bīng soldier, troops 398
bingeb 病 bìng illness, sickness, disease 427
binged 冰 bīng ice; ice-cold 1070
bo 波 bō
waves, breakers;
undulations 664
bom 伯 bó uncle (dad's older brother) 821
bob 博 bó
gamble, play games; wide,
broad 965
bod 播 bō
sow, spread; broadcast;
cast away, reject 1275
bu 不 bù no, not; un-; negative prefix 4
bum 部 bù part, division, section 84
bub 步 bù step, pace; walk, stroll 349
bud 布 bù cotton cloth, textiles, linen 380
buf 补 bǔ
mend, patch, fix, repair,
restore 944
buh 捕 bǔ arrest, catch, seize 1312
cai 才 cái talent, ability; just, only 235

Не, нормально файл тут не прикрепить.
Кому интересно, могу выслать по почте.
Название: Китайские иероглифы латиницей
Отправлено: BormoGlott от января 11, 2019, 20:31
На первый взгляд неспециалиста, такая запись более удобна для запоминания чем иероги.
Название: Китайские иероглифы латиницей
Отправлено: Hellerick от января 11, 2019, 20:33
Выглядит лучше, чем я думал.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 12, 2019, 20:05
Посмотрим, что у нас получилось, на нескольких простых примерах.

我们的汉语老师是中国人。
Пиньинь:
Wǒmen de hànyǔ lǎoshī shì zhōngguó rén.
Наша система:
Women de hanyum laoship shi zhongguo ren.
Перевод:
Наш учитель китайского – китаец.


我爱你。
Wǒ ài nǐ.
Wo ai ni.
Я тебя люблю.


她爱她的爸爸。
Tā ài tā de bàba.
Tam ai tam de bafbaf.
Она любит своего папу.


我爱我的妈妈。
Wǒ ài wǒ de māmā.
Wo ai wo de mabmab.
Я люблю свою маму.


电影快开始了。
Diànyǐng kuài kāishǐ le.
Dianem-yingeb kuai kai-shiw le.
Фильм скоро начнётся.


我们赶紧吧。
Wǒmen gǎnjǐn ba.
Women ganed-jinej bab.
Давай поторапливаться.


等一下。
Děng yí xià.
Deng yi xia.
Подожди чуток.


我去买点儿零食。
Wǒ qù mǎidiǎnr língshí.
Wo qu maidianr lingef-shizep.
Я схожу подкуплю еды.


那你快点儿。
Nà nǐ kuàidiǎnr.
Na ni kuaidianr.
Тогда быстрей.


你要吃什么?
Nǐ yào chī shénme?
Ni yao chim shenme?
Ты что-нибудь будешь есть?


爆米花和可乐。
Bàomǐhuā hé Kělè.
Baoj-mi-huab he Kelem.
Попкорн и колу.


好的,马上回来。
Hǎo de, mǎshàng huílái.
Hao de, mashang huim-lai.
Хорошо, сейчас вернусь.


Как видно, самые частотные слова, включая большинство служебных частиц и личные местоимения, не прибавляют никаких кодировок, так что в простых текстах запись сильно похожа на обычный пиньин.

Буква С зарезервирована под имена собственные, например:
王李
Wáng Lǐ
Wangc Lijc


Название: Китайские иероглифы латиницей
Отправлено: BormoGlott от января 12, 2019, 20:08
Цитата: l-d-p от января 12, 2019, 20:05
Посмотрим, что у нас получилось
:=
Название: Китайские иероглифы латиницей
Отправлено: Hellerick от января 12, 2019, 20:14
Цитата: l-d-p от января 12, 2019, 20:05
Буква С зарезервирована под имена собственные, например:
Зачем?
Вроде бы, остальные языки прекрасно заглавными буквами обходятся.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 12, 2019, 21:21
Цитата: Hellerick от января 12, 2019, 20:14
Цитата: l-d-p от января 12, 2019, 20:05
Буква С зарезервирована под имена собственные, например:
Зачем?
Вроде бы, остальные языки прекрасно заглавными буквами обходятся.

Верно, у нас ведь латиница. Значит, можно её разрезервировать.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 12, 2019, 21:24
Цитата: BormoGlott от января 11, 2019, 20:31
На первый взгляд неспециалиста, такая запись более удобна для запоминания чем иероги.

Думаю, не нужно быть крутым специалистом, чтобы понять, что какое-нибудь "buh" куда легче запомнить, чем "捕" (если человек не знаком с иероглифической письменностью и не обладает фантастической зрительной памятью).
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 12, 2019, 21:28
Цитата: Hellerick от января 11, 2019, 20:33
Выглядит лучше, чем я думал.

В процессе создания датабазы пришло понимание, что эти латинобуквенные запоминалки должны быть легко произносимы и по возможности красивше, тогда их легче запомнить. Поэтому в качестве первой кодировочной буквы выбрана сонорная M, и где надо вставлена E между согласными.
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 12, 2019, 21:36
Цитата: BormoGlott от января 12, 2019, 20:08
Цитата: l-d-p от января 12, 2019, 20:05
Посмотрим, что у нас получилось
:=


Спасибо. У меня остаются некоторые сомнения насчёт самого частотного словаря: скажем, какой-нибудь цвет "зелёный" идёт под номером аж 1088, или какая-нибудь цифра отстоит очень далеко от начала, а ведь все основные цвета и цифры даются уже в первом уровне HSK. Поэтому я бы самочинно поменял многое местами. Есть над чем поразмыслить...
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 25, 2019, 19:13
Слово-код      HSK rank   Pinyin
ā   阿   453   ā
am   啊   509   a
āb   呵   2043   ā
ài   爱   113   ài
ǎim   矮   604   ǎi
àib   碍   1404   ài
āid   唉   1576   āi
āif   哎   1616   āi
āih   哀   1980   āi
áij   癌   2002   ái
āik   挨   2110   āi
àil   隘   2559   ài
ǎip   蔼   2614   ǎi
àis   暧   2644   ài
ān   安   398   ān
ànem   案   739   àn
àneb   按   760   àn
àned   暗   1202   àn
ànef   岸   1248   àn
áng   昂   2083   áng
ào   傲   1007   ào
áom   熬   1661   áo
àob   奥   1732   ào
āod   凹   2471   āo
bā   八   119   bā
bàm   爸   162   bà
bad   吧   266   ba
bǎf   把   370   bǎ
bāh   巴   1124   bā
bàj   罢   1810   bà
bák   拔   1879   bá
bàl   霸   2029   bà
bāp   叭   2418   bā
bàs   坝   2445   bà
bāt   疤   2537   bā
bāv   扒   2552   bā
bái   白   237   bái
bǎim   百   259   bǎi
bàib   败   848   bài
bàid   拜   917   bài
bǎif   摆   1313   bǎi
bāih   掰   2657   bāi
bān   班   302   bān
bànem   办   429   bàn
bàneb   半   464   bàn
bāned   般   489   bān
bǎnef   板   533   bǎn
bāneh   搬   593   bān
bànej   扮   1010   bàn
bǎnek   版   1198   bǎn
bànel   伴   1354   bàn
bānep   斑   2129   bān
bānes   颁   2251   bān
bànet   瓣   2487   bàn
bànev   拌   2630   bàn
bāng   帮   290   bāng
bàngem   棒   1032   bàng
bǎngeb   膀   1539   bǎng
bànged   傍   1644   bàng
bǎngef   绑   2301   bǎng
bǎngeh   榜   2362   bǎng
bàngej   磅   2495   bàng
bàngek   谤   2578   bàng
bào   报   229   bào
bāom   包   445   bāo
bǎob   饱   602   bǎo
bǎod   保   660   bǎo
bàof   抱   898   bào
bǎoh   宝   1199   bǎo
báoj   薄   1401   báo
bàok   暴   1743   bào
bàol   爆   1789   bào
bāop   胞   1822   bāo
bǎos   堡   1885   bǎo
báot   雹   2654   báo
běi   北   98   běi
bēim   杯   167   bēi
bèib   备   258   bèi
bèid   被   380   bèi
bèif   倍   948   bèi
bèih   背   1187   bèi
bèij   贝   1305   bèi
bēik   悲   1316   bēi
bèil   辈   1417   bèi
bēip   卑   2132   bēi
bēis   碑   2199   bēi
bèit   惫   2521   bèi
bèiv   狈   2546   bèi
běn   本   54   běn
bèn   笨   1035   bèn
bēnem   奔   1803   bēn
bēng   崩   2189   bēng
bèngem   蹦   2465   bèng
bèngeb   迸   2586   bèng
bénged   甭   2608   béng
bǐ   比   222   bǐ
bǐm   笔   306   bǐ
bìb   必   404   bì
bíd   鼻   568   bí
bìf   毕   890   bì
bìh   避   1251   bì
bìj   币   1328   bì
bǐk   彼   1342   bǐ
bìl   闭   1344   bì
bìp   壁   1386   bì
bīs   逼   1903   bī
bìt   臂   1953   bì
bìv   蔽   2164   bì
bìx   弊   2263   bì
bǐz   鄙   2341   bǐ
bìzem   庇   2447   bì
bìzeb   痹   2607   bì
biàn   便   233   biàn
biānem   边   243   biān
biàneb   变   395   biàn
biàned   遍   876   biàn
biānef   编   1209   biān
biàneh   辩   1375   biàn
biānej   鞭   1608   biān
biǎnek   扁   1976   biǎn
biànel   辨   2064   biàn
biǎnep   贬   2355   biǎn
biànes   辫   2574   biàn
biǎo   表   216   biǎo
biāom   标   724   biāo
bié   别   228   bié
biēm   憋   2557   biē
bīn   宾   338   bīn
bīnem   滨   2328   bīn
bīneb   濒   2560   bīn
bìng   病   261   bìng
bīngem   冰   553   bīng
bìngeb   并   629   bìng
bǐnged   饼   1038   bǐng
bīngef   兵   1093   bīng
bǐngeh   丙   2392   bǐng
bó   博   870   bó
bōm   播   931   bō
bób   膊   1042   bó
bōd   玻   1504   bō
bóf   脖   1590   bó
bōh   波   1693   bō
bój   伯   1707   bó
bók   勃   1891   bó
bōl   拨   2008   bō
bōp   剥   2086   bō
bós   驳   2115   bó
bót   舶   2250   bó
bóv   搏   2273   bó
bǒx   簸   2632   bǒ
bù   不   4   bù
bùm   步   249   bù
bùb   部   619   bù
bùd   布   1090   bù
bǔf   补   1241   bǔ
bǔh   捕   1813   bǔ
bùj   怖   1989   bù
bǔk   哺   2453   bǔ
cā   擦   995   cā
cài   菜   164   cài
cáim   才   399   cái
cáib   材   869   cái
cǎid   彩   908   cǎi
cāif   猜   974   cāi
cǎih   采   1133   cǎi
cáij   财   1157   cái
cáik   裁   1331   cái
cǎil   踩   1646   cǎi
cǎip   睬   2577   cǎi
cān   参   463   cān
cānem   餐   959   cān
cáneb   惭   1672   cán
cáned   残   1766   cán
cǎnef   惨   1888   cǎn
càneh   灿   2374   càn
cáng   藏   1229   cáng
cāngem   苍   1972   cāng
cāngeb   舱   2034   cāng
cānged   仓   2052   cāng
cāngef   沧   2527   cāng
cǎo   草   515   cǎo
cāom   操   1320   cāo
cāob   糙   1679   cāo
cáod   嘈   2613   cáo
cè   厕   1058   cè
cèm   测   1210   cè
cèb   册   1434   cè
cèd   策   1695   cè
cèf   侧   1781   cè
céng   层   499   céng
céngem   曾   1105   céng
chá   茶   165   chá
chám   查   449   chá
chàb   差   506   chà
chád   察   757   chá
chāf   插   1422   chā
chāh   叉   1601   chā
chàj   诧   2428   chà
chàk   岔   2555   chà
chái   柴   1549   chái
chāim   拆   1574   chāi
chǎn   产   1068   chǎn
chànem   颤   2060   chàn
cháneb   缠   2126   chán
chǎned   阐   2197   chǎn
chānef   搀   2605   chān
cháneh   馋   2646   chán
cháng   常   220   cháng
chǎngem   场   231   chǎng
chàngeb   唱   330   chàng
chánged   尝   981   cháng
chǎngef   厂   1247   chǎng
chángeh   偿   1367   cháng
chángej   肠   1535   cháng
chàngek   倡   1593   chàng
chāngel   昌   1920   chāng
chàngep   畅   2165   chàng
chǎnges   敞   2375   chǎng
chāo   超   510   chāo
cháom   朝   1135   cháo
cháob   潮   1356   cháo
chǎod   吵   1564   chǎo
chāof   抄   1597   chāo
chǎoj   炒   1649   chǎo
cháok   巢   2241   cháo
cháol   嘲   2253   cháo
chāop   钞   2393   chāo
chē   车   106   chē
chèm   彻   1339   chè
chèb   撤   1798   chè
chěd   扯   2144   chě
chèf   澈   2602   chè
chèn   衬   612   chèn
chénem   沉   1179   chén
chéneb   尘   1485   chén
chèned   趁   1581   chèn
chénef   陈   1688   chén
chéneh   臣   1762   chén
chénej   晨   1837   chén
chének   辰   2249   chén
chéng   成   356   chéng
chéngem   城   437   chéng
chéngeb   程   673   chéng
chénged   诚   907   chéng
chéngef   乘   921   chéng
chēngeh   称   1102   chēng
chéngej   承   1143   chéng
chéngek   呈   1906   chéng
chéngel   惩   2017   chéng
chēngep   撑   2191   chēng
chénges   澄   2436   chéng
chénget   橙   2631   chéng
chèngev   秤   2640   chèng
chī   吃   121   chī
chím   迟   570   chí
chíb   持   691   chí
chǐd   尺   1416   chǐ
chíf   池   1483   chí
chǐh   齿   1505   chǐ
chìj   翅   1572   chì
chìk   赤   1938   chì
chìl   斥   2040   chì
chíp   驰   2154   chí
chǐs   耻   2187   chǐ
chǐt   侈   2543   chǐ
chōng   充   1161   chōng
chōngem   冲   1164   chōng
chóngeb   虫   1350   chóng
chǒnged   宠   1630   chǒng
chóngef   崇   1869   chóng
chōu   抽   909   chōu
chǒum   丑   1527   chǒu
chòub   臭   1580   chòu
chóud   愁   1582   chóu
chóuf   绸   1655   chóu
chóuh   仇   1892   chóu
chóuj   筹   1946   chóu
chóuk   酬   2106   chóu
chóul   畴   2414   chóu
chóup   稠   2604   chóu
chū   出   22   chū
chúm   除   452   chú
chǔb   楚   522   chǔ
chùd   处   641   chù
chǔf   础   877   chǔ
chúh   厨   1020   chú
chūj   初   1149   chū
chùk   触   1332   chù
chǔl   储   1886   chǔ
chùp   畜   2118   chù
chuān   穿   293   chuān
chuánem   船   485   chuán
chuáneb   传   682   chuán
chuāned   川   1756   chuān
chuànef   串   2025   chuàn
chuǎneh   喘   2094   chuǎn
chuáng   床   317   chuáng
chuāngem   窗   885   chuāng
chuàngeb   创   1142   chuàng
chuǎnged   闯   1585   chuǎng
chuángef   幢   2366   chuáng
chuī   吹   1387   chuī
chuím   垂   1913   chuí
chuíb   椎   2316   chuí
chuíd   锤   2493   chuí
chuīf   炊   2593   chuī
chūn   春   530   chūn
chúnem   纯   1302   chún
chúneb   唇   2051   chún
chǔned   蠢   2196   chǔn
cì   次   218   cì
cím   词   536   cí
cǐb   此   623   cǐ
cìd   刺   1277   cì
cíf   辞   1415   cí
cíh   慈   1871   cí
cíj   磁   1986   cí
cík   瓷   2237   cí
cíl   雌   2279   cí
cìk   伺   2443   cì
cóng   从   195   cóng
cōngem   聪   586   cōng
cōngeb   匆   1466   cōng
cónged   丛   1947   cóng
còu   凑   2194   còu
cū   粗   951   cū
cùm   促   1293   cù
cùb   醋   1675   cù
cuàn   窜   2319   cuàn
cuì   脆   1548   cuì
cuīm   催   1571   cuī
cuìb   粹   1975   cuì
cuīd   摧   2184   cuī
cún   存   699   cún
cūnem   村   1168   cūn
cùneb   寸   2061   cùn
cuò   错   282   cuò
cuòm   措   1310   cuò
cuòb   挫   2303   cuò
cuōd   搓   2547   cuō
cuōf   磋   2581   cuō
dà   大   17   dà
dǎm   打   85   dǎ
dáb   答   473   dá
dád   达   1078   dá
dāf   搭   2031   dā
dah   瘩   2627   da
dài   带   424   dài
dàim   戴   919   dài
dàib   袋   935   dài
dàid   代   1070   dài
dàif   待   1152   dài
dāih   呆   1368   dāi
dàij   贷   1460   dài
dǎik   逮   2205   dǎi
dǎil   歹   2484   dǎi
dàip   怠   2528   dài
dàn   但   193   dàn
dànem   蛋   336   dàn
dāneb   单   432   dān
dāned   担   503   dān
dànef   弹   780   dàn
dàneh   淡   1351   dàn
dànej   旦   1355   dàn
dǎnek   胆   1373   dǎn
dānel   耽   1657   dān
dànep   诞   2102   dàn
dànes   惮   2634   dàn
dāng   当   360   dāng
dàngem   档   1512   dàng
dǎngeb   挡   1536   dǎng
dǎnged   党   1687   dǎng
dàngef   荡   1850   dàng
dào   到   176   dào
dàom   道   185   dào
dǎob   导   685   dǎo
dàod   倒   773   dào
dāof   刀   884   dāo
dǎoh   岛   1192   dǎo
dàoj   盗   1923   dào
dàok   稻   2352   dào
dǎol   蹈   2398   dǎo
dǎop   捣   2425   dǎo
dāos   叨   2466   dāo
dàot   悼   2503   dào
de   的   1   de
dém   得   182   dé
deb   地   348   de
déd   德   1074   dé
děng   等   213   děng
dēngem   灯   557   dēng
dēngeb   登   831   dēng
dènged   瞪   2127   dèng
dēngef   蹬   2597   dēng
dì   第   200   dì
dìm   弟   295   dì
dǐb   底   748   dǐ
dīd   低   767   dī
díf   敌   1120   dí
dìh   递   1438   dì
dīj   滴   1525   dī
dìk   帝   1691   dì
dǐl   抵   1758   dǐ
dìp   蒂   1851   dì
dīs   堤   2322   dī
dìt   缔   2408   dì
diǎn   点   64   diǎn
diànem   电   88   diàn
diàneb   店   161   diàn
diǎned   典   547   diǎn
diànef   殿   1901   diàn
diāneh   颠   2168   diān
diànej   垫   2378   diàn
diànek   奠   2397   diàn
diànel   淀   2562   diàn
diànep   惦   2641   diàn
diào   调   433   diào
diàom   掉   843   diào
diàob   钓   1617   diào
diāod   雕   2022   diāo
diàof   吊   2128   diào
diāoh   叼   2639   diāo
dié   蝶   1618   dié
diēm   跌   1912   diē
diéb   叠   2229   dié
diéd   谍   2284   dié
dìng   定   361   dìng
dǐngem   顶   1256   dǐng
dìngeb   订   1322   dìng
dīnged   丁   1771   dīng
dīngef   盯   2062   dīng
dīngeh   钉   2228   dīng
dīngej   叮   2384   dīng
diū   丢   985   diū
dōng   东   78   dōng
dòngem   动   190   dòng
dǒngeb   懂   326   dǒng
dōnged   冬   573   dōng
dòngef   洞   1259   dòng
dòngeh   冻   1584   dòng
dǒngej   董   1927   dǒng
dòngek   栋   2421   dòng
Название: Китайские иероглифы латиницей
Отправлено: l-d-p от января 25, 2019, 19:21
Это, как вариант, я попробовал сделать базу на основе 2663 иероглифов HSK. Берутся последовательно все 6 уровней HSK, причём каждый из уровней ранжируется по частотности. В результате каждому из цзы приписывается некий HSK-ранг. Далее сортируем по алфавиту и для каждого слога делаем сортировку по этому HSK-рангу. Далее, как обычно, добавляем кодировку.
Вывод таков, что большой разницы с базой, построенной чисто на основе частотного словаря, не наблюдается. Для примера приведём те же предложения, что и раньше:

我们的汉语老师是中国人。
Пиньинь:
Wǒmen de hànyǔ lǎoshī shì zhōngguó rén.
Cистема на основе частотного словаря:
Women de hanyum laoship shi zhongguo ren.
HSK-система:
Women de hanyu laoshid shi zhongguo ren.
Перевод:
Наш учитель китайского – китаец.


我爱你。
Wǒ ài nǐ.
Wo ai ni.
Wo ai ni.
Я тебя люблю.


她爱她的爸爸。
Tā ài tā de bàba.
Tam ai tam de bafbaf.
Ta ai ta de bambam.
Она любит своего папу.


我爱我的妈妈。
Wǒ ài wǒ de māmā.
Wo ai wo de mabmab.
Wo ai wo de mammam.
Я люблю свою маму.


电影快开始了。
Diànyǐng kuài kāishǐ le.
Dianem-yingeb kuai kai-shiw le.
Dianem-ying kuaim kai-shib le.
Фильм скоро начнётся.


我们赶紧吧。
Wǒmen gǎnjǐn ba.
Women ganed-jinej bab.
Women ganed-jinek bad.
Давай поторапливаться.


等一下。
Děng yí xià.
Deng yi xia.
Deng yi xia.
Подожди чуток.


我去买点儿零食。
Wǒ qù mǎidiǎnr língshí.
Wo qu maidianr lingef-shizep.
Wo qu maidianr ling-shizep.
Я схожу подкуплю еды.


那你快点儿。
Nà nǐ kuàidiǎnr.
Na ni kuaidianr.
Na ni kuaidianr.
Тогда быстрей.


你要吃什么?
Nǐ yào chī shénme?
Ni yao chim shenme?
Ni yao chi shenme?
Ты что-нибудь будешь есть?


爆米花和可乐。
Bàomǐhuā hé Kělè.
Baoj-mi-huab he Kelem.
Baol-mi-huab he kem-lem.
Попкорн и колу.


好的,马上回来。
Hǎo de, mǎshàng huílái.
Hao de, mashang huim-lai.
Hao de, mab-shang huim-lai.
Хорошо, сейчас вернусь.