Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Базы данных по иероглифам?

Автор Dims, октября 19, 2011, 12:08

0 Пользователи и 1 гость просматривают эту тему.

Dims

Пардон, я чайник, прошу ногами не пинать.

Хочу написать программу-зубрилку китайских иероглифов. Если такие программы существуют -- тоже хотелось бы знать :)

Идея программы основана на опыте подготовки к экзаменам в институте, когда с помощью простых карточек, у которых на одной стороне написан вопрос, а на другой ответ, мне удавалось запомнить (тупо) любое количество материала. С помощью таких карточек я выучивал формулы, знаки числа Пи и многое другое. Знаю, что программы-карточки существуют в большом количестве, но мне бы хотелось внести некоторые усовершествования.

В общем, нет ли где базы, в которой бы ставилось в соответствие, в первую очередь, три вещи: традиционное начертание иероглифа, упрощённое написание и транскрипция пиньинь. Хотелось бы, чтобы в базе была не картинка с иероглифом, а векторное его представление. Можно отсылку к шрифту или чему-то подобному. Интересно, традиционные и упрощённые символы имеют Юникод-коды?

Ещё было бы интересно знать частотность встречания иероглифов, их произношение. Если есть соответствие с японским и корейским, то тоже. Догадываюсь, что это было бы слишком жирно :)

В общем, хотелось бы автоматизировать зубрёжку не только в сторону узнавания иероглифа и вспоминания его транскрипции  (аналог пассивной памяти на слова?), но и наоборот , вспоминание иероглифа на основании его транскрипции.

Если сделать такую программу на сайте, то она могла бы запоминать частые ошибки и провоцировать испытуемого на них, то есть, допустим, когда спрашивается какой-то иероглиф, выдавать много похожих и в разном написании.

Demetrius

Цитата: Dims от октября 19, 2011, 12:08
Хочу написать программу-зубрилку китайских иероглифов. Если такие программы существуют -- тоже хотелось бы знать :)
Вагон и целая тележка.

Универсальные:
http://www.mnemosyne-proj.org/
http://ankisrs.net/

(карточки любые, можно создать их в текстовом файле программно и импортировать, а можно добавлять нужные слова прямо в программе)

Hellerick

А такое не устраивает?: http://www.zein.se/patrick/3000char.html

(Правда, не знаю, как экспортировать йероги в векторном виде, только в растровом.)

Offtop
Лично мне «карточный» метод помогает учиться узнавать лишь символы на карточках. Для того, чтобы учиться узнавать символы в тексте, мне нужно практиковать именно работу с текстами.

Demetrius

Здесь и далее в моём посте транскрицпия иероглифов даётся по кантонскому диалекту в йельской системе, если не указано иное.

Насчёт баз данных. Тут проблема в том, что нет однозначных соответствий.

То есть:
1) одному иероглифу может соответствовать несколько чтений:
1а) чтения могут быть просто разными словами (хотя обычно однокоренными), записанными одинм иероглифом: например, 中 jūng «середина», 中 jung «попадать в цель»;
1б) чтения могут различаться по стилю: например, 車/车 «транспортное средство на колёсах, колесница, телега, машина» читается 車 chē в современных текстах и 車 gēui в классическом китайском; (в путунхуа, транскрипция пиньинем) 血 xuè «кровь» в литературе, 血 xiě «кровь» в разговорном стиле.
1в) чтения могут быть различаться территориально: например, (в путунхуа/гоюе, транскрипция пиньинем) 和 hé «и, гармония» на материке и 和 hàn «и, гармония» на Тайване;
2) одному упрощённому иероглифу может соответствовать несколько традиционных: например, упрощённому 后 hauh «сзади, императрица» соответствуют традиционные 後 hauh «сзади» и 后 hauh «императрица»;
3) в сочетаниях иероглиф может читаться не так, как по отдельности: например, в кантонском 中 jūng + 文 màhn = 中文 Jūngmán.

Всё вышесказанное затрудняет создание баз данных с иероглифами.

Цитировать
В общем, нет ли где базы, в которой бы ставилось в соответствие, в первую очередь, три вещи: традиционное начертание иероглифа, упрощённое написание и транскрипция пиньинь.
Я знаю два основных варианта.

CC-EDICT
Можно использовать словарь CC-СEDICT. Мне кажется, это идеальный вариант в вашем случае. В отличие от БД Унихань, это словарь слов, а не иероглифов, но это и к лучшему: сразу можно посмотреть, в каком контексте как что читается.

В словаре есть запись упрощёнными, традиционными иероглифами и чтение в путунхуа.


БД Унихань
Самым банальным использованием является база данных Унихань, составляемая консорциумом уникода. Её можно взять здесь: http://www.unicode.org/Public/UNIDATA/Unihan.zip.

БД Унихань неудобна, как ни странно, в силу своего гигантского объёма. Она включает всё, что можно, в частности заведомо ошибочные написания, диалектные написания, написания из названий местностей и так далее.

Например, для 月 «луна» в путунхуа даны чтения 月 yuĕ, 月 rǔ; я не знаю, откуда откопали чтение 月 rǔ, но в реальных текстах Вы его точно не встретите.

Для 愛 oi «любовь» дано также чтение 愛 ngoi. На самом деле, в разговорном кантонском ng- в начале слов пропадает. Поэтому в официальном стиле кантонцы не всегда знаю, где употреблять ng-, а где нет, и иногда делают такую ошибку. Вы хотите заучитьвать заведомо ошибочные написания? Вот в том-то и дело.

(Проблема усложняется тем, что это практически единственно свободно доступная БД с кантонскими чтениями. Есть ещё онлайн-словари, но их нельзя скачать.)

Borovik

Цитата: Dims от октября 19, 2011, 12:08
Если такие программы существуют -- тоже хотелось бы знать :)
И для японского тоже подкиньте адресочек плиз, что знает.

Dims

Цитата: Demetrius от октября 19, 2011, 12:29
(карточки любые, можно создать их в текстовом файле программно и импортировать, а можно добавлять нужные слова прямо в программе)
Сама программа слишком проста и потому малоценна. Важны карточки. Есть у этих программ карточки именно с иероглифами?

Dims

Цитата: Hellerick от октября 19, 2011, 13:02
А такое не устраивает?: http://www.zein.se/patrick/3000char.html
Спасибо, устраивает. Только надо разобраться. Например, почему иногда в скобках даётся традиционная форма, а иногда упрощённая? Можно ли считать, что вне скобок даётся "остальная" форма, то есть, если в скобках упрощённая, значит, вне скобок -- традиционная? Если нет скобок, значит во всех формах иероглиф выглядит одинаково?

Почему у одного иероглифа может быть по несколько транскрипций?

Представляет ли численная нумерация иероглифов на этой странице какой-либо стандарт? Или это просто упорядоченность по статистике, вычисленная самим автором? Иными словами, если я знаю иероглиф 1282, смогу ли я найти его в других базах по этому номеру?

Demetrius

Про базы с чтениями

ЦитироватьХотелось бы, чтобы в базе была не картинка с иероглифом, а векторное его представление. Можно отсылку к шрифту или чему-то подобному.
Как БД Унихань, так и CC-CEDICT, используют уникод.

Если шрифт в какой-то другой кодировке, в БД Унихань есть коды и других кодировок.

ЦитироватьМожно отсылку к шрифту или чему-то подобному. Интересно, традиционные и упрощённые символы имеют Юникод-коды?
Да, упрощённые и традиционные иероглифы в большинстве случаев разные коды.

Хотя если символы отличаются чуть-чуть, они всё-таки получают один и тот же код. Например, в иероглифе 草 chóu «трава» верхняя часть в традиционном начертании выглядит как два плюсика ++, а в упрощённом как горизонтальная черта, дважды перечёркнутая.

Цитировать
Ещё было бы интересно знать частотность встречания иероглифов
Сам не качал, так как в интернете все списки по путунхуа, а я начинал учить вэньянь, а потом переключился на кантонский.

Но вот что нашёл в интернете:
http://corpus.leeds.ac.uk/query-zh.html (в текстовом формате)
http://lingua.mtsu.edu/chinese-computing/statistics/char/list.php?Which=MO (HTML)
http://sourceforge.net/projects/libtabe/ (библиотека)
http://yong321.freeshell.org/misc/ChineseCharFrequency.html

Цитировать
их произношение.
Практически все словарь содержат произношение в путунхуа. Произношения в других диалектах надо искать.

Скачиваемые:
В БД Унихань есть кантонский, но только для отдельных иероглифов.
Кантонские чтения целых слов можно найти тут: http://www.eguidedog.net/cantonese.php
В библиотека cjklib есть шанхайский (там у них БД на основе sqlite, достаточно просто экспортировать).

Онлайн:
У старостина есть реконструкции древнекитайского: http://starling.rinet.ru/cgi-bin/response.cgi?root=config&morpho=0&basename=\data\china\bigchina&first=1
Там же есть произношения по диалектам: http://starling.rinet.ru/cgi-bin/response.cgi?root=config&morpho=0&basename=\data\china\doc&first=1
Есть кантонский словарь CantoDict: http://cantonese.sheik.co.uk/dictionary/
Миньнань есть, но уже не успеваю поискать.

ЦитироватьЕсли есть соответствие с японским и корейским, то тоже. Догадываюсь, что это было бы слишком жирно :)
Соответствия японскому и корейскому есть в БД Унихань. Но, опять-таки, без каких-либо помет...

Для японского ещё можно использовать KanjiDic. Но стоит обратить внимание, что некоторые иероглифы в японском пишутся по-другому.

Например: hei «воздух, ци (энергия)» традиционный 氣, упрощённый 气, японский 気. Часто такие японские можно найти, выполнив поиск по CC-CEDICT со словами «Japanese variant».

В корейском нормальные традиционные иероглифы, там как раз без сюрпризов.

Цитировать
Если сделать такую программу на сайте, то она могла бы запоминать частые ошибки и провоцировать испытуемого на них, то есть, допустим, когда спрашивается какой-то иероглиф, выдавать много похожих и в разном написании.
Для похожих можно использовать базу данных по разбиениям иероглифов на компоненты. Если честно, я не знаю, где брат такую базу данных, но open-source библиотека cjklib умеет такое. Код открытый, так что можете посмотреть, как они это делают.

Цитировать
В общем, хотелось бы автоматизировать зубрёжку не только в сторону узнавания иероглифа и вспоминания его транскрипции  (аналог пассивной памяти на слова?), но и наоборот, вспоминание иероглифа на основании его транскрипции.
По-моему такие программы уже есть. Если честно, я особо не интересовался, но по-моему они есть. Да даже DimSum такое умеет.

Demetrius

Цитата: Dims от октября 19, 2011, 13:28
Цитата: Demetrius от октября 19, 2011, 12:29
(карточки любые, можно создать их в текстовом файле программно и импортировать, а можно добавлять нужные слова прямо в программе)
Сама программа слишком проста и потому малоценна. Важны карточки. Есть у этих программ карточки именно с иероглифами?
Конечно есть (правда, вряд ли на русском). Посмотрите на сайте Анки и Мнемосины же. Да и не только там есть. Гугль в помощью

Кстати, готовые карточки не очень эффективны. Гораздо больший эффект, когда человек сам их делает.

Dims

Цитата: Demetrius от октября 19, 2011, 13:04
Тут проблема в том, что нет однозначных соответствий.
А это, может, и хорошо. По моему мнению (чайниковскому) проблема в том, чтобы узнавать сам иероглиф (вспоминать его и всё, что с ним ассоциируется). Поэтому, чем больше неоднозначности, тем лучше.

ЦитироватьВсё вышесказанное затрудняет создание баз данных с иероглифами.
Конечно, эти тонкости хорошо было бы просто указать в базе!  :umnik:

ЦитироватьМожно использовать словарь CC-СEDICT.
Чё-то ссылка нерабочая.

ЦитироватьВы хотите заучитьвать заведомо ошибочные написания?
Я не уверен, может, и хочу. Я пытаюсь проходить уроки по программе Rosetta, отключил пиньинь и заметил, что проблема просто в том, что я ЗАБЫВАЮ иероглифы. То есть, я знаю, что существует скажем, иероглиф отрицания (прошу прощения за возможный бред, программа Rosetta построена таким образом, что ты сам догадываешься до значений, поэтому тут возможны глюки), но не могу по своему желанию вспомнить, как он выглядит.

Это совсем не похоже на изучение буквенного языка по той же программе -- там я почти всегда помню, как пишется слог.

И я подумал, что если бы в моём мозгу образовалась бы тупо узнавалка иероглифов, даже без их понимания, то на этой основе изучать было бы легче.

Demetrius


hodzha

Цитата: Dims от октября 19, 2011, 12:08
Пардон, я чайник, прошу ногами не пинать.

Хочу написать программу-зубрилку китайских иероглифов. Если такие программы существуют -- тоже хотелось бы знать :)

Идея программы основана на опыте подготовки к экзаменам в институте, когда с помощью простых карточек, у которых на одной стороне написан вопрос, а на другой ответ, мне удавалось запомнить (тупо) любое количество материала. С помощью таких карточек я выучивал формулы, знаки числа Пи и многое другое. Знаю, что программы-карточки существуют в большом количестве, но мне бы хотелось внести некоторые усовершествования.

Использую бесплатную программку-тест StarChineese HSK level 1. Иероглиф, пиньинь, перевод на английский, есть возможность прослушать звучание. Очень нравится тест на знание иероглифов - выбор из 4х вариантов, сразу показывает правильно ты ответил или нет. Воспринимается как игра, где задача набрать побольше очков выбирая правильные иероглифы. Именно этот тест использую, чтобы понемногу учить иероглифы. Главный минус - английский, а не русский перевод, а также очень ограниченный набор иероглифов для левела 1 (бесплатная версия программы).

кстати, вот она - http://ru.androidzoom.com/android_applications/education/star-chinese-hsk-level-2_bchsc.html

вот еще одна, Xiaoma Hanzi, которую тоже очень хотелось бы, чтобы перевели на русский или сделали нечто подобное - http://ru.androidzoom.com/android_applications/books_and_reference/xiaoma-hanzi-chinese-character_njlx.html

taqseem

я учу по первой книге RTH. (wiki/en) Remembering_the_Kanji

соответствующий Anki deck имеется в свободном доступе.

http://chinesequest.blogspot.com/2009/10/heisig-files-part-iii-master-list.html

там около 1500 иерогов. вторая книга выйдет (очень надеюсь) в следующем году с приблизительно таким же количеством знаков.
остальные можно добрать из частотных списков (см. ссылку выше)

Neeraj

Может быть полезным книга :
Фонетический словарь китайских иероглифов. Китайское, вьетнамское, корейское и японское чтения. Сост. С.Ф. Ким. Отв. ред. Л.Р. Концевич. М. Наука. 1983г.
Словарь является первым опытом многоязычного сравнительного словаря чтений свыше 3300 наиболее употребительных китайских иероглифов, обозначающих общие корни в 4-х языках. В нем дан свод современных чтений иероглифов в латинской транскрипции, в китайском (общенациональном языке и диалектах - гуанчжоуском и сучжоуском), корейском, вьетнамском (впервые в отечественных словарях) и японском языках. Приведена также реконструкция чтений в среднекитайском языке. Словарь снабжен многочисленными таблицами и указателями, облегчающими поиски иероглифов и их чтений на любом из этих языков.

Demetrius

Цитата: Neeraj от октября 23, 2011, 19:13
Может быть полезным книга
А оно есть в электронном виде?

Частотные словари есть тут:
http://technology.chtsai.org/wordlist/

Словари южноминьского диалекта:
http://www.taiwanesedictionary.org/ (скачиваемые англо-южноминьский и южноминьско-английский словари, но версия для Excel'а с ошибками, а хорошая версия в PDF'е, не распознанная)
http://210.240.194.97/iug/ungian/SoannTeng/chil/taihoa.asp (онлайн-словарь)
http://twblg.dict.edu.tw/holodict_new/index.htm (онлайн-словарь от минобразования КР)

Neeraj

Цитата: Demetrius от октября 24, 2011, 09:57
Цитата: Neeraj от октября 23, 2011, 19:13
Может быть полезным книга
А оно есть в электронном виде?
В электронном не встречал. В продаже есть несколько экземпляров на //alib.ru


Hellerick

Кстати, я с сайта UniHan'а выдрал кучу интересной информации об иероглифах:

https://docs.google.com/spreadsheet/ccc?key=0Ar-7Gfwe5wFhdGt3RVRtZ1ctWWlvTE02U0E2Um9yS0E

Теперь не знаю, что с нею дедать.

Bhudh

Цитата: Размер таблицы почти достиг максимального
Эка как!
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Demetrius

Цитата: Hellerick от ноября 29, 2011, 19:53
Кстати, я с сайта UniHan'а выдрал кучу интересной информации об иероглифах:
Извините... а зачем? Это же и так есть в easily parsable plain-text format'е. А для желающих был и проект, где в БД SQLite это запихивали.

Hellerick

Цитата: Demetrius от ноября 30, 2011, 04:29
Извините... а зачем? Это же и так есть в easily parsable plain-text format'е. А для желающих был и проект, где в БД SQLite это запихивали.

Easily parsable plain-text нигде не видел, хотя и html, по-моему, вполне easily parsable.

Хотел сделать из этого табличку для Лингвовики, но не придумал, какую именно.

Demetrius

Цитата: Hellerick от ноября 30, 2011, 11:40
Easily parsable plain-text нигде не видел
См. 4 пост в этой теме. :wall:

Цитироватьхотя и html, по-моему, вполне easily parsable.
Тогда уж и RTF, и ODT...

ЦитироватьХотел сделать из этого табличку для Лингвовики, но не придумал, какую именно.
Нафиг? И так этот Унихань уже где только нет.

Hellerick

Цитата: Demetrius от ноября 30, 2011, 11:45
Цитата: Hellerick от ноября 30, 2011, 11:40
Easily parsable plain-text нигде не видел
См. 4 пост в этой теме. :wall:

Я свою составил несколько раньше. Когда речь у нас зашла о ЛингвоКоде, и я задумался об альтернативной кодировке иероглифов.

Demetrius

Лучше бы Вы базу CantoDict'а скачали. ::)

Или тайваньского словаря... ::)

Кстати, я свой ЛингвоКод тетто забросил, не дописав. Непорядок.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр