Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Вопросы по китайскому языку

Автор Vairuss, августа 23, 2009, 01:46

0 Пользователи и 1 гость просматривают эту тему.

Iyeska

Цитата: rafa от января  5, 2012, 14:34
интересует список и объем лексики

те слова языка что кодируются только одним иероглифом

есть ли отдельный словарь


насколько я понимаю в древнем китайском были только такие слова?
Рафа, не нужно отдельную тему заводить для подобных вопросов, пожалуйста!
Словари есть, разумеется. Возьмите любой словарь классического китайского языка. Можно и тот же четырёхтомник большой китайско-русский взять, и читать изначальное значение каждого иероглифа. Как-то так.
The trick, William Potter, is not minding that it hurts.

rafa

спасибо конечно же

но спрашиваю я только лишь потому что не желательно таратить время когда тут куча знающих китайский легко скажут мне и путь и ссыльку и объем лексики и вобще почему это меня мучает и откуда у таких вопросов руки растут, и до каких пор, и в конце концев аминь

Iyeska

Цитата: rafa от января  5, 2012, 16:27
спасибо конечно же

но спрашиваю я только лишь потому что не желательно таратить время когда тут куча знающих китайский легко скажут мне и путь и ссыльку и объем лексики и вобще почему это меня мучает и откуда у таких вопросов руки растут, и до каких пор, и в конце концев аминь
Сомневаюсь, что кто-то вам точно скажет объём лексики...
The trick, William Potter, is not minding that it hurts.

rafa

я подозреваю что есть словарь с такими только иероглифами или примерная оценка их числа
я даже гдето когда то читал про это но увы забыл


Iyeska

Цитата: rafa от января  5, 2012, 16:40
я подозреваю что есть словарь с такими только иероглифами или примерная оценка их числа
я даже гдето когда то читал про это но увы забыл
Так а толку-то? Через год выйдет другой, где уже другое количество будет, через два - ещё один, и так далее... Когда-то (ещё совсем недавно!) на словарь Канси все молились, как на самый большой по количеству иероглифов. А сейчас уже чуть ли не в четыре раза больше выпустили. Китайские филологи на месте не стоят :yes:
The trick, William Potter, is not minding that it hurts.

rafa

ну незнаю,,

мне кажется что одноиероглифная лексика древнего языка китая о которой я спрашиваю  таки уже фиксирована

Iyeska

Цитата: rafa от января  5, 2012, 16:53
ну незнаю,,

мне кажется что одноиероглифная лексика древнего языка о которой я спрашиваю китая таки уже фиксирована
Ну, тогда убедитесь в обратном. Практически невозможно полностью фиксировать всю лексику языка с почти трёхтысячелетней письменной историей.
The trick, William Potter, is not minding that it hurts.

Dims

По поводу вот этого проектика: Базы данных по иероглифам?

Поскольку я в китайском новичок, хотелось бы оценить работу программы на наличие грубых ошибок, в частности, на количество соответствий.

Скачал частоты символов отсюда: http://lingua.mtsu.edu/chinese-computing/statistics/char/list.php?Which=TO
Таблица озаглавлена "Combined character frequency list of Classical and Modern Chinese".

Правильно ли я понимаю, что в этой таблице есть как традиционные, так и упрощённые иероглифы, несмотря на то, что кодировка страницы gb2312 озаглавлена в браузере как "simplified"?

В таблице примерно 12000 иероглифов.

Дальше я прочитал базу Унихань и взял оттуда транскрипции пиньинь. У меня получилось, что примерно по 9000 из ранее скачанных есть транскрипция, а в 11000 случаях трансрипции были даны по каким-то новым иероглифам, отсутствовавшим в первой таблице. Бывают ли вообще иероглифы без транскрипции пиньинь? Может ли такое быть, что в частотной таблице есть иероглифы, по которым в базе Унихань нет транскрипции?

В сумме у меня получилось  примерно 1200 уникальный транскрипций. Реалистичное ли это число, то есть, в мандаринском диалекте существует примерно 1200 слогов?

Далее я взял из базы Унихань соответствия традиционного и упрощённого написания. Оказалось, что всего таких соответствий около 1300. Может ли такое быть, что всего 1300 иероглифам придумали упрощённое написание?

При этом оказалось, что только 800 из этих иероглифов были в частотной таблице. То есть, получается, что упрощённое написание затронуло несколько сотен очень редких иероглифов. Может ли такое быть?

Спасибо.






Demetrius

В Вашей таблице традиционные иероглифы заменили упрощёнными, используя, видимо, словарь CEDICT (какую-то из старых версий).

Те иероглифы, которых не было в той версии словаря (訓, 謜, 譊), в таблице оставили в традиционном начертании. Все остальные привели к упрощённому.

На Вашем месте я бы не очень доверял этой таблице.

Да и вообще, в этой таблице сбросили тексты на классическом и современном китайском. Это примерно как сложить в одну кучу латынь и французский и на основе этого считать частоту. Это плохая, негодная таблица. :down:

Цитата: Dims от января  7, 2012, 21:32
Бывают ли вообще иероглифы без транскрипции пиньинь?
Смотря что считать иероглифом и что считать транскрипцией. ;D Например, свастика—это иероглиф? А у неё есть транскрипция...

С другой стороны, транскрипция эта притянута за уши (императрица У Цзэтянь решила, что счастье состоит из мириад вещей, поэтому свастика, символ счастья, должна читаться так же, как и слово «мириады»).

Цитата: Dims от января  7, 2012, 21:32
В сумме у меня получилось  примерно 1200 уникальный транскрипций. Реалистичное ли это число, то есть, в мандаринском диалекте существует примерно 1200 слогов?
По-моему реалистичное. Только говорите «в путунхуа», а не «в мандаринском диалекте», а то придёт злой Iyeska и скажет, что это неправильно. ;D

Dims

Цитата: Demetrius от января  7, 2012, 23:55
В Вашей таблице традиционные иероглифы заменили упрощёнными, используя, видимо, словарь CEDICT (какую-то из старых версий).
В какой именно? В первой?

ЦитироватьТе иероглифы, которых не было в той версии словаря (訓, 謜, 譊), в таблице оставили в традиционном начертании.
Значит, кодировка gb2312 позволяет-таки представлять традиционные иероглифы?

ЦитироватьЭто примерно как сложить в одну кучу латынь и французский и на основе этого считать частоту. Это плохая, негодная таблица.
Ну, смотря для каких целей. Если такое сваливание в кучу увеличит частоты старинных иероглифов, то по мне это даже лучше.

Цитировать
Цитата: Dims от января  7, 2012, 21:32
Бывают ли вообще иероглифы без транскрипции пиньинь?
Смотря что считать иероглифом и что считать транскрипцией. ;D
Перечислите плиз основные возможные комбинации и дайте ответ для каждой :)

Demetrius

Цитата: Dims от января  8, 2012, 00:06
Цитата: Demetrius от января  7, 2012, 23:55
В Вашей таблице традиционные иероглифы заменили упрощёнными, используя, видимо, словарь CEDICT (какую-то из старых версий).
В какой именно? В первой?
:fp: А я-то откуда знаю? Спрашивайте у авторов таблицы, с помощью чего они её строили.

Цитата: Dims от января  8, 2012, 00:06
Значит, кодировка gb2312 позволяет-таки представлять традиционные иероглифы?
Не знаю. Гуглите сами. На худой конец, это же HTML: там и &#dddd; сделать можно.

Цитата: Dims от января  8, 2012, 00:06
ЦитироватьЭто примерно как сложить в одну кучу латынь и французский и на основе этого считать частоту. Это плохая, негодная таблица.
Ну, смотря для каких целей. Если такое сваливание в кучу увеличит частоты старинных иероглифов, то по мне это даже лучше.
Чем лучше? Тогда считайте, что появление всех иероглифов равновероятно. Это будет ещё «лучше».

Цитировать
Перечислите плиз основные возможные комбинации и дайте ответ для каждой :)
:fp:
Комбинации «чего»? Дайте определение, что такое иероглиф. Свастика—это иероглиф? А кружочек? А 丶? А 亻? А 亠? А ♥?

А если я скажу, что в русском для «*» транскрипцией будет [зв'о́здъчкъ], будет ли это её транскрипцией? А в китайском, с учётом того, что граница между иероглифом и знаком размыта?

Скажите, что Вы подразумеваете под иероглифом и под транскрипцией, и я скажу, бывают ли иероглифы без транскрипции.

Dims

Цитировать
Чем лучше? Тогда считайте, что появление всех иероглифов равновероятно. Это будет ещё «лучше».
Я так не думаю.

Цитировать
Цитировать
Перечислите плиз основные возможные комбинации и дайте ответ для каждой :)
:fp:
Комбинации «чего»?
Того, что Вы перечислили.

ЦитироватьДайте определение, что такое иероглиф. Свастика—это иероглиф? А кружочек? А 丶? А 亻? А 亠? А ♥?
Вы сами дайте определение и по нему дайте ответ. Если знаете.

ЦитироватьА если я скажу, что в русском для «*» транскрипцией будет [зв'о́здъчкъ], будет ли это её транскрипцией?
Ну я тогда просто пойму, что Вы не в себе и буду соответствующим образом относиться к Вашим советам.

Цитировать
Скажите, что Вы подразумеваете под иероглифом и под транскрипцией, и я скажу, бывают ли иероглифы без транскрипции.
Если Вы разбираетесь в вопросе, то сами и скажите, что подразумевается под иероглифом и по этому определению и дайте ответ. Я -- новичок. Что получится, если я сам буду давать какие-то определения? Вдруг я скажу, что иероглифами являются табуретки? Вы мне тогда скажете, что табуретки бывают без транскрипции? Это будет тогда просто идиотский разговор.

Demetrius

Некоторым вещам нельзя дать однозначное определение.

Кто-то считает свастику иероглифом, кто-то нет. В каких-то словарях её найти можно, в каких-то нет. Кто-то считает иерглифом кружочек, а кто-то считает его условным обозначением, заменяющим иероглиф 零.

Это примерно как слово в лингвистике. Там такие же проблемы: есть понятие, но нет определения.

Цитата: Dims от января  8, 2012, 00:50
Цитировать
Чем лучше? Тогда считайте, что появление всех иероглифов равновероятно. Это будет ещё «лучше».
Я так не думаю.
Гм... А в чём, собственно, смысл определения частоты иероглифов, которая не соответствует их реальному употреблению? Я действительно не понимаю.

Цитата: Dims от января  8, 2012, 00:50
Цитировать
Комбинации «чего»?
Того, что Вы перечислили.
Не помню, чтобы я что-то перечислял.

Цитата: Dims от января  8, 2012, 00:50
ЦитироватьА если я скажу, что в русском для «*» транскрипцией будет [зв'о́здъчкъ], будет ли это её транскрипцией?
Ну я тогда просто пойму, что Вы не в себе и буду соответствующим образом относиться к Вашим советам.
В Оксфордском словаре есть слово ♥. Его составители тоже были не в себе?

Цитата: Dims от января  8, 2012, 00:50Я -- новичок. Что получится, если я сам буду давать какие-то определения? Вдруг я скажу, что иероглифами являются табуретки? Вы мне тогда скажете, что табуретки бывают без транскрипции? Это будет тогда просто идиотский разговор.
Более идиотским он уже не станет. ;D


Dims

Цитата: Demetrius от января  8, 2012, 01:27
Некоторым вещам нельзя дать однозначное определение.
Тогда зачем Вы просили меня его дать???

Dims

Цитата: Demetrius от января  8, 2012, 01:27
В Оксфордском словаре есть слово ♥. Его составители тоже были не в себе?
Наоборот. Они просто отражают реальную ситуацию, так как люди пишут "я ♥ Нью Йорк". Вполне разумное действие.

Dims

Не пойму, почему у некоторых иероглифов в базе Унихань нет транскрипции пиньинь?

Например,

http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=8FD9
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=4EEC

Чем отличается поле пиньинь, озаглавленное как "The 漢語拼音 Hànyǔ Pīnyīn reading(s) appearing in the edition of 《漢語大字典》 Hànyǔ Dà Zìdiǎn" от поля мандарин, озаглавленное, как "The Mandarin pronunciation(s) for this character in pinyin"? В тех случаях, когда присутствуют оба поля, они должны обозначать одинаковое произношение или нет?




Neeraj



Alone Coder

Цитата: Demetrius от января  8, 2012, 01:27
В Оксфордском словаре есть слово ♥.
Разве первый? А как же &, @, #?
Кстати, на каком порядке он по алфавиту?

Деметривс

Offtop
Цитата: Dims от января  8, 2012, 08:31
Цитата: Demetrius от января  8, 2012, 01:27
Некоторым вещам нельзя дать однозначное определение.
Тогда зачем Вы просили меня его дать???
Ну, от того, что тоное определение дать невозможно, не значит, что нельзя дать никакого. ;D Например, по-русски можно сказать «слово—то, что на письме разделяется пробелами» или «то, у чего одно ударение». Вот если бы было какое-нибудь упрощённое понимание иероглифа и транскрипции, можно было бы и ответить на вопрос.

Цитата: Hellerick от января  8, 2012, 11:40
Цитата: Neeraj от января  8, 2012, 11:31
Цитата: Dims от января  7, 2012, 21:32
Бывают ли вообще иероглифы без транскрипции пиньинь?
Например этот http://imageshack.us/photo/my-images/6/mdbgenglishchinesedicti.png/

shū
Эти корейцы что-то напутали. У должна быть транскрипция в путунх. tuan1.

А вообще, это зависит от того, что понимать под транскрипцией. Если считать, что транскрипция иероглифов может бытьв несколько слого, тогда просто обявляем, что транскрипция у 圕 túshūguǎn.

И вообще, см. (wiki/en) Typographical_ligature#Chinese_ligatures

Dims

Цитата: Деметривс от января  8, 2012, 14:23
Ну, от того, что тоное определение дать невозможно, не значит, что нельзя дать никакого. ;D Например,
Отлично. Ну дайте тогда, в чём проблема-то? :)

Neeraj


Деметриус

Цитата: Dims от января  8, 2012, 15:22
Цитата: Деметривс от января  8, 2012, 14:23
Ну, от того, что тоное определение дать невозможно, не значит, что нельзя дать никакого. ;D Например,
Отлично. Ну дайте тогда, в чём проблема-то? :)
:wall:
При узком принимании иероглифов ответ: у всех иероглифов есть транскрипция.
При широком принимании иероглифов и узком понимании транскрипции ответ: бывают иероглифы без транскрипции.
При широком принимании иероглифов и широком понимании транскрипции ответ: у всех иероглифов есть транскрипция.

Вообще, да, у всех иероглифов есть транскрипция. Но иногда она притянута за уши: иногда это может чтение фонетической части иероглифа (например, чтение 圕 как шу1; особенно часто такое практикуется с японскими иероглифами), иногда транскрицпия выдумана составителями словарей (например, 圕 читается тушугуань; составители словаря решили, что надо сделать односложным и написали туань), иногда транскрипция является не столько чтением, сколько названием знака, хотя в словаре и даётся как транскрипция (как в случае с точкой и другими кусками иероглифов, самостоятельно не употребляющихся; по сути это примерно как [зв'о´здъчкъ], но в китайские словари такое иногда включается), иногда транскрипция из нескольких слогов (как 圕 тушугуань).

С другой стороны, а 圕—это вообще иероглиф? Или условный знак? А как определить границу между иероглифами и условными знаками? Если считать, что «условный знак—знак, который заменяет иероглиф или иероглифы», то можно все упрощённые формы в условные знаки записать.

Ну, вы понимаете ситуацию. Если в русском границу между * и словами можно провести за счёт наличия алфавита, то в китайском такой границы нет.

Deme

:wall:

Представьте, что для базы русских существительных есть поля «род» и «род в словаре Ожегова такого-то года издания». И представьте, как там будет отмечено слово «кофе».

кофе
род: средний, мужской
род в словаре Ожегова такого-то года издания: мужской

А чтений в базе унихань нету, потому что она неполная. Как и любая база.

Хотя в БД унихань есть лишние чтения. Например, "луна" никогда не читается ru4.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр