Каково соответствие между традиционными и упрощёнными иероглифами?

Автор Dims, января 7, 2012, 23:30

0 Пользователи и 1 гость просматривают эту тему.

Dims

Изучаю соответствие между традиционными и упрощёнными иероглифами по базе Унихань и не пойму "топологии" этого соответствия.

Например, иероглиф http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=3897&useutf8=true

Написано, что как упрощённым, так и традиционным его вариантом является иероглиф U+2AA91, который в базе отсутствует.

Что это, грязная база? Или в этом есть какой-то смысл?

А вот иероглиф, для которого существует партнёр: http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=396E&useutf8=true
Вот он: http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=3918&useutf8=true

Он указан и как "упрощённый" и как "традиционный". Такое может быть?

А вот для этого иероглифа упрощённый и традиционный аналоги разные http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=82E7&useutf8=true

А вот для этого иероглифа в качестве упрощённого указан он сам, а традиционных партнёров у него четёре, включая его самого.

Alone Coder




Demetrius

Обратите внимание: kSimplifiedVariant, kTraditionalVariant. Это просто указание на вариативность. В некоторых случаях один вариант можно заменить другим.

Причём иногда эти замены, могут происходить только в некоторых словах, или только в некоторых значениях, или только с некоторыми чтениями... Причём всё это никак не отмечено, т.к. зачастую эти случаи толком-то и не формализовать. Причём иногда это просто описки.

Привыкайте.

А для изучения соответствий используйте CC-CEDICT.

Dims

Цитата: Alone Coder от января  8, 2012, 00:01
U+3918 != U+396E.
У меня на страничке иероглифа U+396E указано, что как традиционным, так и упрощённым его вариантом является иероглиф U+3918. Такое может быть?

Demetrius

Цитата: Dims от января  8, 2012, 00:08
Цитата: Alone Coder от января  8, 2012, 00:01
U+3918 != U+396E.
У меня на страничке иероглифа U+396E указано, что как традиционным, так и упрощённым его вариантом является иероглиф U+3918. Такое может быть?
Да.

Представьте: есть две орфографии русского, современная и дореволюционная.

И для слова «лазею» будет написано: дореформенный вариант = «лажу», современный вариант=«лажу».

Вот пример:
годъ
совр. вар: год
год
дореф. вар: годъ
сейчас
дореф. вар: сейчасъ
совр. вар.: щас
сейчасъ
совр. вар.: сейчас
совр. вар: щас
лазею
дореф. вар: лажу
совр. вар: лажу


Где противоречие?

Dims

Цитата: Demetrius от января  8, 2012, 00:06
Обратите внимание: kSimplifiedVariant, kTraditionalVariant. Это просто указание на вариативность.
Не понял. Что значит "указание на вариативность"?

ЦитироватьПричём иногда эти замены, могут происходить только в некоторых словах, или только в некоторых значениях, или только с некоторыми чтениями...
Я понимаю. Просто я не понимаю, что на что заменяется.

Например, в Вики написано, что в процессе "реформы" произведена замена 對 → 对. Я открываю в Унихань первый иероглиф http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=5C0D&useutf8=true и вижу, что у него есть ОДНА запись kSimplifiedVariant и там указан второй http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=5BF9&useutf8=true. Соответственно у второго первый указан в качестве ЕДИНСТВЕННОЙ записи kTraditionalVariant. Всё логично.

Я так же могу понять связь один-ко-многим, когда процесс упрощения был неоднозначным и превратил несколько иероглифов в один или один в несколько.

Но я не могу понять, как получается, что у одного иероглифа есть и упрощённыей и традиционный партнёр. Кто тогда он сам? Каково его место на шкале упрощения? И что может означать, когда в качестве обоих партнёров указан один другой иероглиф или даже тот же?

Цитироватьт.к. зачастую эти случаи толком-то и не формализовать.
Например?

Dims

Цитата: Demetrius от января  8, 2012, 00:11
Где противоречие?
Противоречие, как мне казалось, в том, что иероглифы делятся только на три класса: традиционные, упрощённые и не изменившиеся. Примером "лазею" Вы намекаете на то, что есть ещё четвёртый вариант -- безграмотные или диалектные иероглифы?

Можно ли тогда считать, что тот иероглиф, у которого есть и традиционный и упрощённый партнёр -- это какой-то редкий синоним этих обоих партнёров?

Dims

Я нарисовал диаграмму для трёх "странных" иероглифов:



Получается, что иероглиф U+85B4 薴 просто прошёл две стадии упрощения: сперва превратился в U+82E7 苧, а потом в U+82CE 苎. Так?

Python

Картинка не грузится — видимо, этот гуглосервис не рассчитан на публикацию изображний на других сайтах.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Dims

Цитата: Python от января  8, 2012, 00:36
Картинка не грузится — видимо, этот гуглосервис не рассчитан на публикацию изображний на других сайтах.
Должен быть рассчитан. А теперь?

Python

Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Demetrius

Цитата: Dims от января  8, 2012, 00:21
Противоречие, как мне казалось, в том, что иероглифы делятся только на три класса: традиционные, упрощённые и не изменившиеся. Примером "лазею" Вы намекаете на то, что есть ещё четвёртый вариант -- безграмотные или диалектные иероглифы?
Не обязательно безграмотные и не обязательно диалектные. Надо смотреть в каждом конкретном случае. Вообще, БД не заменяет словарь, я дополняет.

Цитата: Dims от января  8, 2012, 00:30
Получается, что иероглиф U+85B4 薴 просто прошёл две стадии упрощения: сперва превратился в U+82E7 苧, а потом в U+82CE 苎. Так?
Не знаю, но выглядит логично.

Цитата: Dims от января  8, 2012, 00:16
Но я не могу понять, как получается, что у одного иероглифа есть и упрощённыей и традиционный партнёр. Кто тогда он сам?
Значит, видимо, он сам может быть использован и в тексте традиционными иероглифами, и в тексте упрощёнными. В чём проблема? :donno:

Цитировать
Цитироватьт.к. зачастую эти случаи толком-то и не формализовать.
Например?
Я сижу на компьютере без ввода иероглифов. Но, например, у иероглифа 個 есть вариант 箇. С одной стороны, сейчас они взаимозаменяемы. С другой стороны, по ключам интуитивно понятно, что первый вариант для людей, а второй—для остального.

arseniiv


Dims

Цитата: Demetrius от января  8, 2012, 00:46
Значит, видимо, он сам может быть использован и в тексте традиционными иероглифами, и в тексте упрощёнными. В чём проблема?
В таком случае, как я понимаю, по иероглифу должно быть просто ничего не указано. Просто иероглиф сам по себе.

ЦитироватьНо, например, у иероглифа 個 есть вариант 箇. С одной стороны, сейчас они взаимозаменяемы. С другой стороны, по ключам интуитивно понятно, что первый вариант для людей, а второй—для остального.
Если они взаимозаменяемы, значит отношение между ними -- это "синонимия". Оттенки применения -- это уже детали, которые в базу не засунешь. Непонятно, причём тут "традиционность" и "упрощённость"?

Dims

Цитата: Python от января  8, 2012, 00:45
Разницы я не заметил — все равно большая дырка от изображения.
У меня всё нормально работает на всех браузерах и на нескольких компьютерах, к которым имею доступ. Так что глюк где-то у Вас.

Demetrius

Цитата: Dims от января  8, 2012, 00:57
ЦитироватьНо, например, у иероглифа 個 есть вариант 箇. С одной стороны, сейчас они взаимозаменяемы. С другой стороны, по ключам интуитивно понятно, что первый вариант для людей, а второй—для остального.
Если они взаимозаменяемы, значит отношение между ними -- это "синонимия". Оттенки применения -- это уже детали, которые в базу не засунешь. Непонятно, причём тут "традиционность" и "упрощённость"?
Ну так ведь у них общий упрощённый вариант. Кроме того, 個 можно рассматривать как замену 箇.

Demetrius


Python

Цитата: Dims от января  8, 2012, 01:00
Цитата: Python от января  8, 2012, 00:45
Разницы я не заметил — все равно большая дырка от изображения.
У меня всё нормально работает на всех браузерах и на нескольких компьютерах, к которым имею доступ. Так что глюк где-то у Вас.
Странно.  В Опере 9 не показывает (перенаправляет на какую-то левую страницу), в остальных браузерах все отлично. Видимо, какая-то личная неприязнь гугла к старой Опере :donno:
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

arseniiv


Demetrius

Offtop
О сообщениях гостей нет уведомлений по почте. Я решил здесь ответить, залогинившись, поэтому

Dims

Цитата: Python от января  8, 2012, 01:08
В Опере 9 не показывает (перенаправляет на какую-то левую страницу), в остальных браузерах все отлично. Видимо, какая-то личная неприязнь гугла к старой Опере :donno:
Это обычный тег IMG,  который актуален с лохматых версий. Только что открыл в Опере 8.54 на Windows XP -- работает. Может, у Вас какая-нибудь резалка баннеров глючит или что-то типа этого?

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр