Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Как различить языки Кавказа?

Автор Apostle, сентября 13, 2012, 23:31

0 Пользователи и 1 гость просматривают эту тему.

Apostle

Всем привет. Не так давно я натолкнулся на табличку , и она побудила меня немного поисследовать языки с алфавитами на основе кириллицы, чтобы так же их дифференцировать. На данный момент основная моя проблема - как отличить друг от друга языки Кавказа. Хотелось бы предоставить вам то, что я уже нашел и частично проверил, и спросить совета.

1. Вроде бы, найденные мною диграфы\триграфы не встречаются либо встречаются крайне редко в других языках кроме определяемого.

Абазинский - Гъв, Гъь, Джь, ГІв
Аварский - ЦІцІ, ЧІчІ, КІкІ
Кабардино-черкесский IУ
Лакский - ХЬХЬ
Чеченский - ЙО

Если я не прав, и приведенные ди\три\тетраграфы встречаются в других языках, поправьте.

2. Пока что не смог найти отличительные особенности таких языков, как адыгейский, даргинский, Табасаранский, Ингушский, Лезгинский, карачаево-балкарский. Большая часть проверенных буквосочетаний относится минимум к двум языкам. Может, есть данные о часто встречающихся сочетаниях букв, слов, частей слов?  С последним у меня просто беда, если про сочетания букв я инфо нашел, про части слов хоть учебники всех языков выписывай да анализируй :(

Leo


Urvakan

Точно знаю, что IУ встречается также в чеченском, ингушском и адыгейском языках.

vfaronov

Offtop
Где взять оригинал этой диаграммы, что в первом посте?

Apostle

Тогда где можно посмотреть наиболее часто встречающиеся слова? :)

Offtop
А вам зачем оригинал? Если нужна большая копия, держите ссылку - http://habrahabr.ru/post/147838/

ali_hoseyn

dɛ jʃɛmtɛl sɒk'ɒt'rijəh swə jəfɒz

ZZZy

Цитата: ali_hoseyn от сентября 14, 2012, 05:47
Даргинский — хIя, лезгинский — пI.
пI присутствует и в кабардино-черкесском.
«Сначала тебя игнорируют, затем над тобой смеются, затем с тобой борются, затем ты побеждаешь». Махатма Ганди

Geoalex

Скачайте Гиляревского "определитель языков по письменностям", там всё есть. На эту же тему есть ещё пособие для криминалистов, изданное в 1990-е гг. Оно менее полное по охвату языков, но описание графических особенностей там более полное.

FA

вот здесь: //en.wiktionary.org/wiki/Wiktionary:Frequency_lists
а еще точнее сказать, здесь: //invokeit.wordpress.com/frequency-word-lists/
находятся частотные словари по самым разнообразным языка.

Apostle

Гиляревского скачал, насчет упомянутых мною языков там как раз глухо. Не подскажете название пособия для криминалистов?

Geoalex

Цитата: Apostle от сентября 14, 2012, 09:57
Не подскажете название пособия для криминалистов?

Ой, я уже и не помню. В своё время брал его в Ленинке, найдя в тематическом каталоге.

Leo

Цитата: Apostle от сентября 14, 2012, 03:09
Тогда где можно посмотреть наиболее часто встречающиеся слова? :)

Offtop
А вам зачем оригинал? Если нужна большая копия, держите ссылку - http://habrahabr.ru/post/147838/

Возьмите по нескольку страниц разных (грамотных) текстов на каждом языке и смотрите.

Apostle

Слишком сложная работа для человека, который не знаком ни с одним из этих языков. Конечно, если я не найду ничего, то, наверное, я займусь этим. Но вероятность ошибки слишком велика. Может, здесь есть люди, которые могут перечислить некоторые распространенные слова\окончания из перечисленных языков?

Leo

На Сев. Кавказе 13 письменных языков северокавказской семьи, 3 иранской группы, 3 тюркской группы (по меньшей мере, не считая бес- и малописьменных). Едва кто-то поможет, не сделав той же самой работы. Вероятность ошибки будет тем меньше, чем больше текстов Вы обработаете.

Borovik

Цитата: Leo от сентября 14, 2012, 15:11
Цитата: Apostle от сентября 14, 2012, 03:09
Тогда где можно посмотреть наиболее часто встречающиеся слова? :)

Offtop
А вам зачем оригинал? Если нужна большая копия, держите ссылку - http://habrahabr.ru/post/147838/

Возьмите по нескольку страниц разных (грамотных) текстов на каждом языке и смотрите.

Ещё перспективный подход - это частотность отдельных букв в связном тексте. При достаточной длине сэмпла работает практически безошибочно

Apostle

Я не беру малораспространенные языки типа Ахвахского и так далее. Мне б научиться ингушский от лезгинского отличать хотя бы, чем лезть в дебри языка нескольких сотен людей :)

Leo

служебных слов не так много, а если тексты у вас не бумажные, а цифровые, то сделать такие списки - раз плюнуть :)

Circassian

С черкесским языком самый верный способ - это почти полновластное царство э и ы в согласных... Большинство других кавказских языков предпочитают, как использовать, так и произносить и вместо ы, и е вместо э.

vfaronov

Offtop
Цитата: Apostle от сентября 14, 2012, 03:09
А вам зачем оригинал? Если нужна большая копия, держите ссылку - http://habrahabr.ru/post/147838/
Да, я имел в виду полный размер. Спасибо.

Гъумц1улла

Цитата: Apostle от сентября 13, 2012, 23:31
Всем привет. Не так давно я натолкнулся на табличку , и она побудила меня немного поисследовать языки с алфавитами на основе кириллицы, чтобы так же их дифференцировать. На данный момент основная моя проблема - как отличить друг от друга языки Кавказа. Хотелось бы предоставить вам то, что я уже нашел и частично проверил, и спросить совета.

1. Вроде бы, найденные мною диграфы\триграфы не встречаются либо встречаются крайне редко в других языках кроме определяемого.

Абазинский - Гъв, Гъь, Джь, ГІв
Аварский - ЦІцІ, ЧІчІ, КІкІ
Кабардино-черкесский IУ
Лакский - ХЬХЬ
Чеченский - ЙО

Если я не прав, и приведенные ди\три\тетраграфы встречаются в других языках, поправьте.

2. Пока что не смог найти отличительные особенности таких языков, как адыгейский, даргинский, Табасаранский, Ингушский, Лезгинский, карачаево-балкарский. Большая часть проверенных буквосочетаний относится минимум к двум языкам. Может, есть данные о часто встречающихся сочетаниях букв, слов, частей слов?  С последним у меня просто беда, если про сочетания букв я инфо нашел, про части слов хоть учебники всех языков выписывай да анализируй :(

Например:
гг - табасаранский, не встречаются в других языках;
ОІ — Цахурский

"Табасаран" из табасаранского переводится - из одного характера, нрава.

Гъумц1улла

Цитата: ali_hoseyn от сентября 14, 2012, 05:47
Даргинский — хIя, лезгинский — пI.

Ну ты насмешил

Мисала:

ПІ — Абазинский язык, агульский, адыгейский, даргинский, ингушский, кабардино-черкеский, лакский, лезгинский, рутульский, табасаранский, цахурский, чеченский
"Табасаран" из табасаранского переводится - из одного характера, нрава.

Гъумц1улла

"Табасаран" из табасаранского переводится - из одного характера, нрава.

Гъумц1улла

Цитата: Leo от сентября 14, 2012, 16:08
На Сев. Кавказе 13 письменных языков северокавказской семьи, 3 иранской группы, 3 тюркской группы (по меньшей мере, не считая бес- и малописьменных). Едва кто-то поможет, не сделав той же самой работы. Вероятность ошибки будет тем меньше, чем больше текстов Вы обработаете.

Перечисли ка нам какие именно 13?
"Табасаран" из табасаранского переводится - из одного характера, нрава.

Leo

Цитата: Гъумц1улла от сентября 25, 2012, 15:38
Цитата: Leo от сентября 14, 2012, 16:08
На Сев. Кавказе 13 письменных языков северокавказской семьи, 3 иранской группы, 3 тюркской группы (по меньшей мере, не считая бес- и малописьменных). Едва кто-то поможет, не сделав той же самой работы. Вероятность ошибки будет тем меньше, чем больше текстов Вы обработаете.

Перечисли ка нам какие именно 13?

Лови:
абазинский, кабардино-черкесский, адыгейский, чеченский, ингушский, аварский, даргинский, лакский, табасаранский, лезгинский, агульский, цахурский, рутульский.

Жду комментария !

Гъумц1улла

Цитата: Leo от сентября 25, 2012, 15:51
Цитата: Гъумц1улла от сентября 25, 2012, 15:38
Цитата: Leo от сентября 14, 2012, 16:08
На Сев. Кавказе 13 письменных языков северокавказской семьи, 3 иранской группы, 3 тюркской группы (по меньшей мере, не считая бес- и малописьменных). Едва кто-то поможет, не сделав той же самой работы. Вероятность ошибки будет тем меньше, чем больше текстов Вы обработаете.

Перечисли ка нам какие именно 13?

Лови:
абазинский, кабардино-черкесский, адыгейский, чеченский, ингушский, аварский, даргинский, лакский, табасаранский, лезгинский, агульский, цахурский, рутульский.

Жду комментария !

Баркалики за ответ  :)
"Табасаран" из табасаранского переводится - из одного характера, нрава.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр