Author Topic: Как различить языки Кавказа?  (Read 19778 times)

0 Members and 1 Guest are viewing this topic.

Offline Apostle

  • Posts: 186
« on: September 14, 2012, 00:31 »
Всем привет. Не так давно я натолкнулся на табличку , и она побудила меня немного поисследовать языки с алфавитами на основе кириллицы, чтобы так же их дифференцировать. На данный момент основная моя проблема - как отличить друг от друга языки Кавказа. Хотелось бы предоставить вам то, что я уже нашел и частично проверил, и спросить совета.

1. Вроде бы, найденные мною диграфы\триграфы не встречаются либо встречаются крайне редко в других языках кроме определяемого.

Абазинский - Гъв, Гъь, Джь, ГІв
Аварский - ЦІцІ, ЧІчІ, КІкІ
Кабардино-черкесский IУ
Лакский - ХЬХЬ
Чеченский - ЙО

Если я не прав, и приведенные ди\три\тетраграфы встречаются в других языках, поправьте.

2. Пока что не смог найти отличительные особенности таких языков, как адыгейский, даргинский, Табасаранский, Ингушский, Лезгинский, карачаево-балкарский. Большая часть проверенных буквосочетаний относится минимум к двум языкам. Может, есть данные о часто встречающихся сочетаниях букв, слов, частей слов?  С последним у меня просто беда, если про сочетания букв я инфо нашел, про части слов хоть учебники всех языков выписывай да анализируй :(

Offline Leo

  • Posts: 26764
Только по наиболее часто встречающимся словам

Offline Urvakan

  • Posts: 312
Точно знаю, что IУ встречается также в чеченском, ингушском и адыгейском языках.

Offline vfaronov

  • Posts: 214
Offtop
Где взять оригинал этой диаграммы, что в первом посте?

Offline Apostle

  • Posts: 186
Тогда где можно посмотреть наиболее часто встречающиеся слова? :)

Offtop
А вам зачем оригинал? Если нужна большая копия, держите ссылку - http://habrahabr.ru/post/147838/

Offline ali_hoseyn

  • Posts: 9977
Даргинский — хIя, лезгинский — пI.
dɛ jʃɛmtɛl sɒk’ɒt’rijəh swə jəfɒz

Offline ZZZy

  • Вне лингвистики
  • Posts: 1112
Даргинский — хIя, лезгинский — пI.
пI присутствует и в кабардино-черкесском.
«Сначала тебя игнорируют, затем над тобой смеются, затем с тобой борются, затем ты побеждаешь». Махатма Ганди

Offline Geoalex

  • Posts: 14180
Скачайте Гиляревского "определитель языков по письменностям", там всё есть. На эту же тему есть ещё пособие для криминалистов, изданное в 1990-е гг. Оно менее полное по охвату языков, но описание графических особенностей там более полное.
Чудище обло, озорно, огромно, стозевно и лаяй.

Offline FA

  • Posts: 3527
пI присутствует и в кабардино-черкесском.
и в чеченском тоже.
вот здесь: en.wiktionary.org/wiki/Wiktionary:Frequency_lists
а еще точнее сказать, здесь: invokeit.wordpress.com/frequency-word-lists/
находятся частотные словари по самым разнообразным языка.

Offline Apostle

  • Posts: 186
Гиляревского скачал, насчет упомянутых мною языков там как раз глухо. Не подскажете название пособия для криминалистов?

Offline Geoalex

  • Posts: 14180
Не подскажете название пособия для криминалистов?

Ой, я уже и не помню. В своё время брал его в Ленинке, найдя в тематическом каталоге.
Чудище обло, озорно, огромно, стозевно и лаяй.

Offline Leo

  • Posts: 26764
Тогда где можно посмотреть наиболее часто встречающиеся слова? :)

Offtop
А вам зачем оригинал? Если нужна большая копия, держите ссылку - http://habrahabr.ru/post/147838/

Возьмите по нескольку страниц разных (грамотных) текстов на каждом языке и смотрите.

Offline Apostle

  • Posts: 186
Слишком сложная работа для человека, который не знаком ни с одним из этих языков. Конечно, если я не найду ничего, то, наверное, я займусь этим. Но вероятность ошибки слишком велика. Может, здесь есть люди, которые могут перечислить некоторые распространенные слова\окончания из перечисленных языков?

Offline Leo

  • Posts: 26764
На Сев. Кавказе 13 письменных языков северокавказской семьи, 3 иранской группы, 3 тюркской группы (по меньшей мере, не считая бес- и малописьменных). Едва кто-то поможет, не сделав той же самой работы. Вероятность ошибки будет тем меньше, чем больше текстов Вы обработаете.

Offline Borovik

  • Posts: 7255
Тогда где можно посмотреть наиболее часто встречающиеся слова? :)

Offtop
А вам зачем оригинал? Если нужна большая копия, держите ссылку - http://habrahabr.ru/post/147838/

Возьмите по нескольку страниц разных (грамотных) текстов на каждом языке и смотрите.

Ещё перспективный подход - это частотность отдельных букв в связном тексте. При достаточной длине сэмпла работает практически безошибочно

Offline Apostle

  • Posts: 186
Я не беру малораспространенные языки типа Ахвахского и так далее. Мне б научиться ингушский от лезгинского отличать хотя бы, чем лезть в дебри языка нескольких сотен людей :)

Offline Leo

  • Posts: 26764
служебных слов не так много, а если тексты у вас не бумажные, а цифровые, то сделать такие списки - раз плюнуть :)

Offline Circassian

  • Вне лингвистики
  • Posts: 1300
С черкесским языком самый верный способ - это почти полновластное царство э и ы в согласных... Большинство других кавказских языков предпочитают, как использовать, так и произносить и вместо ы, и е вместо э.

Offline vfaronov

  • Posts: 214
Offtop
А вам зачем оригинал? Если нужна большая копия, держите ссылку - http://habrahabr.ru/post/147838/
Да, я имел в виду полный размер. Спасибо.

Всем привет. Не так давно я натолкнулся на табличку , и она побудила меня немного поисследовать языки с алфавитами на основе кириллицы, чтобы так же их дифференцировать. На данный момент основная моя проблема - как отличить друг от друга языки Кавказа. Хотелось бы предоставить вам то, что я уже нашел и частично проверил, и спросить совета.

1. Вроде бы, найденные мною диграфы\триграфы не встречаются либо встречаются крайне редко в других языках кроме определяемого.

Абазинский - Гъв, Гъь, Джь, ГІв
Аварский - ЦІцІ, ЧІчІ, КІкІ
Кабардино-черкесский IУ
Лакский - ХЬХЬ
Чеченский - ЙО

Если я не прав, и приведенные ди\три\тетраграфы встречаются в других языках, поправьте.

2. Пока что не смог найти отличительные особенности таких языков, как адыгейский, даргинский, Табасаранский, Ингушский, Лезгинский, карачаево-балкарский. Большая часть проверенных буквосочетаний относится минимум к двум языкам. Может, есть данные о часто встречающихся сочетаниях букв, слов, частей слов?  С последним у меня просто беда, если про сочетания букв я инфо нашел, про части слов хоть учебники всех языков выписывай да анализируй :(

Например:
гг - табасаранский, не встречаются в других языках;
ОІ — Цахурский

 
"Табасаран" из табасаранского переводится - из одного характера, нрава.

Даргинский — хIя, лезгинский — пI.

Ну ты насмешил

Мисала:

ПІ — Абазинский язык, агульский, адыгейский, даргинский, ингушский, кабардино-черкеский, лакский, лезгинский, рутульский, табасаранский, цахурский, чеченский
"Табасаран" из табасаранского переводится - из одного характера, нрава.

Триграфы

Джв — Табасаранский
ЧІв — Табасаранский
"Табасаран" из табасаранского переводится - из одного характера, нрава.

На Сев. Кавказе 13 письменных языков северокавказской семьи, 3 иранской группы, 3 тюркской группы (по меньшей мере, не считая бес- и малописьменных). Едва кто-то поможет, не сделав той же самой работы. Вероятность ошибки будет тем меньше, чем больше текстов Вы обработаете.

Перечисли ка нам какие именно 13?
"Табасаран" из табасаранского переводится - из одного характера, нрава.

Offline Leo

  • Posts: 26764
На Сев. Кавказе 13 письменных языков северокавказской семьи, 3 иранской группы, 3 тюркской группы (по меньшей мере, не считая бес- и малописьменных). Едва кто-то поможет, не сделав той же самой работы. Вероятность ошибки будет тем меньше, чем больше текстов Вы обработаете.

Перечисли ка нам какие именно 13?

Лови:
абазинский, кабардино-черкесский, адыгейский, чеченский, ингушский, аварский, даргинский, лакский, табасаранский, лезгинский, агульский, цахурский, рутульский.

Жду комментария !

На Сев. Кавказе 13 письменных языков северокавказской семьи, 3 иранской группы, 3 тюркской группы (по меньшей мере, не считая бес- и малописьменных). Едва кто-то поможет, не сделав той же самой работы. Вероятность ошибки будет тем меньше, чем больше текстов Вы обработаете.

Перечисли ка нам какие именно 13?

Лови:
абазинский, кабардино-черкесский, адыгейский, чеченский, ингушский, аварский, даргинский, лакский, табасаранский, лезгинский, агульский, цахурский, рутульский.

Жду комментария !

Баркалики за ответ  :)
"Табасаран" из табасаранского переводится - из одного характера, нрава.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: