Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

*Лексикостатистика

Автор Nevik Xukxo, апреля 8, 2012, 17:53

0 Пользователи и 1 гость просматривают эту тему.

smith371

Цитата: Rōmānus от апреля  8, 2012, 19:52
В том же албанском, насколько мне известно, исконной ие. лексики (без латинских и греческих заимствований) и того меньше

темные джунгли ентот ваш албанский. учить легко, этимологизировать сложно. Орел он конечно тот еще "орел", но заимствованные единицы от когнатов или конвергированных там сложно отделить.
Alii! Ke ua ngerang? Ak outkeu er kau el me er a bliongel el kirel a tekoi er a Belau! Sulang.

Подвергал, подвергаю и буду подвергать сомнению классификацию любых языков, описания которых нет в свободном доступе!

Злостный оверквотер, оверкиллер и... просто злостный.

GaLL

По поводу деревьев на основе лексикостатистики: почему-то глоттохронологи обычно забывают о том, что закон полураспада (и модифицированные формулы, как у Старостина) имеют статистическую погрешность, и прежде чем применять их, следует эту погрешность оценить. Например, возьмём традиционную формулу глоттохронологии:
N(t) = N0 * exp(-L*t)
где t - время (например, в тысячелетиях), L - некая константа, определяемая эпмирически, N0 - начальный набор слов в базовом списке, например, 100, N(t) - число слов базового списка, остающихся через время t в языке.
На самом деле даже такое приближение хорошо описывает изменение базовой лексики, никак нельзя говорить, что число слов, оставшихся в языке, будет точно соответствовать формуле. Коротко о статистической оценке для данного случая можно прочитать, например, здесь: http://nuclphys.sinp.msu.ru/experiment/statistic/index.html
Взяв t = 2 (тысячелетия), L = 0.14, по формуле получим N(2) примерно равно 0.756, т. е. ожидается сохранение 76 слов из базового списка (пример из статьи С. А. Старостина).
Попробуем посчитать P(x) - вероятность, что через время t = 2 тысячелетия при L = 0.14 сохранится ровно x слов из N=100 по формуле
P(x) = C(N, x) * exp(-x*L*t) * (1 - exp(-L*t))^(N-x)
(первый множитель - число способов выбрать конкретные х слов из N, т. е. число сочетаний из N по х, второй - вероятность того, что сохранятся фиксированные х слов, третий - вероятность того, что утратятся фиксированные N-x слов):
P(76) ≈ 0.0926
P(75) ≈ 0.0910
P(77) ≈ 0.0893
P(80) ≈ 0.0571
Как видно, хотя для х = 76 вероятность максимальна, для соседних величин 75 и 77 она немногим меньше.
Очевидно, что погрешности возникают довольно серьёзные (это касается и модифицированной формулы Старостина), так что если дерево сильно ветвится за короткий промежуток времени, трудно воспринимать это ветвление всерьёз.


GaLL

К тому же такой подход оперирует со словами базового списка как с одинаково распределёнными случайными величинами, хотя на самом деле из стабильность различна: например, в ИЕ языках местоимение "я" обнаруживает куда большую стабильность, нежели "хвост", "вошь", "луна" и т. п. Кроме того, фонетический облик слова и характер перестроек при изменении языка также влияет на стабильность: если данное слово совпадёт с другим из-за омонимии, велика вероятность его замены другим.
В общем, лексикостатистика в том виде, в котором она существует, оперирует словами как сферическими конями в вакууме.


Nevik Xukxo

GaLL, а как вы относитесь к склонности деревьев к бинарному делению? Почему так получается?

autolyk

Цитата: snn от апреля  8, 2012, 21:31
Что Вы можете сказать по этой статье?
http://www.s155239215.onlinehome.us/turkic/40_Language/UraliAltaicPSandHungarDistancesEn.htm
По ссылке не хватает самого важного:
ЦитироватьFirst, we develop a general method for visualizing the distances among categories (such as languages) on the basis of any set of features (such as structural traits) they could share. Second, we apply this method to an existing set of features of northern Eurasian languages, collected by P. Klesment, A. Kunnap, S.-E. Soosaar, R. Taagepera (2003).

A general method for visualizing inter-category distances (Section omitted)

These 46 features are listed below, indicating their occurrence in the subgroups of U, A, and PS, as well as in Germanic [GER], Slavic [SLA], Baltic [BAL].  (Section omitted)


Сложилось впечатление, что авторы взяли некий набор фонетических, морфологических и грамматических особенностей и посчитали коэффициенты по ф-ле:
[d.sub.ij] = 1 - [a.sub.ij]/([a.sub.i][a.sub.j])0.5, где [a.sub.ij] кол-во общих особенностей (из списка) между подгруппами, а [a.sub.i] кол-во особенностей в подгруппе.
Не имея возможности ознакомится с методом отбора характерных признаков, служивших для расчёта коэффициентов, сказать что-либо по существу затруднительно. Но результаты, мягко говоря, настораживают. 
Атэц Әүүәл not welcome in this topic

Nevik Xukxo

Цитата: autolyk от апреля  9, 2012, 07:20
Но результаты, мягко говоря, настораживают.

Не лучше, чем то, что Даркстар рекламирует?

autolyk

Цитата: Nevik Xukxo от апреля  9, 2012, 07:22
Не лучше, чем то, что Даркстар рекламирует?
Это сродни скорее «методикам» Акулова, и результат хуже, чем у Даркстара. Взять, напр., особую близость мордовских к палеоазиатским.
Цитата: Nevik Xukxo от апреля  9, 2012, 07:14
как вы относитесь к склонности деревьев к бинарному делению? Почему так получается?
Вероятность разрыва диалектного континуума в нескольких местах одновременно меньше, чем в одном.
Атэц Әүүәл not welcome in this topic

Nevik Xukxo

Цитата: autolyk от апреля  9, 2012, 07:27
Вероятность разрыва диалектного континуума в нескольких местах одновременно меньше, чем в одном.

Просто эта склонность к бинарности иногда мне кажется навязчивой. Надеюсь, я ошибаюсь.

GaLL

Цитата: Nevik Xukxo от апреля  9, 2012, 07:14
GaLL, а как вы относитесь к склонности деревьев к бинарному делению? Почему так получается?
По поводу метода построения дерева можно прочитать в учебнике Старостина - Бурлак (но я не уверен, что для того дерева использовался именно он):
http://krotov.info/libr_min/02_b/ur/lak_2005.htm
О ветвлениях дерева, происходящих в короткий промежуток, я уже говорил. Имхо, после отделения  тохарских расхождение ИЕ не описать бинарным деревом.

Nevik Xukxo

Цитата: GaLL от апреля  9, 2012, 09:49
Имхо, после отделения  тохарских расхождение ИЕ не описать бинарным деревом.

Видел где-то дерево: разделили на греко-армяно-арийские и европейские (без греческих)... объединять все европейские даже без греческих неправильно?

GaLL

Не понял вопроса. Где-то есть основание говорить о бинарном расветвлении, где-то нет.
И вообще, я хотел напомнить, что этот метод получает лишь статистически наиболее вероятное дерево, и близкие ему деревья будут почти такими же вероятными (если конечно метод верен). Причём метод опирается лишь на список Сводеша, превращая слова в сферических коней, используя некоторые представления о том, каких слова в данных языках родственны (которые могут быть ещё сто раз пересмотрены, не говоря уж о том, что родство этих семей требует доказательства). Кроме того, равномерность процесса изменения базовой лексики не доказана.

snn

Цитата: autolyk от апреля  9, 2012, 07:20

По ссылке не хватает самого важного:
ЦитироватьFirst, we develop a general method for visualizing the distances among categories (such as languages) on the basis of any set of features (such as structural traits) they could share. Second, we apply this method to an existing set of features of northern Eurasian languages, collected by P. Klesment, A. Kunnap, S.-E. Soosaar, R. Taagepera (2003).

A general method for visualizing inter-category distances (Section omitted)

These 46 features are listed below, indicating their occurrence in the subgroups of U, A, and PS, as well as in Germanic [GER], Slavic [SLA], Baltic [BAL].  (Section omitted)


Сложилось впечатление, что авторы взяли некий набор фонетических, морфологических и грамматических особенностей и посчитали коэффициенты по ф-ле:
[d.sub.ij] = 1 - [a.sub.ij]/([a.sub.i][a.sub.j])0.5, где [a.sub.ij] кол-во общих особенностей (из списка) между подгруппами, а [a.sub.i] кол-во особенностей в подгруппе.
Не имея возможности ознакомится с методом отбора характерных признаков, служивших для расчёта коэффициентов, сказать что-либо по существу затруднительно. Но результаты, мягко говоря, настораживают.
Вот тут подробнее:
http://www.thefreelibrary.com/Distances among Uralic and other Northern Eurasian languages/[TEXT...-a0200671842
ЦитироватьСложилось впечатление
У меня сложилось впечатление, что авторы попробовали сделать нечто подобное тому, как генетики в разных компонентах вычисляют близость между разными популяциями. Результаты подчас тоже бывают неожиданными. :)
Цитировать[d.sub.ij] = 1 - [a.sub.ij]/([a.sub.i][a.sub.j])0.5, где [a.sub.ij]
Да, именно так. :)

Darkstar

Gall,
Ваши замечания касательно погрешностей абсолютно правильны! Я и сам не считаю погрешности, чтобы не отягащать мат. аппаратом, просто держу их в уме (т.е. отбрасываю сомнительные места "на глазок".)

Все остальное -- это банальности.

С точки зрения математики меня больше интересуют то, что называют Bayesian approach (как обычно в математике название не имеет ни какого отношения к содержанию), где речь идет о построении филогений с элементами статистики. В принципе, сейчас это загнано уже в программные алгоритмы, и вероятно, люди которые этим пользуются сами не понимают, как это работает. (Еще у Старостина деревья строились автоматически, на каком алгоритме тоже не очень ясно. ) Для австронезийских в частности сейчас это активно развивают...
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Nevik Xukxo

Погрешности вообще нарастают со временем или нет системы?

snn

Цитата: Nevik Xukxo от апреля  9, 2012, 13:00
Погрешности вообще нарастают со временем или нет системы?
Боюсь, что системы тут нет.

Devorator linguarum

Цитата: GaLL от апреля  8, 2012, 23:50
К тому же такой подход оперирует со словами базового списка как с одинаково распределёнными случайными величинами, хотя на самом деле из стабильность различна: например, в ИЕ языках местоимение "я" обнаруживает куда большую стабильность, нежели "хвост", "вошь", "луна" и т. п. Кроме того, фонетический облик слова и характер перестроек при изменении языка также влияет на стабильность: если данное слово совпадёт с другим из-за омонимии, велика вероятность его замены другим.
В общем, лексикостатистика в том виде, в котором она существует, оперирует словами как сферическими конями в вакууме.
Таки вы серьезно отстали от жизни, GaLL. Отмеченные погрешности глоттохронологи пркрасно осознают (и осознали едва ли не сразу же, как только Сводеш предложил свой метод... не без помощи "доброжелательных" критиков, разумеется :green:). Про неодинаковую вероятность выпадения разных слов из списка у самого Старостина несколько статей есть, где даже на материале большого количества языковых семей эмпирически подсчитывается, для какого слова какая вероятность.

Darkstar

Кстати, в статье по генезу семитских Andrew Kitchen, Christopher Ehret at al (04/2009) погрешности учитываются и для всех глоттохр значений дана дельта. Только толку от них. Дерево оно же либо кривое, либо некривое...
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

GaLL

Цитата: Devorator linguarum от апреля  9, 2012, 16:15
Про неодинаковую вероятность выпадения разных слов из списка у самого Старостина несколько статей есть, где даже на материале большого количества языковых семей эмпирически подсчитывается, для какого слова какая вероятность.
Одну статью об этом я видел ("Определение устойчивости базисной лексики"). Но там не говорится применении этих индексов стабильности, и не обосновывается, почему они должны высчитываться именно таким способом.

GaLL

Просматривая статьи по глоттохронологии в сборнике "Новое в лингвистике" №1, среди которых и статья М. Сводеша, на которую часто ссылаются, я не нашёл применение методов мат. статистики, т. е. , например, нахождения доверительного интервала оценки времени распада для определённой надёжности. Формула радиоактивного распада берётся для лексики без учёта (во всяком случае, такое складывается впечатление) того, что рассматриваемое радиоактивное вещество обычно содержит на порядки больше атомов, чем списки лексики - слов, и точность формулы в первом случае - следствие ЗБЧ (закона больших чисел). Неужели такой подход типичен для лексикостатистики?

winter cat

Цитата: Darkstar от апреля  9, 2012, 12:33
Венгерский -- это "креол", я давно говорил...
Но у ASJP он нормально позиционирован в угорские.
Аргументируйте, пожалуйста...
Креол из чего?

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр