Author Topic: *Лексикостатистика  (Read 5342 times)

0 Members and 1 Guest are viewing this topic.

Offline smith371

  • Posts: 8209
  • Gender: Male
« Reply #25on: April 8, 2012, 21:35 »
В том же албанском, насколько мне известно, исконной ие. лексики (без латинских и греческих заимствований) и того меньше

темные джунгли ентот ваш албанский. учить легко, этимологизировать сложно. Орел он конечно тот еще "орел", но заимствованные единицы от когнатов или конвергированных там сложно отделить.
Alii! Ke ua ngerang? Ak outkeu er kau el me er a bliongel el kirel a tekoi er a Belau! Sulang.

Заткнуть за пояс Миклухо-Маклая!

Подвергал, подвергаю и буду подвергать сомнению классификацию любых языков, описания которых нет в свободном доступе!

Offline GaLL

  • Posts: 5549
  • Gender: Male
« Reply #26on: April 9, 2012, 00:38 »
По поводу деревьев на основе лексикостатистики: почему-то глоттохронологи обычно забывают о том, что закон полураспада (и модифицированные формулы, как у Старостина) имеют статистическую погрешность, и прежде чем применять их, следует эту погрешность оценить. Например, возьмём традиционную формулу глоттохронологии:
N(t) = N0 * exp(-L*t)
где t - время (например, в тысячелетиях), L - некая константа, определяемая эпмирически, N0 - начальный набор слов в базовом списке, например, 100, N(t) - число слов базового списка, остающихся через время t в языке.
На самом деле даже такое приближение хорошо описывает изменение базовой лексики, никак нельзя говорить, что число слов, оставшихся в языке, будет точно соответствовать формуле. Коротко о статистической оценке для данного случая можно прочитать, например, здесь: http://nuclphys.sinp.msu.ru/experiment/statistic/index.html
Взяв t = 2 (тысячелетия), L = 0.14, по формуле получим N(2) примерно равно 0.756, т. е. ожидается сохранение 76 слов из базового списка (пример из статьи С. А. Старостина).
Попробуем посчитать P(x) - вероятность, что через время t = 2 тысячелетия при L = 0.14 сохранится ровно x слов из N=100 по формуле
P(x) = C(N, x) * exp(-x*L*t) * (1 - exp(-L*t))^(N-x)
(первый множитель - число способов выбрать конкретные х слов из N, т. е. число сочетаний из N по х, второй - вероятность того, что сохранятся фиксированные х слов, третий - вероятность того, что утратятся фиксированные N-x слов):
P(76) ≈ 0.0926
P(75) ≈ 0.0910
P(77) ≈ 0.0893
P(80) ≈ 0.0571
Как видно, хотя для х = 76 вероятность максимальна, для соседних величин 75 и 77 она немногим меньше.
Очевидно, что погрешности возникают довольно серьёзные (это касается и модифицированной формулы Старостина), так что если дерево сильно ветвится за короткий промежуток времени, трудно воспринимать это ветвление всерьёз.


« Reply #27on: April 9, 2012, 00:50 »
К тому же такой подход оперирует со словами базового списка как с одинаково распределёнными случайными величинами, хотя на самом деле из стабильность различна: например, в ИЕ языках местоимение "я" обнаруживает куда большую стабильность, нежели "хвост", "вошь", "луна" и т. п. Кроме того, фонетический облик слова и характер перестроек при изменении языка также влияет на стабильность: если данное слово совпадёт с другим из-за омонимии, велика вероятность его замены другим.
В общем, лексикостатистика в том виде, в котором она существует, оперирует словами как сферическими конями в вакууме.

« Reply #28on: April 9, 2012, 01:19 »
Вот упомянутая статья С. А. Старостина: http://www.nostratic.net/books/(140)Starostin_Glotto1.pdf

Offline Nevik Xukxo

  • Posts: 44047
  • Gender: Male
« Reply #29on: April 9, 2012, 08:14 »
GaLL, а как вы относитесь к склонности деревьев к бинарному делению? Почему так получается?

Offline autolyk

  • Posts: 8549
  • Gender: Male
« Reply #30on: April 9, 2012, 08:20 »
Что Вы можете сказать по этой статье?
http://www.s155239215.onlinehome.us/turkic/40_Language/UraliAltaicPSandHungarDistancesEn.htm
По ссылке не хватает самого важного:
Quote
First, we develop a general method for visualizing the distances among categories (such as languages) on the basis of any set of features (such as structural traits) they could share. Second, we apply this method to an existing set of features of northern Eurasian languages, collected by P. Klesment, A. Kunnap, S.-E. Soosaar, R. Taagepera (2003).

A general method for visualizing inter-category distances (Section omitted)

These 46 features are listed below, indicating their occurrence in the subgroups of U, A, and PS, as well as in Germanic [GER], Slavic [SLA], Baltic [BAL].  (Section omitted)


Сложилось впечатление, что авторы взяли некий набор фонетических, морфологических и грамматических особенностей и посчитали коэффициенты по ф-ле:
[d.sub.ij] = 1 - [a.sub.ij]/([a.sub.i][a.sub.j])0.5, где [a.sub.ij] кол-во общих особенностей (из списка) между подгруппами, а [a.sub.i] кол-во особенностей в подгруппе.
Не имея возможности ознакомится с методом отбора характерных признаков, служивших для расчёта коэффициентов, сказать что-либо по существу затруднительно. Но результаты, мягко говоря, настораживают. 
Атэц Әүүәл not welcome in this topic

Offline Nevik Xukxo

  • Posts: 44047
  • Gender: Male
« Reply #31on: April 9, 2012, 08:22 »
Но результаты, мягко говоря, настораживают.

Не лучше, чем то, что Даркстар рекламирует?

Offline autolyk

  • Posts: 8549
  • Gender: Male
« Reply #32on: April 9, 2012, 08:27 »
Не лучше, чем то, что Даркстар рекламирует?
Это сродни скорее «методикам» Акулова, и результат хуже, чем у Даркстара. Взять, напр., особую близость мордовских к палеоазиатским.
как вы относитесь к склонности деревьев к бинарному делению? Почему так получается?
Вероятность разрыва диалектного континуума в нескольких местах одновременно меньше, чем в одном.
Атэц Әүүәл not welcome in this topic

Offline Nevik Xukxo

  • Posts: 44047
  • Gender: Male
« Reply #33on: April 9, 2012, 09:10 »
Вероятность разрыва диалектного континуума в нескольких местах одновременно меньше, чем в одном.

Просто эта склонность к бинарности иногда мне кажется навязчивой. Надеюсь, я ошибаюсь.

Offline GaLL

  • Posts: 5549
  • Gender: Male
« Reply #34on: April 9, 2012, 10:49 »
GaLL, а как вы относитесь к склонности деревьев к бинарному делению? Почему так получается?
По поводу метода построения дерева можно прочитать в учебнике Старостина - Бурлак (но я не уверен, что для того дерева использовался именно он):
http://krotov.info/libr_min/02_b/ur/lak_2005.htm
О ветвлениях дерева, происходящих в короткий промежуток, я уже говорил. Имхо, после отделения  тохарских расхождение ИЕ не описать бинарным деревом.

Offline Nevik Xukxo

  • Posts: 44047
  • Gender: Male
« Reply #35on: April 9, 2012, 10:58 »
Имхо, после отделения  тохарских расхождение ИЕ не описать бинарным деревом.

Видел где-то дерево: разделили на греко-армяно-арийские и европейские (без греческих)... объединять все европейские даже без греческих неправильно?

Offline GaLL

  • Posts: 5549
  • Gender: Male
« Reply #36on: April 9, 2012, 11:10 »
Не понял вопроса. Где-то есть основание говорить о бинарном расветвлении, где-то нет.
И вообще, я хотел напомнить, что этот метод получает лишь статистически наиболее вероятное дерево, и близкие ему деревья будут почти такими же вероятными (если конечно метод верен). Причём метод опирается лишь на список Сводеша, превращая слова в сферических коней, используя некоторые представления о том, каких слова в данных языках родственны (которые могут быть ещё сто раз пересмотрены, не говоря уж о том, что родство этих семей требует доказательства). Кроме того, равномерность процесса изменения базовой лексики не доказана.

Offline snn

  • Posts: 4632
  • Gender: Male
    • Chuvashia DNA Project
« Reply #37on: April 9, 2012, 11:42 »

По ссылке не хватает самого важного:
Quote
First, we develop a general method for visualizing the distances among categories (such as languages) on the basis of any set of features (such as structural traits) they could share. Second, we apply this method to an existing set of features of northern Eurasian languages, collected by P. Klesment, A. Kunnap, S.-E. Soosaar, R. Taagepera (2003).

A general method for visualizing inter-category distances (Section omitted)

These 46 features are listed below, indicating their occurrence in the subgroups of U, A, and PS, as well as in Germanic [GER], Slavic [SLA], Baltic [BAL].  (Section omitted)


Сложилось впечатление, что авторы взяли некий набор фонетических, морфологических и грамматических особенностей и посчитали коэффициенты по ф-ле:
[d.sub.ij] = 1 - [a.sub.ij]/([a.sub.i][a.sub.j])0.5, где [a.sub.ij] кол-во общих особенностей (из списка) между подгруппами, а [a.sub.i] кол-во особенностей в подгруппе.
Не имея возможности ознакомится с методом отбора характерных признаков, служивших для расчёта коэффициентов, сказать что-либо по существу затруднительно. Но результаты, мягко говоря, настораживают.
Вот тут подробнее:
http://www.thefreelibrary.com/Distances among Uralic and other Northern Eurasian languages/[TEXT...-a0200671842
Quote
Сложилось впечатление
У меня сложилось впечатление, что авторы попробовали сделать нечто подобное тому, как генетики в разных компонентах вычисляют близость между разными популяциями. Результаты подчас тоже бывают неожиданными. :)
Quote
[d.sub.ij] = 1 - [a.sub.ij]/([a.sub.i][a.sub.j])0.5, где [a.sub.ij]
Да, именно так. :)

Offline Darkstar

  • Posts: 7416
« Reply #38on: April 9, 2012, 13:25 »
Gall,
Ваши замечания касательно погрешностей абсолютно правильны! Я и сам не считаю погрешности, чтобы не отягащать мат. аппаратом, просто держу их в уме (т.е. отбрасываю сомнительные места "на глазок".)

Все остальное -- это банальности.

С точки зрения математики меня больше интересуют то, что называют Bayesian approach (как обычно в математике название не имеет ни какого отношения к содержанию), где речь идет о построении филогений с элементами статистики. В принципе, сейчас это загнано уже в программные алгоритмы, и вероятно, люди которые этим пользуются сами не понимают, как это работает. (Еще у Старостина деревья строились автоматически, на каком алгоритме тоже не очень ясно. ) Для австронезийских в частности сейчас это активно развивают...
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Offline Nevik Xukxo

  • Posts: 44047
  • Gender: Male
« Reply #39on: April 9, 2012, 14:00 »
Погрешности вообще нарастают со временем или нет системы?

Offline snn

  • Posts: 4632
  • Gender: Male
    • Chuvashia DNA Project
« Reply #40on: April 9, 2012, 14:08 »
Погрешности вообще нарастают со временем или нет системы?
Боюсь, что системы тут нет.

« Reply #41on: April 9, 2012, 17:15 »
К тому же такой подход оперирует со словами базового списка как с одинаково распределёнными случайными величинами, хотя на самом деле из стабильность различна: например, в ИЕ языках местоимение "я" обнаруживает куда большую стабильность, нежели "хвост", "вошь", "луна" и т. п. Кроме того, фонетический облик слова и характер перестроек при изменении языка также влияет на стабильность: если данное слово совпадёт с другим из-за омонимии, велика вероятность его замены другим.
В общем, лексикостатистика в том виде, в котором она существует, оперирует словами как сферическими конями в вакууме.
Таки вы серьезно отстали от жизни, GaLL. Отмеченные погрешности глоттохронологи пркрасно осознают (и осознали едва ли не сразу же, как только Сводеш предложил свой метод... не без помощи "доброжелательных" критиков, разумеется :green:). Про неодинаковую вероятность выпадения разных слов из списка у самого Старостина несколько статей есть, где даже на материале большого количества языковых семей эмпирически подсчитывается, для какого слова какая вероятность.

Offline Darkstar

  • Posts: 7416
« Reply #42on: April 9, 2012, 17:31 »
Кстати, в статье по генезу семитских Andrew Kitchen, Christopher Ehret at al (04/2009) погрешности учитываются и для всех глоттохр значений дана дельта. Только толку от них. Дерево оно же либо кривое, либо некривое...
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Offline GaLL

  • Posts: 5549
  • Gender: Male
« Reply #43on: April 9, 2012, 19:29 »
Про неодинаковую вероятность выпадения разных слов из списка у самого Старостина несколько статей есть, где даже на материале большого количества языковых семей эмпирически подсчитывается, для какого слова какая вероятность.
Одну статью об этом я видел ("Определение устойчивости базисной лексики"). Но там не говорится применении этих индексов стабильности, и не обосновывается, почему они должны высчитываться именно таким способом.

« Reply #44on: September 16, 2012, 02:08 »
Просматривая статьи по глоттохронологии в сборнике "Новое в лингвистике" №1, среди которых и статья М. Сводеша, на которую часто ссылаются, я не нашёл применение методов мат. статистики, т. е. , например, нахождения доверительного интервала оценки времени распада для определённой надёжности. Формула радиоактивного распада берётся для лексики без учёта (во всяком случае, такое складывается впечатление) того, что рассматриваемое радиоактивное вещество обычно содержит на порядки больше атомов, чем списки лексики - слов, и точность формулы в первом случае - следствие ЗБЧ (закона больших чисел). Неужели такой подход типичен для лексикостатистики?

Offline winter cat

  • Posts: 756
« Reply #45on: September 16, 2012, 23:41 »
Венгерский -- это "креол", я давно говорил...
Но у ASJP он нормально позиционирован в угорские.
Аргументируйте, пожалуйста...
Креол из чего?

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: