Лингвофорум

Теоретический раздел => Общая лингвистика => Компаративистика => Тема начата: Nevik Xukxo от апреля 8, 2012, 17:53

Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 8, 2012, 17:53
Цитата: autolyk от апреля  8, 2012, 17:49
Ничего лексикостатистика на таких временных дистанциях не подтверждает, особенно если были интенсивные языковые контакты.

Но массовое проникновение заимствований в список Сводеша - такое бывает? :what:
Название: *Лексикостатистика
Отправлено: ali_hoseyn от апреля 8, 2012, 18:03
Offtop
Цитата: Devorator linguarum от апреля  8, 2012, 15:02А вот лексикостатистическая классификация вообще всех языков Евразии со старостинского сайта.
http://starling.rinet.ru/new100/eurasia_long.jpg

ИМХО, разделение афразийских должно выглядеть совершенно иначе :no:
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 8, 2012, 18:06
Цитата: ali_hoseyn от апреля  8, 2012, 18:03
Offtop
ИМХО, разделение афразийских должно выглядеть совершенно иначе :no:

Offtop
Сразу бросилось в глаза деление чадских на три группы, хотя англовики писала, что в общем-то маса признаются четвёртой...
Название: *Лексикостатистика
Отправлено: ali_hoseyn от апреля 8, 2012, 18:13
Offtop
Я так и знал, что следующий комментарий будет от Чукчи.
Название: *Лексикостатистика
Отправлено: I. G. от апреля 8, 2012, 18:14
Цитата: ali_hoseyn от апреля  8, 2012, 18:13
Offtop
Я так и знал, что следующий комментарий будет от Чукчи.
Вы с Тамарой ходим парой.
Название: *Лексикостатистика
Отправлено: ali_hoseyn от апреля 8, 2012, 18:15
Offtop
Чесслово, иногда мне кажется, что он меня преследует, стоит мне только заикнуться об афразийских.
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 8, 2012, 18:17
Offtop
И в кушитских с семитскими у них местами что-то не то, наверное.
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 8, 2012, 18:23
Хотя, возможно, их лексикостатистика революционна и победит косные мнения прошлого. :umnik:
Название: *Лексикостатистика
Отправлено: Devorator linguarum от апреля 8, 2012, 18:28
Их лексикостатистика каждый раз разные результаты дает. Если порыться, на том сайте еще где-то висит старый вариант, который еще сам Старостин делал, - так отличия довольно существенные. А уж расхождения между тремя вариантами тюркской лексикостатистики, которые в СИГТЯ публиковались, - это вообще позор.
Название: *Лексикостатистика
Отправлено: Devorator linguarum от апреля 8, 2012, 18:31
Вообще, при всех вопросах к схеме Янхунена, у него уральская дивергенция выглядит более вменяемо.
Название: *Лексикостатистика
Отправлено: smith371 от апреля 8, 2012, 18:36
Цитата: ali_hoseyn от апреля  8, 2012, 18:15
Offtop
Чесслово, иногда мне кажется, что он меня преследует, стоит мне только заикнуться об афразийских.

Ксю знает все языки мира, потому что сидит на его крыше. а вообще, тема скатывается в ПН и мракобесие.
Название: *Лексикостатистика
Отправлено: smith371 от апреля 8, 2012, 18:37
Цитата: autolyk от апреля  8, 2012, 17:49
Ничего лексикостатистика на таких временных дистанциях не подтверждает, особенно если были интенсивные языковые контакты.

вот! именно!
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 8, 2012, 18:45
Цитата: smith371 от апреля  8, 2012, 18:36
Ксю знает все языки мира, потому что сидит на его крыше.

Если классификация противоречит англовикишной, то это повод задуматься о её маргинальности. :umnik:
Название: *Лексикостатистика
Отправлено: Rōmānus от апреля 8, 2012, 19:05
Ксю-ксю очень тонко всех троллит, а вы ведётесь :negozhe:
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 8, 2012, 19:07
Цитата: Rōmānus от апреля  8, 2012, 19:05
Ксю-ксю очень тонко всех троллит, а вы ведётесь :negozhe:

Лучше бы интересными мыслями по сабжу поделились. :(
Название: *Лексикостатистика
Отправлено: Rōmānus от апреля 8, 2012, 19:44
Цитата: snn от апреля  8, 2012, 19:11
Цитата: Nevik Xukxo от апреля  8, 2012, 19:07
Цитата: Rōmānus от апреля  8, 2012, 19:05
Ксю-ксю очень тонко всех троллит, а вы ведётесь :negozhe:

Лучше бы интересными мыслями по сабжу поделились. :(
Скажите, а это правда, что венгерский отстоит от тюркских более, чем все остальные уральские?  :what:
Вы задали такой странный вопрос, что даже не знаю, что и сказать  :???
Название: *Лексикостатистика
Отправлено: autolyk от апреля 8, 2012, 19:46
Кстати, Даркстар как-то приводил лексикостатистику для германских. Так там английский отстоял от голландского примерно как норвежский. :)
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 8, 2012, 19:49
Цитата: autolyk от апреля  8, 2012, 19:46
Так там английский отстоял от голландского примерно как норвежский.

Видимо, там тоже какой-то бардак в самом Сводеше. :(
Название: *Лексикостатистика
Отправлено: Rōmānus от апреля 8, 2012, 19:52
В топку лексикостатистику, как абсолютно НЕПРАВИЛЬНЫЙ метод. В венгерском славянский фонд составляет 20% всех корней (!), а финно-угорский только 22-23%. Но чтобы было смешнее 30% слов - неизвестного происхождения. Тут не то что на "насратику" хватает с горкой, тут хватит когнатов, чтобы уверенно записать венгерский в ие. язык с сильный фу. адстратом. В том же албанском, насколько мне известно, исконной ие. лексики (без латинских и греческих заимствований) и того меньше
Название: *Лексикостатистика
Отправлено: autolyk от апреля 8, 2012, 19:52
Цитата: Nevik Xukxo от апреля  8, 2012, 19:49
Видимо, там тоже какой-то бардак в самом Сводеше.
Так они ещё ток-писин в германские включили, представляете какая там глубина дивергенции. :)
Название: *Лексикостатистика
Отправлено: smith371 от апреля 8, 2012, 20:18
Цитата: autolyk от апреля  8, 2012, 19:52
Так они ещё ток-писин в германские включили, представляете какая там глубина дивергенции. :)

это прямо можно ко мне в блог, в топик "грехи науки" и не только это.
Название: *Лексикостатистика
Отправлено: I. G. от апреля 8, 2012, 20:18
Цитата: smith371 от апреля  8, 2012, 20:18
Цитата: autolyk от апреля  8, 2012, 19:52
Так они ещё ток-писин в германские включили, представляете какая там глубина дивергенции. :)

это прямо можно ко мне в блог, в топик "грехи науки" и не только это.
Вы сами еще тот грешник.  ;)
Название: *Лексикостатистика
Отправлено: smith371 от апреля 8, 2012, 20:22
Цитата: I. G. от апреля  8, 2012, 20:18
Вы сами еще тот грешник.  ;)

трижды ж раскаялся и от Нгати отрекса. а то что к тебе не пристаю - это ж не грех, дэсу же ;)
Название: *Лексикостатистика
Отправлено: I. G. от апреля 8, 2012, 20:23
Цитата: smith371 от апреля  8, 2012, 20:22
Цитата: I. G. от апреля  8, 2012, 20:18
Вы сами еще тот грешник.  ;)

трижды ж раскаялся и от Нгати отрекса. а то что к тебе не пристаю - это ж не грех, дэсу же ;)
Я про грехи науки.  :what:
Название: *Лексикостатистика
Отправлено: smith371 от апреля 8, 2012, 20:26
Цитата: I. G. от апреля  8, 2012, 20:23
Цитата: smith371 от апреля  8, 2012, 20:22
Цитата: I. G. от апреля  8, 2012, 20:18
Вы сами еще тот грешник.  ;)

трижды ж раскаялся и от Нгати отрекса. а то что к тебе не пристаю - это ж не грех, дэсу же ;)
Я про грехи науки.  :what:

Цитата: Rōmānus от апреля  8, 2012, 19:52
В топку лексикостатистику, как абсолютно НЕПРАВИЛЬНЫЙ метод. В венгерском славянский фонд составляет 20% всех корней (!), а финно-угорский только 22-23%. Но чтобы было смешнее 30% слов - неизвестного происхождения. Тут не то что на "насратику" хватает с горкой, тут хватит когнатов, чтобы уверенно записать венгерский в ие. язык с сильный фу. адстратом. В том же албанском, насколько мне известно, исконной ие. лексики (без латинских и греческих заимствований) и того меньше

тема грехов науки - указывать на корявость метода или неряшливость его использования, устоявшаяся и по инерции обкатывающаяся.
Название: *Лексикостатистика
Отправлено: smith371 от апреля 8, 2012, 20:35
Цитата: Rōmānus от апреля  8, 2012, 19:52
В том же албанском, насколько мне известно, исконной ие. лексики (без латинских и греческих заимствований) и того меньше

темные джунгли ентот ваш албанский. учить легко, этимологизировать сложно. Орел он конечно тот еще "орел", но заимствованные единицы от когнатов или конвергированных там сложно отделить.
Название: *Лексикостатистика
Отправлено: GaLL от апреля 8, 2012, 23:38
По поводу деревьев на основе лексикостатистики: почему-то глоттохронологи обычно забывают о том, что закон полураспада (и модифицированные формулы, как у Старостина) имеют статистическую погрешность, и прежде чем применять их, следует эту погрешность оценить. Например, возьмём традиционную формулу глоттохронологии:
N(t) = N0 * exp(-L*t)
где t - время (например, в тысячелетиях), L - некая константа, определяемая эпмирически, N0 - начальный набор слов в базовом списке, например, 100, N(t) - число слов базового списка, остающихся через время t в языке.
На самом деле даже такое приближение хорошо описывает изменение базовой лексики, никак нельзя говорить, что число слов, оставшихся в языке, будет точно соответствовать формуле. Коротко о статистической оценке для данного случая можно прочитать, например, здесь: http://nuclphys.sinp.msu.ru/experiment/statistic/index.html
Взяв t = 2 (тысячелетия), L = 0.14, по формуле получим N(2) примерно равно 0.756, т. е. ожидается сохранение 76 слов из базового списка (пример из статьи С. А. Старостина).
Попробуем посчитать P(x) - вероятность, что через время t = 2 тысячелетия при L = 0.14 сохранится ровно x слов из N=100 по формуле
P(x) = C(N, x) * exp(-x*L*t) * (1 - exp(-L*t))^(N-x)
(первый множитель - число способов выбрать конкретные х слов из N, т. е. число сочетаний из N по х, второй - вероятность того, что сохранятся фиксированные х слов, третий - вероятность того, что утратятся фиксированные N-x слов):
P(76) ≈ 0.0926
P(75) ≈ 0.0910
P(77) ≈ 0.0893
P(80) ≈ 0.0571
Как видно, хотя для х = 76 вероятность максимальна, для соседних величин 75 и 77 она немногим меньше.
Очевидно, что погрешности возникают довольно серьёзные (это касается и модифицированной формулы Старостина), так что если дерево сильно ветвится за короткий промежуток времени, трудно воспринимать это ветвление всерьёз.

Название: *Лексикостатистика
Отправлено: GaLL от апреля 8, 2012, 23:50
К тому же такой подход оперирует со словами базового списка как с одинаково распределёнными случайными величинами, хотя на самом деле из стабильность различна: например, в ИЕ языках местоимение "я" обнаруживает куда большую стабильность, нежели "хвост", "вошь", "луна" и т. п. Кроме того, фонетический облик слова и характер перестроек при изменении языка также влияет на стабильность: если данное слово совпадёт с другим из-за омонимии, велика вероятность его замены другим.
В общем, лексикостатистика в том виде, в котором она существует, оперирует словами как сферическими конями в вакууме.
Название: *Лексикостатистика
Отправлено: GaLL от апреля 9, 2012, 00:19
Вот упомянутая статья С. А. Старостина: http://www.nostratic.net/books/(140)Starostin_Glotto1.pdf
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 9, 2012, 07:14
GaLL, а как вы относитесь к склонности деревьев к бинарному делению? Почему так получается?
Название: *Лексикостатистика
Отправлено: autolyk от апреля 9, 2012, 07:20
Цитата: snn от апреля  8, 2012, 21:31
Что Вы можете сказать по этой статье?
http://www.s155239215.onlinehome.us/turkic/40_Language/UraliAltaicPSandHungarDistancesEn.htm
По ссылке не хватает самого важного:
ЦитироватьFirst, we develop a general method for visualizing the distances among categories (such as languages) on the basis of any set of features (such as structural traits) they could share. Second, we apply this method to an existing set of features of northern Eurasian languages, collected by P. Klesment, A. Kunnap, S.-E. Soosaar, R. Taagepera (2003).

A general method for visualizing inter-category distances (Section omitted)

These 46 features are listed below, indicating their occurrence in the subgroups of U, A, and PS, as well as in Germanic [GER], Slavic [SLA], Baltic [BAL].  (Section omitted)


Сложилось впечатление, что авторы взяли некий набор фонетических, морфологических и грамматических особенностей и посчитали коэффициенты по ф-ле:
[d.sub.ij] = 1 - [a.sub.ij]/([a.sub.i][a.sub.j])0.5, где [a.sub.ij] кол-во общих особенностей (из списка) между подгруппами, а [a.sub.i] кол-во особенностей в подгруппе.
Не имея возможности ознакомится с методом отбора характерных признаков, служивших для расчёта коэффициентов, сказать что-либо по существу затруднительно. Но результаты, мягко говоря, настораживают. 
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 9, 2012, 07:22
Цитата: autolyk от апреля  9, 2012, 07:20
Но результаты, мягко говоря, настораживают.

Не лучше, чем то, что Даркстар рекламирует?
Название: *Лексикостатистика
Отправлено: autolyk от апреля 9, 2012, 07:27
Цитата: Nevik Xukxo от апреля  9, 2012, 07:22
Не лучше, чем то, что Даркстар рекламирует?
Это сродни скорее «методикам» Акулова, и результат хуже, чем у Даркстара. Взять, напр., особую близость мордовских к палеоазиатским.
Цитата: Nevik Xukxo от апреля  9, 2012, 07:14
как вы относитесь к склонности деревьев к бинарному делению? Почему так получается?
Вероятность разрыва диалектного континуума в нескольких местах одновременно меньше, чем в одном.
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 9, 2012, 08:10
Цитата: autolyk от апреля  9, 2012, 07:27
Вероятность разрыва диалектного континуума в нескольких местах одновременно меньше, чем в одном.

Просто эта склонность к бинарности иногда мне кажется навязчивой. Надеюсь, я ошибаюсь.
Название: *Лексикостатистика
Отправлено: GaLL от апреля 9, 2012, 09:49
Цитата: Nevik Xukxo от апреля  9, 2012, 07:14
GaLL, а как вы относитесь к склонности деревьев к бинарному делению? Почему так получается?
По поводу метода построения дерева можно прочитать в учебнике Старостина - Бурлак (но я не уверен, что для того дерева использовался именно он):
http://krotov.info/libr_min/02_b/ur/lak_2005.htm
О ветвлениях дерева, происходящих в короткий промежуток, я уже говорил. Имхо, после отделения  тохарских расхождение ИЕ не описать бинарным деревом.
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 9, 2012, 09:58
Цитата: GaLL от апреля  9, 2012, 09:49
Имхо, после отделения  тохарских расхождение ИЕ не описать бинарным деревом.

Видел где-то дерево: разделили на греко-армяно-арийские и европейские (без греческих)... объединять все европейские даже без греческих неправильно?
Название: *Лексикостатистика
Отправлено: GaLL от апреля 9, 2012, 10:10
Не понял вопроса. Где-то есть основание говорить о бинарном расветвлении, где-то нет.
И вообще, я хотел напомнить, что этот метод получает лишь статистически наиболее вероятное дерево, и близкие ему деревья будут почти такими же вероятными (если конечно метод верен). Причём метод опирается лишь на список Сводеша, превращая слова в сферических коней, используя некоторые представления о том, каких слова в данных языках родственны (которые могут быть ещё сто раз пересмотрены, не говоря уж о том, что родство этих семей требует доказательства). Кроме того, равномерность процесса изменения базовой лексики не доказана.
Название: *Лексикостатистика
Отправлено: snn от апреля 9, 2012, 10:42
Цитата: autolyk от апреля  9, 2012, 07:20

По ссылке не хватает самого важного:
ЦитироватьFirst, we develop a general method for visualizing the distances among categories (such as languages) on the basis of any set of features (such as structural traits) they could share. Second, we apply this method to an existing set of features of northern Eurasian languages, collected by P. Klesment, A. Kunnap, S.-E. Soosaar, R. Taagepera (2003).

A general method for visualizing inter-category distances (Section omitted)

These 46 features are listed below, indicating their occurrence in the subgroups of U, A, and PS, as well as in Germanic [GER], Slavic [SLA], Baltic [BAL].  (Section omitted)


Сложилось впечатление, что авторы взяли некий набор фонетических, морфологических и грамматических особенностей и посчитали коэффициенты по ф-ле:
[d.sub.ij] = 1 - [a.sub.ij]/([a.sub.i][a.sub.j])0.5, где [a.sub.ij] кол-во общих особенностей (из списка) между подгруппами, а [a.sub.i] кол-во особенностей в подгруппе.
Не имея возможности ознакомится с методом отбора характерных признаков, служивших для расчёта коэффициентов, сказать что-либо по существу затруднительно. Но результаты, мягко говоря, настораживают.
Вот тут подробнее:
http://www.thefreelibrary.com/Distances among Uralic and other Northern Eurasian languages/[TEXT...-a0200671842 (http://www.thefreelibrary.com/Distances+among+Uralic+and+other+Northern+Eurasian+languages%2F%5BTEXT...-a0200671842)
ЦитироватьСложилось впечатление
У меня сложилось впечатление, что авторы попробовали сделать нечто подобное тому, как генетики в разных компонентах вычисляют близость между разными популяциями. Результаты подчас тоже бывают неожиданными. :)
Цитировать[d.sub.ij] = 1 - [a.sub.ij]/([a.sub.i][a.sub.j])0.5, где [a.sub.ij]
Да, именно так. :)
Название: *Лексикостатистика
Отправлено: Darkstar от апреля 9, 2012, 12:25
Gall,
Ваши замечания касательно погрешностей абсолютно правильны! Я и сам не считаю погрешности, чтобы не отягащать мат. аппаратом, просто держу их в уме (т.е. отбрасываю сомнительные места "на глазок".)

Все остальное -- это банальности.

С точки зрения математики меня больше интересуют то, что называют Bayesian approach (как обычно в математике название не имеет ни какого отношения к содержанию), где речь идет о построении филогений с элементами статистики. В принципе, сейчас это загнано уже в программные алгоритмы, и вероятно, люди которые этим пользуются сами не понимают, как это работает. (Еще у Старостина деревья строились автоматически, на каком алгоритме тоже не очень ясно. ) Для австронезийских в частности сейчас это активно развивают...
Название: *Лексикостатистика
Отправлено: Nevik Xukxo от апреля 9, 2012, 13:00
Погрешности вообще нарастают со временем или нет системы?
Название: *Лексикостатистика
Отправлено: snn от апреля 9, 2012, 13:08
Цитата: Nevik Xukxo от апреля  9, 2012, 13:00
Погрешности вообще нарастают со временем или нет системы?
Боюсь, что системы тут нет.
Название: *Лексикостатистика
Отправлено: Devorator linguarum от апреля 9, 2012, 16:15
Цитата: GaLL от апреля  8, 2012, 23:50
К тому же такой подход оперирует со словами базового списка как с одинаково распределёнными случайными величинами, хотя на самом деле из стабильность различна: например, в ИЕ языках местоимение "я" обнаруживает куда большую стабильность, нежели "хвост", "вошь", "луна" и т. п. Кроме того, фонетический облик слова и характер перестроек при изменении языка также влияет на стабильность: если данное слово совпадёт с другим из-за омонимии, велика вероятность его замены другим.
В общем, лексикостатистика в том виде, в котором она существует, оперирует словами как сферическими конями в вакууме.
Таки вы серьезно отстали от жизни, GaLL. Отмеченные погрешности глоттохронологи пркрасно осознают (и осознали едва ли не сразу же, как только Сводеш предложил свой метод... не без помощи "доброжелательных" критиков, разумеется :green:). Про неодинаковую вероятность выпадения разных слов из списка у самого Старостина несколько статей есть, где даже на материале большого количества языковых семей эмпирически подсчитывается, для какого слова какая вероятность.
Название: *Лексикостатистика
Отправлено: Darkstar от апреля 9, 2012, 16:31
Кстати, в статье по генезу семитских Andrew Kitchen, Christopher Ehret at al (04/2009) погрешности учитываются и для всех глоттохр значений дана дельта. Только толку от них. Дерево оно же либо кривое, либо некривое...
Название: *Лексикостатистика
Отправлено: GaLL от апреля 9, 2012, 18:29
Цитата: Devorator linguarum от апреля  9, 2012, 16:15
Про неодинаковую вероятность выпадения разных слов из списка у самого Старостина несколько статей есть, где даже на материале большого количества языковых семей эмпирически подсчитывается, для какого слова какая вероятность.
Одну статью об этом я видел ("Определение устойчивости базисной лексики"). Но там не говорится применении этих индексов стабильности, и не обосновывается, почему они должны высчитываться именно таким способом.
Название: *Лексикостатистика
Отправлено: GaLL от сентября 16, 2012, 01:08
Просматривая статьи по глоттохронологии в сборнике "Новое в лингвистике" №1, среди которых и статья М. Сводеша, на которую часто ссылаются, я не нашёл применение методов мат. статистики, т. е. , например, нахождения доверительного интервала оценки времени распада для определённой надёжности. Формула радиоактивного распада берётся для лексики без учёта (во всяком случае, такое складывается впечатление) того, что рассматриваемое радиоактивное вещество обычно содержит на порядки больше атомов, чем списки лексики - слов, и точность формулы в первом случае - следствие ЗБЧ (закона больших чисел). Неужели такой подход типичен для лексикостатистики?
Название: *Лексикостатистика
Отправлено: winter cat от сентября 16, 2012, 22:41
Цитата: Darkstar от апреля  9, 2012, 12:33
Венгерский -- это "креол", я давно говорил...
Но у ASJP он нормально позиционирован в угорские.
Аргументируйте, пожалуйста...
Креол из чего?