Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Пара вопросов о глоттохронологии на сайте starling.rinet.ru.

Автор yurifromspb, февраля 9, 2016, 03:15

0 Пользователи и 1 гость просматривают эту тему.

yurifromspb

Здравствуйте!

Меня интересует, каким алгоритмом строятся деревья на http://starling.rinet.ru/new100/mainr.htm. Во-первых, я не смог найти ссылку на первоисточник, в во-вторых, обнаружил, что эти деревья отличаются от оптимальных, если считать критерием оптимальности "минимальность эволюции" (см. т.н. minimum evolution method). E.g. для романских это отличие значительно.

Другой вопрос касается формулы Старостина, используемой для вычисления матрицы расстояний. Эта формула, мягко говоря, эээ... произвольна, хотя мотивы, лежащие в её основе, конечно, понятны. Чтобы не быть голословным и не принуждать читать первоисточник (http://starling.rinet.ru/Texts/Starostin_GlottoRus.pdf) изложу вкратце суть дела.
Старостин начинает с формулы Сводеша, он приводит её предпосылки и её саму.
(1) N = N0*exp(-λ*t)
Далее он пишет, как получить из неё время дивергенции, как вести себя в случае нескольких языков и приводит примеры (надо заметить, там есть странные ошибки, но они вероятно являются ошибками наборщика, поскольку формулы вообще небрежно набраны, например степень не в верхнем регистре, и, кроме того, придётся предположить, что Старостин не знал, что такое логарифмы).
Далее он приходит к выводу, что для малых времён число замен меньше сводешевского ("старение слов"). Причиной этому может быть сходное состояние недавно разделившихся языков. Это понятно, но формул, которые удовлетворяют этому условию бесконечное число. Старостин же берёт одну без аргументации:
(5) Ν = N0*exp(-λ*t^2)
Он просто подставляет t^2 вместо t в формуле Сводеша. Здесь сразу появляется бесконечная скорость замен в бесконечно удаленное время, т.е. этой формуле, в отличие от формулы Сводеша не соответствует никакая физически-осмысленная модель. Это несколько напрягает, хотя я не говорю, что так делать вообще нельзя - эмпирические формулы тоже имеют право на жизнь.
Далее Старостин замечает, что для дальних времен получаются сильно замоложенные датировки и говорит, что, по-видимому, некоторые слова устойчивее других. Есть, так сказать, очень труднозаменимые слова. На язык математики он преводит это так:
(8) λ = λ0*N(t)
И здесь, опять же, "перевод" довольно вольный, ведь если воспринимать существование распределения скоростей буквально, то должен быть интеграл по скорости. Что-то такое: Ν = Int[N(λ)*exp(-λ*t^2) dλ]
Далее Старостин подставляет (8) вместо λ в (5). Вообще, если считать λ в (8) как некую мгновенную скорость, то так делать нельзя, надо решать дифференциальное уравнение. Т.е., dN = -λ*N^2*t*dt => N = N0 / [1+λ*t^2*N0], что существенно отличается от (9), которое, кстати, является функциональным уравнением, а не функцией.
(9) Ν(t) = N0*exp(-λ*Ν(t)*t^2)
Отсюда уже получается формула для оценки времени дивергенции, которая используется на starling'е.

Собственно вопрос, а есть ли критические обзоры, попытки рефлексии глоттохронологии, просто интересные, "физически осмысленные", модели замен слов? Или глоттохронология так и делается, подобрал формулу под свою интуицию и вперёд? Я любопытствующий дилетант, если что, могу многого не знать.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

yurifromspb

Что-то откликов нет. Никто не занимается глоттохронологией?
Я оставлю здесь сравнение деревьев для романских языков: старлинговского и полученного методом минимальной эволюции (по идее, это лучший из дистантных методов) по той же матрице расстояний. Может быть это кого-то заинтересует. Потом, возможно, попробую помоделировать нечто, касающееся замен слов. Не факт, что это случится, но, если случиться, напишу сюда, или в блог, если мне его дадут. Впрочем, как Бог даст.



Дерево в ньювиксом формате и матрица совпадений со старлинга - во вложении. Чтобы получить оценку времени дивергенции надо сложить длины ребер, соединяющих листья.
Повторить построение можно, например, на языке R, так:

require(ape)

rommx <- read.csv(file = '100.csv', row.names = 1) #Надо указать правильный путь.
langnames <- c(dimnames(rommx)[[1]][1],dimnames(rommx)[[2]])
langnum <- length(langnames)
wordmx <- matrix(nrow = langnum, ncol = langnum, dimnames = list(langnames,langnames))
wordmx[1:(langnum-1),2:langnum] <- as.matrix(rommx)
diag(wordmx) <- 1
wordmx[lower.tri(wordmx)] <- t(wordmx)[lower.tri(wordmx)]

sqrtmx = sqrt(wordmx)
starostin = sqrt(log(sqrtmx)/(-0.05*sqrtmx))
startree <- fastme.bal(starostin)
write.tree(startree,file = 'star.me.nwk') #Надо указать нужный путь.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Mihailov

Цитата: yurifromspb от февраля  9, 2016, 03:15
Собственно вопрос, а есть ли критические обзоры, попытки рефлексии глоттохронологии, просто интересные, "физически осмысленные", модели замен слов?
Есть у Васильева доклад двухлетней давности
http://starling.rinet.ru/confer/Vasilyev-2014.pdf
Там показывается, что старостинская формула нехороша, потому что нарушается хронологическая инвариантность. То есть результат зависит от того, какой момент времени мы примем за начальный

Alone Coder

Старостин - это известный персонаж, искавший совпадения слов в наобум взятых языках по всему словарю с помощью компьютера и заявлявший потом, что они родственны. Автор "сино-кавказской" и "алтайской" макросемей, о которых не принято говорить в приличном обществе.


yurifromspb

Цитата: Mihailov от февраля 15, 2016, 17:08
Есть у Васильева доклад двухлетней давности
http://starling.rinet.ru/confer/Vasilyev-2014.pdf
Там показывается, что старостинская формула нехороша, потому что нарушается хронологическая инвариантность. То есть результат зависит от того, какой момент времени мы примем за начальный
Мне кажется, Васильев не понял мысли Старостина. Старостин ведь сознательно отказался от постоянства скорости выбывания слов и аргументировал этот отказ. Другой вопрос, - как это непостоянство трактовать. Особенно, конечно, странно, что у Старостина непостоянство скорости сохраняется на любых масштабах времён. Вот это, и правда, нехорошо. Но у него формула взята произвольна, без глубокого математического основания, так что другого ожидать трудно.

Цитата: Alone Coder от Старостин - это известный персонаж, искавший совпадения слов в наобум взятых языках по всему словарю с помощью компьютера и заявлявший потом, что они родственны. Автор "сино-кавказской" и "алтайской" макросемей, о которых не принято говорить в приличном обществе.
Я читал кое-какие воспоминания о нём, его вроде бы воспринимают как гения. Я бы даже сказал, им очарованы, причём серьёзные лингвисты, не люди со стороны. А что, правда, вот так и искал "совпадения слов в наобум взятых языках"? Есть какие-нибудь тексты про это в открытом доступе?
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Alone Coder

Он сам описывал свою программу. Если не ошибаюсь, в этом сборнике: http://apsnyteka.org/1476-starostin_s_trudy_po_jazykoznanyu.html
Помню, удивлялся, что на протяжении ВСЕГО сборника ни разу не рассматривается возможность случайного совпадения слов.

Про алтайскую теорию было, например, Alexander Vovin. 2005. "The End of the Altaic Controversy" (но текст исчез из сети). Там, в частности, про то, как Старостин сотоварищи сравнивали "какая-то рыба" с "какая-то рыба" и заодно засовывали суффиксы в корень и наоборот. Та же тусовка занимается ностратикой и прочей бореальщиной (в том числе и с рекламой по ТВ) и, разумеется, моет друг другу руки.


smith371

Цитата: Alone Coder от февраля 16, 2016, 10:01
Та же тусовка занимается ностратикой и прочей бореальщиной (в том числе и с рекламой по ТВ) и, разумеется, моет друг другу руки.

та же тусовка распространяет свою ересь среди ученых, связанных с лингвистикой лишь косвенно - антропологов, археологов, палеодемографов и т.д. в основном, по личным каналам - археолог решил спросить у коллеги по вузу, а "что вы скажете...?" и понеслось! разумеется, потом в лекциях этот археолог будет ссылаться на рекомендованные при личном общении книги, статьи, сайты. ересь распространяется, в общем.
Alii! Ke ua ngerang? Ak outkeu er kau el me er a bliongel el kirel a tekoi er a Belau! Sulang.

Подвергал, подвергаю и буду подвергать сомнению классификацию любых языков, описания которых нет в свободном доступе!

Злостный оверквотер, оверкиллер и... просто злостный.


Mihailov


yurifromspb

Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

yurifromspb

Цитата: Alone Coder от февраля 16, 2016, 10:01
Про алтайскую теорию было, например, Alexander Vovin. 2005. "The End of the Altaic Controversy" (но текст исчез из сети).
Нашёл: https://www.academia.edu/6345901/The_end_of_the_Altaic_controversy.
Сурово автор Илличу-Свитычу ответил: "не зная брода, не суйся в воду".  ;D
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Mihailov

Хочу сказать о поправках Старостина к формуле Сводеша – ускоряющей и замедляющей.  На мой взгляд, эти поправки плохо продуманы, зря Старостин их сделал. Он заметил, что чем длиннее отрезок времени, тем выше средняя скорость замен (константа Сводеша лямбда – число замен в 100-словнике за тысячелетие). Чтоб объяснить это явление, он предположил, что вероятность замены слова зависит от его возраста, а потому лямбда возрастает со временем. Как он сказал, слова отличаются от нейтронов тем, что стареют. Молодые слова меняются редко, а как проживут достаточно долго, так начинаются частые замены.
В этом рассуждении я вижу следующие слабости.
1) Из приводимых им данных следует не возрастание лямбды со временем, а наоборот, падение. Разберем один из его собственных примеров.
За период от поздней вульгарной латыни (+500 г.) до современного французского произошло 12 замен (в т.ч. 2 заимствования).  Получаем лямбду 0,09 при учете замен (ln0,88/1,5=0,09) и 0,07 без учета замен.
За период от классической латыни (-300 г. по Старостину) до современного французского – 26 замен (4 заимствования). Лямбда = 0,13 с заменами и 0,11 без замен.
Чем длиннее интервал, тем больше лямбда. Значит, по Старостину, вначале замены происходят сравнительно редко, а потом все чаще. Но из примера же видно обратное: на начальном этапе замен было больше. В латыни от -300 года до +500 случилось 15 замен (2 заимствования). Одна из этих замен потом еще раз заменилась на следующем этапе, потому 15=26-12+1. На первом этапе лямбда выходит 0,20 с заменами и 0,17 без замен. То есть не сталкиваемся мы «с явным феноменом увеличения скорости распада ОС при увеличении времени распада». Сталкиваемся с обратным феноменом, если не со случайной вариацией.
2) Допустим, слова действительно стареют и вероятность их замены увеличивается с течением времени. Но отсюда не следует нестабильность лямбды. Можно представить нестабильность в таком случае: если вдруг заменились одновременно все слова из 100-словника. Тогда мы увидим такую картину: в первое тысячелетие заменились, допустим, 3-4 слова, во второе тысячелетие – около 10, в третье – еще больше, а в 4-5 тысячелетиях старые слова начнут вымирать, как по команде, пока ни одного в живых не останется.
Но на самом деле такого одновременного обновления списка не бывает. Какой момент в истории языка ни возьми, всегда в списке будут слова разного возраста – и молодые, и старые, и средние. С течением времени одни слова уходят, другие приходят, сохранившиеся слова передвигаются в следующий возрастной разряд, а средний возраст списка остается одинаковым, а потому должна оставаться одинаковой и частота замен. Даже в случае чудесного обновления всего списка одновременно лямбда упадет только временно, а затем вернется к равновесному значению – когда установится разновозрастный состав списка.
3) Старостин не проверяет, выходят ли приводимые им разбросы лямбды за пределы случайной вариации. У меня же получилось, что все это в пределах случайной изменчивости.

yurifromspb

Вы поняли "старение слов" таким образом, что действительно получается абсурд, но, можно, в принципе, понять иначе. У Старостина, действительно, это тёмное место (возможно и для него тоже). Я пока не могу ответить подробно, если хотите, посмотрите в моём блоге комментарий к статье http://starling.rinet.ru/Texts/vasilyev.pdf: Заметки о глоттохронологии. Там, конечно, написано для себя, может быть не очень понятно, посмотрите и саму статью.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

yurifromspb

Я перенес данные Старостина и Васильева на график (там есть дублеты с несколько отличающимися значениями, но я  чистить не стал). Там три аппроксимации, видно, что аппроксимация Васильева гораздо лучше.
Заметки о глоттохронологии- запись в блоге. Здесь тоже продублирую.

Цитата: yurifromspb от февраля 19, 2016, 13:57
График по калибровочным данным данным Старостина и Васильева.

Красная линия - формула Стростина с λ=0.0623 residual sum-of-squares: 2.569
Зеленая - формула Васильева без неизменной части (= моя 4) с λ=0.3687 residual sum-of-squares: 0.03217
Синяя - полная формула Васильева [tex]c + (1-c)e^{-\lambda t}(1+\lambda t)[/tex]
c=0.5369 λ=0.6729 residual sum-of-squares: 0.02648
Видно, что формула Васильева гораздо лучше приближает данные.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

yurifromspb

Пример с латынью интересный. За 800 лет 15 замен, а за 1500 лет 12 замен. Выходит, что французский сильнее связан с вульгарной латынью, чем последняя с классической. Это может бросить тень на калибровки по литературным языкам.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Mihailov

Цитата: yurifromspb от февраля 19, 2016, 02:00
Вы поняли "старение слов" таким образом, что действительно получается абсурд, но, можно, в принципе, понять иначе.
Может быть, в идее Старостина мне что-то не ясно, зато мне ясно другое: корректная формула должна обеспечивать суммируемость интервалов.
Возьмем в истории языка моменты времени 1, 2 и 3. Рассчитаем по формуле временные интервалы Т12, Т23 и Т13. Должно быть Т12+Т23=Т13. По Сводешу и по Васильеву время суммируется. А по Старостину не суммируется самым грубым образом.
Статью я видел, спасибо. И хотелось бы ссылку на ваш блог.

Alone Coder

В те времена жил ещё Капица-младший, кумир миллионов (передача "Очевидное - невероятное"), который вывел другую "несуммируемую формулу": скорость роста населения-де пропорциональна его численности.

За этот огромный вклад в науку он был назначен вице-президентом РАЕН.

Mihailov

Цитата: yurifromspb от февраля 19, 2016, 14:11
Пример с латынью интересный. За 800 лет 15 замен, а за 1500 лет 12 замен. Выходит, что французский сильнее связан с вульгарной латынью, чем последняя с классической. Это может бросить тень на калибровки по литературным языкам.
Пока этот пример единственный, он ни на что тень не бросает. Знаете, какая там случайная вариация?
Корень(15*85/100)=3,57
Корень(12*88/100)=3,69.
Еще умножим эти стандартные отклонения на 2, чтобы выйти на доверительный интервал95%.
Вот когда таких примеров наберется много, тогда и появится предмет для размышлений.

yurifromspb

Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Mihailov

Цитата: Alone Coder от февраля 19, 2016, 14:44
который вывел другую "несуммируемую формулу": скорость роста населения-де пропорциональна его численности.
Ничего Капица не вывел, он только повторил за демографами формулу экспоненциального роста. А насчет суммируемости - здесь не суммируются проценты, а абсолютные прибавки вполне себе суммируются. Точно так же и денежные проценты набегают.

Alone Coder

Вы не поняли. В своей работе он расписал даже идеологию своей формулы - якобы поток изобретений пропорционален численности населения, а рост пропорционален потоку изобретений.

Только он не упомянул, что если человечество посчитать не целиком, а, например, Америку отдельно, то при суммировании получится совершенно другой результат.

Mihailov


Alone Coder

Ещё один пример из той же эпохи - Гумилёв, который в серии своих книг отстаивал пространственно-временные точки "этногенеза", выстроенные по прямым линиям. Красиво написано, куча ссылок (правда, на самые интересные "открытия", типа братания Александра Невского с Сартаком, ссылок нет), тоже кумир миллионов.

Так что Старостин никакого удивления не вызывает.

yurifromspb

Цитата: Mihailov от февраля 19, 2016, 14:36
Может быть, в идее Старостина мне что-то не ясно, зато мне ясно другое: корректная формула должна обеспечивать суммируемость интервалов.
Возьмем в истории языка моменты времени 1, 2 и 3. Рассчитаем по формуле временные интервалы Т12, Т23 и Т13. Должно быть Т12+Т23=Т13. По Сводешу и по Васильеву время суммируется. А по Старостину не суммируется самым грубым образом.
Статью я видел, спасибо. И хотелось бы ссылку на ваш блог.
Здесь мне тоже не всё понятно (есть к тому же две разные ситуации - сравнение двух одновременных языков и двух стадий одного языка, там старение слов можно интерпретировать по разному). Я не очень понял насчёт Сводеша и Васильева, с латынью, вроде как, как ни считай, интервалы не суммируются.  Вообще, сколько всего есть языков, для которых известны более двух стадий?
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр