Лингвофорум

Теоретический раздел => Общая лингвистика => Компаративистика => Тема начата: yurifromspb от февраля 9, 2016, 03:15

Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 9, 2016, 03:15
Здравствуйте!

Меня интересует, каким алгоритмом строятся деревья на http://starling.rinet.ru/new100/mainr.htm. Во-первых, я не смог найти ссылку на первоисточник, в во-вторых, обнаружил, что эти деревья отличаются от оптимальных, если считать критерием оптимальности "минимальность эволюции" (см. т.н. minimum evolution method). E.g. для романских это отличие значительно.

Другой вопрос касается формулы Старостина, используемой для вычисления матрицы расстояний. Эта формула, мягко говоря, эээ... произвольна, хотя мотивы, лежащие в её основе, конечно, понятны. Чтобы не быть голословным и не принуждать читать первоисточник (http://starling.rinet.ru/Texts/Starostin_GlottoRus.pdf) изложу вкратце суть дела.
Старостин начинает с формулы Сводеша, он приводит её предпосылки и её саму.
(1) N = N0*exp(-λ*t)
Далее он пишет, как получить из неё время дивергенции, как вести себя в случае нескольких языков и приводит примеры (надо заметить, там есть странные ошибки, но они вероятно являются ошибками наборщика, поскольку формулы вообще небрежно набраны, например степень не в верхнем регистре, и, кроме того, придётся предположить, что Старостин не знал, что такое логарифмы).
Далее он приходит к выводу, что для малых времён число замен меньше сводешевского ("старение слов"). Причиной этому может быть сходное состояние недавно разделившихся языков. Это понятно, но формул, которые удовлетворяют этому условию бесконечное число. Старостин же берёт одну без аргументации:
(5) Ν = N0*exp(-λ*t^2)
Он просто подставляет t^2 вместо t в формуле Сводеша. Здесь сразу появляется бесконечная скорость замен в бесконечно удаленное время, т.е. этой формуле, в отличие от формулы Сводеша не соответствует никакая физически-осмысленная модель. Это несколько напрягает, хотя я не говорю, что так делать вообще нельзя - эмпирические формулы тоже имеют право на жизнь.
Далее Старостин замечает, что для дальних времен получаются сильно замоложенные датировки и говорит, что, по-видимому, некоторые слова устойчивее других. Есть, так сказать, очень труднозаменимые слова. На язык математики он преводит это так:
(8) λ = λ0*N(t)
И здесь, опять же, "перевод" довольно вольный, ведь если воспринимать существование распределения скоростей буквально, то должен быть интеграл по скорости. Что-то такое: Ν = Int[N(λ)*exp(-λ*t^2) dλ]
Далее Старостин подставляет (8) вместо λ в (5). Вообще, если считать λ в (8) как некую мгновенную скорость, то так делать нельзя, надо решать дифференциальное уравнение. Т.е., dN = -λ*N^2*t*dt => N = N0 / [1+λ*t^2*N0], что существенно отличается от (9), которое, кстати, является функциональным уравнением, а не функцией.
(9) Ν(t) = N0*exp(-λ*Ν(t)*t^2)
Отсюда уже получается формула для оценки времени дивергенции, которая используется на starling'е.

Собственно вопрос, а есть ли критические обзоры, попытки рефлексии глоттохронологии, просто интересные, "физически осмысленные", модели замен слов? Или глоттохронология так и делается, подобрал формулу под свою интуицию и вперёд? Я любопытствующий дилетант, если что, могу многого не знать.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 13, 2016, 01:37
Что-то откликов нет. Никто не занимается глоттохронологией?
Я оставлю здесь сравнение деревьев для романских языков: старлинговского и полученного методом минимальной эволюции (по идее, это лучший из дистантных методов) по той же матрице расстояний. Может быть это кого-то заинтересует. Потом, возможно, попробую помоделировать нечто, касающееся замен слов. Не факт, что это случится, но, если случиться, напишу сюда, или в блог, если мне его дадут. Впрочем, как Бог даст.

(https://img-fotki.yandex.ru/get/39232/8390819.0/0_e3fa3_c2714fe6_orig)

Дерево в ньювиксом формате и матрица совпадений со старлинга - во вложении. Чтобы получить оценку времени дивергенции надо сложить длины ребер, соединяющих листья.
Повторить построение можно, например, на языке R, так:

require(ape)

rommx <- read.csv(file = '100.csv', row.names = 1) #Надо указать правильный путь.
langnames <- c(dimnames(rommx)[[1]][1],dimnames(rommx)[[2]])
langnum <- length(langnames)
wordmx <- matrix(nrow = langnum, ncol = langnum, dimnames = list(langnames,langnames))
wordmx[1:(langnum-1),2:langnum] <- as.matrix(rommx)
diag(wordmx) <- 1
wordmx[lower.tri(wordmx)] <- t(wordmx)[lower.tri(wordmx)]

sqrtmx = sqrt(wordmx)
starostin = sqrt(log(sqrtmx)/(-0.05*sqrtmx))
startree <- fastme.bal(starostin)
write.tree(startree,file = 'star.me.nwk') #Надо указать нужный путь.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Mihailov от февраля 15, 2016, 17:08
Цитата: yurifromspb от февраля  9, 2016, 03:15
Собственно вопрос, а есть ли критические обзоры, попытки рефлексии глоттохронологии, просто интересные, "физически осмысленные", модели замен слов?
Есть у Васильева доклад двухлетней давности
http://starling.rinet.ru/confer/Vasilyev-2014.pdf (http://starling.rinet.ru/confer/Vasilyev-2014.pdf)
Там показывается, что старостинская формула нехороша, потому что нарушается хронологическая инвариантность. То есть результат зависит от того, какой момент времени мы примем за начальный
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Alone Coder от февраля 15, 2016, 18:41
Старостин - это известный персонаж, искавший совпадения слов в наобум взятых языках по всему словарю с помощью компьютера и заявлявший потом, что они родственны. Автор "сино-кавказской" и "алтайской" макросемей, о которых не принято говорить в приличном обществе.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Mihailov от февраля 15, 2016, 19:06
Алтайскую не Старостин предложил.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 15, 2016, 22:47
Цитата: Mihailov от февраля 15, 2016, 17:08
Есть у Васильева доклад двухлетней давности
http://starling.rinet.ru/confer/Vasilyev-2014.pdf (http://starling.rinet.ru/confer/Vasilyev-2014.pdf)
Там показывается, что старостинская формула нехороша, потому что нарушается хронологическая инвариантность. То есть результат зависит от того, какой момент времени мы примем за начальный
Мне кажется, Васильев не понял мысли Старостина. Старостин ведь сознательно отказался от постоянства скорости выбывания слов и аргументировал этот отказ. Другой вопрос, - как это непостоянство трактовать. Особенно, конечно, странно, что у Старостина непостоянство скорости сохраняется на любых масштабах времён. Вот это, и правда, нехорошо. Но у него формула взята произвольна, без глубокого математического основания, так что другого ожидать трудно.

Цитата: Alone Coder от Старостин - это известный персонаж, искавший совпадения слов в наобум взятых языках по всему словарю с помощью компьютера и заявлявший потом, что они родственны. Автор "сино-кавказской" и "алтайской" макросемей, о которых не принято говорить в приличном обществе.
Я читал кое-какие воспоминания о нём, его вроде бы воспринимают как гения. Я бы даже сказал, им очарованы, причём серьёзные лингвисты, не люди со стороны. А что, правда, вот так и искал "совпадения слов в наобум взятых языках"? Есть какие-нибудь тексты про это в открытом доступе?
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Alone Coder от февраля 16, 2016, 10:01
Он сам описывал свою программу. Если не ошибаюсь, в этом сборнике: http://apsnyteka.org/1476-starostin_s_trudy_po_jazykoznanyu.html
Помню, удивлялся, что на протяжении ВСЕГО сборника ни разу не рассматривается возможность случайного совпадения слов.

Про алтайскую теорию было, например, Alexander Vovin. 2005. "The End of the Altaic Controversy" (но текст исчез из сети). Там, в частности, про то, как Старостин сотоварищи сравнивали "какая-то рыба" с "какая-то рыба" и заодно засовывали суффиксы в корень и наоборот. Та же тусовка занимается ностратикой и прочей бореальщиной (в том числе и с рекламой по ТВ) и, разумеется, моет друг другу руки.

Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: smith371 от февраля 16, 2016, 10:16
Цитата: Alone Coder от февраля 16, 2016, 10:01
Та же тусовка занимается ностратикой и прочей бореальщиной (в том числе и с рекламой по ТВ) и, разумеется, моет друг другу руки.

та же тусовка распространяет свою ересь среди ученых, связанных с лингвистикой лишь косвенно - антропологов, археологов, палеодемографов и т.д. в основном, по личным каналам - археолог решил спросить у коллеги по вузу, а "что вы скажете...?" и понеслось! разумеется, потом в лекциях этот археолог будет ссылаться на рекомендованные при личном общении книги, статьи, сайты. ересь распространяется, в общем.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Alone Coder от февраля 16, 2016, 10:19
Кстати, нашёл обсуждение тут: Сино-кавказская теория (http://lingvoforum.net/index.php?topic=8471.25)
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Mihailov от февраля 16, 2016, 19:19
Вот тут есть про ожидаемую частоту случайных совпадений. Статья Позднякова и дискуссия.
[url=http://www.jolr.ru/files/%28144%29jlr2014-11%28187-237%29.pdf]http://www.jolr.ru/files/(144)jlr2014-11(187-237).pdf (http://www.jolr.ru/files/%28144%29jlr2014-11%28187-237%29.pdf)[/url]
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 17, 2016, 05:01
Спасибо за ссылки! Особенно, Михайлову.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 17, 2016, 05:19
Цитата: Alone Coder от февраля 16, 2016, 10:01
Про алтайскую теорию было, например, Alexander Vovin. 2005. "The End of the Altaic Controversy" (но текст исчез из сети).
Нашёл: https://www.academia.edu/6345901/The_end_of_the_Altaic_controversy.
Сурово автор Илличу-Свитычу ответил: "не зная брода, не суйся в воду".  ;D
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Mihailov от февраля 18, 2016, 19:01
Хочу сказать о поправках Старостина к формуле Сводеша – ускоряющей и замедляющей.  На мой взгляд, эти поправки плохо продуманы, зря Старостин их сделал. Он заметил, что чем длиннее отрезок времени, тем выше средняя скорость замен (константа Сводеша лямбда – число замен в 100-словнике за тысячелетие). Чтоб объяснить это явление, он предположил, что вероятность замены слова зависит от его возраста, а потому лямбда возрастает со временем. Как он сказал, слова отличаются от нейтронов тем, что стареют. Молодые слова меняются редко, а как проживут достаточно долго, так начинаются частые замены.
В этом рассуждении я вижу следующие слабости.
1) Из приводимых им данных следует не возрастание лямбды со временем, а наоборот, падение. Разберем один из его собственных примеров.
За период от поздней вульгарной латыни (+500 г.) до современного французского произошло 12 замен (в т.ч. 2 заимствования).  Получаем лямбду 0,09 при учете замен (ln0,88/1,5=0,09) и 0,07 без учета замен.
За период от классической латыни (-300 г. по Старостину) до современного французского – 26 замен (4 заимствования). Лямбда = 0,13 с заменами и 0,11 без замен.
Чем длиннее интервал, тем больше лямбда. Значит, по Старостину, вначале замены происходят сравнительно редко, а потом все чаще. Но из примера же видно обратное: на начальном этапе замен было больше. В латыни от -300 года до +500 случилось 15 замен (2 заимствования). Одна из этих замен потом еще раз заменилась на следующем этапе, потому 15=26-12+1. На первом этапе лямбда выходит 0,20 с заменами и 0,17 без замен. То есть не сталкиваемся мы «с явным феноменом увеличения скорости распада ОС при увеличении времени распада». Сталкиваемся с обратным феноменом, если не со случайной вариацией.
2) Допустим, слова действительно стареют и вероятность их замены увеличивается с течением времени. Но отсюда не следует нестабильность лямбды. Можно представить нестабильность в таком случае: если вдруг заменились одновременно все слова из 100-словника. Тогда мы увидим такую картину: в первое тысячелетие заменились, допустим, 3-4 слова, во второе тысячелетие – около 10, в третье – еще больше, а в 4-5 тысячелетиях старые слова начнут вымирать, как по команде, пока ни одного в живых не останется.
Но на самом деле такого одновременного обновления списка не бывает. Какой момент в истории языка ни возьми, всегда в списке будут слова разного возраста – и молодые, и старые, и средние. С течением времени одни слова уходят, другие приходят, сохранившиеся слова передвигаются в следующий возрастной разряд, а средний возраст списка остается одинаковым, а потому должна оставаться одинаковой и частота замен. Даже в случае чудесного обновления всего списка одновременно лямбда упадет только временно, а затем вернется к равновесному значению – когда установится разновозрастный состав списка.
3) Старостин не проверяет, выходят ли приводимые им разбросы лямбды за пределы случайной вариации. У меня же получилось, что все это в пределах случайной изменчивости.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 19, 2016, 02:00
Вы поняли "старение слов" таким образом, что действительно получается абсурд, но, можно, в принципе, понять иначе. У Старостина, действительно, это тёмное место (возможно и для него тоже). Я пока не могу ответить подробно, если хотите, посмотрите в моём блоге комментарий к статье http://starling.rinet.ru/Texts/vasilyev.pdf: Заметки о глоттохронологии (http://lingvoforum.net/index.php/topic,81674.msg2677881.html#msg2677881). Там, конечно, написано для себя, может быть не очень понятно, посмотрите и саму статью.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 19, 2016, 14:07
Я перенес данные Старостина и Васильева на график (там есть дублеты с несколько отличающимися значениями, но я  чистить не стал). Там три аппроксимации, видно, что аппроксимация Васильева гораздо лучше.
Заметки о глоттохронологии (http://lingvoforum.net/index.php/topic,81674.msg2678344.html#msg2678344)- запись в блоге. Здесь тоже продублирую.

Цитата: yurifromspb от февраля 19, 2016, 13:57
График по калибровочным данным данным Старостина и Васильева.

Красная линия - формула Стростина с λ=0.0623 residual sum-of-squares: 2.569
Зеленая - формула Васильева без неизменной части (= моя 4) с λ=0.3687 residual sum-of-squares: 0.03217
Синяя - полная формула Васильева [tex]c + (1-c)e^{-\lambda t}(1+\lambda t)[/tex]
c=0.5369 λ=0.6729 residual sum-of-squares: 0.02648
Видно, что формула Васильева гораздо лучше приближает данные.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 19, 2016, 14:11
Пример с латынью интересный. За 800 лет 15 замен, а за 1500 лет 12 замен. Выходит, что французский сильнее связан с вульгарной латынью, чем последняя с классической. Это может бросить тень на калибровки по литературным языкам.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Mihailov от февраля 19, 2016, 14:36
Цитата: yurifromspb от февраля 19, 2016, 02:00
Вы поняли "старение слов" таким образом, что действительно получается абсурд, но, можно, в принципе, понять иначе.
Может быть, в идее Старостина мне что-то не ясно, зато мне ясно другое: корректная формула должна обеспечивать суммируемость интервалов.
Возьмем в истории языка моменты времени 1, 2 и 3. Рассчитаем по формуле временные интервалы Т12, Т23 и Т13. Должно быть Т12+Т23=Т13. По Сводешу и по Васильеву время суммируется. А по Старостину не суммируется самым грубым образом.
Статью я видел, спасибо. И хотелось бы ссылку на ваш блог.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Alone Coder от февраля 19, 2016, 14:44
В те времена жил ещё Капица-младший, кумир миллионов (передача "Очевидное - невероятное"), который вывел другую "несуммируемую формулу": скорость роста населения-де пропорциональна его численности.

За этот огромный вклад в науку он был назначен вице-президентом РАЕН.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Mihailov от февраля 19, 2016, 14:44
Цитата: yurifromspb от февраля 19, 2016, 14:11
Пример с латынью интересный. За 800 лет 15 замен, а за 1500 лет 12 замен. Выходит, что французский сильнее связан с вульгарной латынью, чем последняя с классической. Это может бросить тень на калибровки по литературным языкам.
Пока этот пример единственный, он ни на что тень не бросает. Знаете, какая там случайная вариация?
Корень(15*85/100)=3,57
Корень(12*88/100)=3,69.
Еще умножим эти стандартные отклонения на 2, чтобы выйти на доверительный интервал95%.
Вот когда таких примеров наберется много, тогда и появится предмет для размышлений.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 19, 2016, 14:55
Блог: http://lingvoforum.net/index.php/board,322.0.html
Тема: Заметки о глоттохронологии (http://lingvoforum.net/index.php/topic,81674.0.html)
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Mihailov от февраля 19, 2016, 14:59
Цитата: Alone Coder от февраля 19, 2016, 14:44
который вывел другую "несуммируемую формулу": скорость роста населения-де пропорциональна его численности.
Ничего Капица не вывел, он только повторил за демографами формулу экспоненциального роста. А насчет суммируемости - здесь не суммируются проценты, а абсолютные прибавки вполне себе суммируются. Точно так же и денежные проценты набегают.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Alone Coder от февраля 19, 2016, 15:02
Вы не поняли. В своей работе он расписал даже идеологию своей формулы - якобы поток изобретений пропорционален численности населения, а рост пропорционален потоку изобретений.

Только он не упомянул, что если человечество посчитать не целиком, а, например, Америку отдельно, то при суммировании получится совершенно другой результат.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Mihailov от февраля 19, 2016, 15:06
Цитата: yurifromspb от февраля 19, 2016, 14:55
Блог: http://lingvoforum.net/index.php/board,322.0.html
Тема: Заметки о глоттохронологии (http://lingvoforum.net/index.php/topic,81674.0.html)
Попробовал зайти, вот что увидел:
"Тема или раздел, которую вы ищете, отсутствует или недоступна для входа."
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Alone Coder от февраля 19, 2016, 15:08
Ещё один пример из той же эпохи - Гумилёв, который в серии своих книг отстаивал пространственно-временные точки "этногенеза", выстроенные по прямым линиям. Красиво написано, куча ссылок (правда, на самые интересные "открытия", типа братания Александра Невского с Сартаком, ссылок нет), тоже кумир миллионов.

Так что Старостин никакого удивления не вызывает.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 19, 2016, 15:16
Цитата: Mihailov от февраля 19, 2016, 14:36
Может быть, в идее Старостина мне что-то не ясно, зато мне ясно другое: корректная формула должна обеспечивать суммируемость интервалов.
Возьмем в истории языка моменты времени 1, 2 и 3. Рассчитаем по формуле временные интервалы Т12, Т23 и Т13. Должно быть Т12+Т23=Т13. По Сводешу и по Васильеву время суммируется. А по Старостину не суммируется самым грубым образом.
Статью я видел, спасибо. И хотелось бы ссылку на ваш блог.
Здесь мне тоже не всё понятно (есть к тому же две разные ситуации - сравнение двух одновременных языков и двух стадий одного языка, там старение слов можно интерпретировать по разному). Я не очень понял насчёт Сводеша и Васильева, с латынью, вроде как, как ни считай, интервалы не суммируются.  Вообще, сколько всего есть языков, для которых известны более двух стадий?
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 19, 2016, 15:18
Цитата: Mihailov от февраля 19, 2016, 15:06
Цитата: yurifromspb от февраля 19, 2016, 14:55
Блог: http://lingvoforum.net/index.php/board,322.0.html
Тема: Заметки о глоттохронологии (http://lingvoforum.net/index.php/topic,81674.0.html)
Попробовал зайти, вот что увидел:
"Тема или раздел, которую вы ищете, отсутствует или недоступна для входа."

Добавьте себя в группу "Личные блоги". Профиль-Изменить профиль-Членство в группах.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Alone Coder от февраля 19, 2016, 16:00
Цитата: yurifromspb от февраля 19, 2016, 15:16
Вообще, сколько всего есть языков, для которых известны более двух стадий?
Длинная письменная история есть у египетского, персидского, китайского, греческого.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 19, 2016, 16:14
Цитата: Mihailov от февраля 19, 2016, 14:44
Пока этот пример единственный, он ни на что тень не бросает. Знаете, какая там случайная вариация?
Корень(15*85/100)=3,57
Корень(12*88/100)=3,69.
Еще умножим эти стандартные отклонения на 2, чтобы выйти на доверительный интервал95%.
Вот когда таких примеров наберется много, тогда и появится предмет для размышлений.
Ну, так нельзя. Доверительный интервал чего? Оценки вероятности сохранения слова, так ведь?
Скажем сохранилось 85 из 100, значит оценка 0.85. Это за 0.8 т.л. И, по другой точке 0.88 за 1.5 т.л.
Теперь вопрос стоит так: если есть некий вероятностный закон, дающий вероятность сохранения слова за некоторое время p(t), то как оценить правдоподобие такой пары данных: (p(0.8)=0.88; p(1.5)=0.85)? По моему, тут такие прикидки с двумя сигмами ни о чём не говорят. Надо строить какую-то специальную стат. оценку. В общем, я тут пас.
Но, можно так прикинуть:
Если распад идёт по Сводешу, оценка вероятности сохранения во второй точки исходя из первой точки такая:
λ=log(0.85)/-0.8=0.203
p=exp(-0.203*1.5)=0.737
И, наоборот:
λ=log(0.88)/-1.5=0.085
p=exp(-0.085*0.8)=0.934
Лямбды, как видите, сильно отличаются, и рассчитанные вероятности по другой точке лежат далеко от вероятности, рассчитанной исходя из неё самой.
Для сохранения 88 из 100, 95% доверительный интервал будет (0.800 0.936),  0.737 в него не попадает. Для альтернативной гипотезы p-value = 0.0006108.
Соответсвенно, наооборот: (0.765 0.914) 0.737 0.003435
Как видите, вместе эти данные плохо сочетаются.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 19, 2016, 16:19
Цитата: Alone Coder от февраля 19, 2016, 16:00
Длинная письменная история есть у египетского, персидского, китайского, греческого.

А есть готовые ряды временные ряды списков Сводеша в открытом доступе? Было бы интересно посмотреть.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: sasza от февраля 19, 2016, 16:38
Цитата: Alone Coder от февраля 19, 2016, 15:02
Вы не поняли. В своей работе он расписал даже идеологию своей формулы - якобы поток изобретений пропорционален численности населения, а рост пропорционален потоку изобретений.

Только он не упомянул, что если человечество посчитать не целиком, а, например, Америку отдельно, то при суммировании получится совершенно другой результат.
А шо не так? В Америку, вообще-то, куча образованных индусов и китайцев эмигрируют, например, которые участвуют в процессе. А изобретения, которые там делаются, повышат продолжительность жизни и уменьшают детскую смертность в том числе и на их родине. Так что всё сходится.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: sasza от февраля 19, 2016, 16:39
Цитата: Alone Coder от февраля 19, 2016, 15:08
Ещё один пример из той же эпохи - Гумилёв, который в серии своих книг отстаивал пространственно-временные точки "этногенеза", выстроенные по прямым линиям. Красиво написано, куча ссылок (правда, на самые интересные "открытия", типа братания Александра Невского с Сартаком, ссылок нет), тоже кумир миллионов.

Так что Старостин никакого удивления не вызывает.
Фричность Гумилёва общепринята.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 19, 2016, 16:42
Цитата: Mihailov от февраля 18, 2016, 19:01
2) Допустим, слова действительно стареют и вероятность их замены увеличивается с течением времени. Но отсюда не следует нестабильность лямбды. Можно представить нестабильность в таком случае: если вдруг заменились одновременно все слова из 100-словника. Тогда мы увидим такую картину: в первое тысячелетие заменились, допустим, 3-4 слова, во второе тысячелетие – около 10, в третье – еще больше, а в 4-5 тысячелетиях старые слова начнут вымирать, как по команде, пока ни одного в живых не останется.
Но на самом деле такого одновременного обновления списка не бывает. Какой момент в истории языка ни возьми, всегда в списке будут слова разного возраста – и молодые, и старые, и средние. С течением времени одни слова уходят, другие приходят, сохранившиеся слова передвигаются в следующий возрастной разряд, а средний возраст списка остается одинаковым, а потому должна оставаться одинаковой и частота замен. Даже в случае чудесного обновления всего списка одновременно лямбда упадет только временно, а затем вернется к равновесному значению – когда установится разновозрастный состав списка.
Ну, в общем, да. Васильев обосновал "старение слов" для сравнения  двух синхронных языков. Грубо говоря, если язык помнит своё состояние (а это так, процессы не идут мгновенно), то будет уменьшение числа замен в паре недавно разошедшихся языков. По мере забывания прошлого распад будет стремится к обычному экспоненциальному. Но, для одного-то языка, внутри него замены всё равно идут экспоненциально, а калибрует Васильев по историям единичных языков, не пар! Как-то не очень хорошо.
Если посмотреть на данные Васильева, кстати, если не брать реконструкции, то эти данные аппроксимируются обычной прямой. Если добавить данные Старостина, то что-то такое, похожее на закон Васильева ([tex]c + (1-c)e^{-\lambda t}(1+\lambda t)[/tex]) выходит, хотя, по уму и не должно.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 19, 2016, 16:53
Цитата: yurifromspb от февраля 19, 2016, 16:14
Соответсвенно, наооборот: (0.765 0.914) 0.737 0.003435
Извиняюсь - не то число вставил:
(0.765 0.914) 0.934 0.003435
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Mihailov от февраля 19, 2016, 17:06
Цитата: yurifromspb от февраля 19, 2016, 15:16
Здесь мне тоже не всё понятно (есть к тому же две разные ситуации - сравнение двух одновременных языков и двух стадий одного языка, там старение слов можно интерпретировать по разному). Я не очень понял насчёт Сводеша и Васильева, с латынью, вроде как, как ни считай, интервалы не суммируются.  Вообще, сколько всего есть языков, для которых известны более двух стадий?
Я говорю про сравнение стадий одного языка. Насчет числа известных стадий - во-первых, стадии мы можем нарезать как хотим. Возьмем русский язык 1000 года, 1500 и 2000 - вот вам и три стадии. Во-вторых, необязательно проверять формулы на реальном языке. Можно испытать простейший модельный случай. Например, за первый период изменилось 10 слов, за второй тоже 10, а за оба периода  19 (одна замена была повторная). Рассчитайте по формулам длительность двух этих периодов, а также и суммарного. Результат вас удивит.
В третьих, условию суммирования времени можно придать эквивалентную форму: число замен должно согласовываться. Если разобьем период на два подпериода, то число замен за период не должно превышать число замен в первом подпериоде плюс число замен во втором подпериоде. А теперь посмотрим, какую историю языка предписывает формула с ускоряющей поправкой (номер 5-й в вашем списке в блоге). При лямбда 0.05 формула рисует такую историю: за первое тысячелетие должно случится 5 замен, за второе тоже 5, а за суммарный период в 2000 лет - 18 замен. Подставьте в формулу для x(t) значения t=1 и t=2 и убедитесь. Можете поварьировать лямбду, легче не станет.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: Mihailov от февраля 22, 2016, 17:56
Цитата: yurifromspb от февраля 19, 2016, 16:14
Если распад идёт по Сводешу, оценка вероятности сохранения во второй точки исходя из первой точки такая:
λ=log(0.85)/-0.8=0.203
p=exp(-0.203*1.5)=0.737
И, наоборот:
λ=log(0.88)/-1.5=0.085
p=exp(-0.085*0.8)=0.934
Я бы немного не так подсчитал. Мы проверяем нуль-гипотезу, что на всем интервале лямбда одинакова. Значит, и оценивать надо по всему интервалу.
λ=ln(0.74)/-2.3=0.131.
Ожидаемое сохранение за первый период
exp(-0.131*0.8)=0.901, наблюдаемое значение 0,85
за второй период
exp(-0.131*1.5)=0.822, наблюдаемое значение 0,88.
Каждое отклонение в отдельности - в пределах двух сигм. Для обоих отклонений вместе расчет будет сложнее, тут уже двумерное распределение.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от февраля 24, 2016, 11:55
Я тупо посчитал вероятность того, что вероятность выпадения случайной пары (n1,n2) ~ Binom(n1,100,0.903) * Binom(n2,100,0.822) будет меньше, чем у (85,88).
Получается 0.07452083. В общем, да, нельзя отвергнуть гипотезу.
Название: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.
Отправлено: yurifromspb от марта 22, 2016, 22:58
Цитата: yurifromspb от февраля 19, 2016, 16:42
Но, для одного-то языка, внутри него замены всё равно идут экспоненциально, а калибрует Васильев по историям единичных языков, не пар! Как-то не очень хорошо.
Если посмотреть на данные Васильева, кстати, если не брать реконструкции, то эти данные аппроксимируются обычной прямой.
А вот здесь я ошибся - пропустил табличку с данными для калибровки модели с согласованным распадом и подумал, что он эту модель калибрует теми же данными, что и другие модели в статье. Но это не так, он калибровал как и надо - по данным современных родственных языков. Будет время - посмотрю данные, которые он использовал.
В общем, нехорошо получилось.