Лингвофорум

Лингвоблоги => Личные блоги => Блоги => yurifromspb => Тема начата: yurifromspb от февраля 16, 2016, 00:35

Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 16, 2016, 00:35
Cюда буду бросать всякое по теме.


Несколько вариантов переменной скорости.







вариантскоростьзакон замен
Сводеш[tex]\lambda[/tex][tex]x_0 e^{-\lambda t}[/tex]
2[tex]\lambda t[/tex][tex]x_0 e^{- \frac{\lambda t^2}{2} }[/tex]
3[tex]\lambda x t[/tex][tex]\frac{x_0}{1+\frac {1} {2} \lambda x_0 t^2}[/tex]
4[tex]\lambda {t/\tau \over {1+t/\tau}}[/tex][tex]x_0e^{-\lambda t}(1+t/\tau)^{\lambda \tau}[/tex]
Старостин[tex]\frac {2 \lambda x t}{1+\lambda x t}^*[/tex][tex]x(t)=x_0 e^{- \lambda t^2 x(t)[/tex]
6[tex]\lambda x\frac {t/\tau} {1+t/\tau}[/tex][tex]\frac{x_0}{1+\lambda x_0(t-\tau\ln(1+t/\tau))}[/tex]
*В источниках не зафиксировано, но, если найти производную числа замен по времени, получится так.

Комментарии на http://starling.rinet.ru/Texts/vasilyev.pdf (http://lingvoforum.net/index.php/topic,81674.msg2677881.html#msg2677881)
Название: Заметки о глоттохронологии
Отправлено: Alone Coder от февраля 16, 2016, 09:57
Постулат Сводеша о том, что все слова меняются с одной скоростью, неверен. Грубой коррекцией был список Яхонтова ("более стабильные слова"), но никаких числовых данных он дать не может. Слишком много неизвестных.
Кроме того, глоттохронология датирует событие, которое мы не можем датировать даже непосредственным наблюдением - момент расхождения языков. Что это за момент, как его строго определить?
Название: Заметки о глоттохронологии
Отправлено: Bhudh от февраля 16, 2016, 11:43
Цитата: Alone Coder от февраля 16, 2016, 09:57Постулат Сводеша о том, что все слова меняются с одной скоростью, неверен.
Можно включить частотность множителем.
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 17, 2016, 04:53
Цитата: Alone Coder от февраля 16, 2016, 09:57
Постулат Сводеша о том, что все слова меняются с одной скоростью, неверен. Грубой коррекцией был список Яхонтова ("более стабильные слова"), но никаких числовых данных он дать не может. Слишком много неизвестных.
Кроме того, глоттохронология датирует событие, которое мы не можем датировать даже непосредственным наблюдением - момент расхождения языков. Что это за момент, как его строго определить?
Этот вопрос, как я понимаю, рассматривается. В частности, в другой теме дали ссылку на статью по теме, надо будет посмотреть. Собственно, сама формула Старостина пытается это учитывать (как - другой вопрос), но, в целом, если честно, мне уже становится немного не по себе от мысли, что эти датировки многие воспринимают чересчур серьёзно.
Кстати, насчёт второго вопроса, я тут увидел работу Васильева http://starling.rinet.ru/Texts/vasilyev.pdf, так вот, я её ещё не изучал, но меня позабавил набор данных для калибровки модели. Посмотрите, я прикрепил к сообщению график с этими данными, в статье это таблица 3. И это дело автор фитирует 3я экспонентами. Тремя экспонентами. Мне кажется, вы оцените.
Название: Заметки о глоттохронологии
Отправлено: злой от февраля 17, 2016, 05:14
Offtop

Цитата: yurifromspb от февраля 16, 2016, 00:35
Старостин[tex]\frac {2 \lambda x t}{1+\lambda x t}^*[/tex][tex]x(t)=x_0 e^{- \lambda t^2 x(t)[/tex]

А релятивистские поправки?
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 17, 2016, 05:27
Цитата: злой от февраля 17, 2016, 05:14
Offtop

А релятивистские поправки?
Offtop
Кхм... Это ж вариант 4, там скорость меняется от нуля до некоторого предельного значения.
Вообще, Старостин, очевидно, думал, что у него скорость λxt.
Название: Заметки о глоттохронологии
Отправлено: wandrien от февраля 17, 2016, 05:31
Offtop
Если по Сводешу лексика распадается с равной скоростью, то каковы среднее время жизни слова и период полураспада словаря?
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 17, 2016, 05:45
Offtop
Цитата: wandrien от февраля 17, 2016, 05:31
Offtop
Если по Сводешу лексика распадается с равной скоростью, то каковы среднее время жизни слова и период полураспада словаря?
[tex]e^{-\lambda t}=1/2;<br />-\lambda t = \ln 1/2;<br />t = \frac {\ln 2} {\lambda}[/tex]
[tex]\left \langle t \right \rangle = 1/\lambda[/tex]
Название: Заметки о глоттохронологии
Отправлено: Nevik Xukxo от февраля 17, 2016, 08:13
Скока надо тыщ лет, чтоб ни одного когната не осталось? :what:
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 17, 2016, 08:34
Цитата: Nevik Xukxo от февраля 17, 2016, 08:13
Скока надо тыщ лет, чтоб ни одного когната не осталось? :what:
Как на самом деле - не знаю. И, к тому же это вероятностная величина, но если тупо по формуле, то так:




ВариантВремя, т.л.
Сводеш λ=0.1416.4
Старостин λ=0.0521.5
Это время, на котором средняя доля совпадений между двумя языками равна 0.01
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 17, 2016, 13:43
Цитата: Alone Coder от февраля 16, 2016, 09:57
Кроме того, глоттохронология датирует событие, которое мы не можем датировать даже непосредственным наблюдением - момент расхождения языков. Что это за момент, как его строго определить?
Я вам дал ссылку на статью с калибровкой по литературным языкам, но вы спрашивали несколько не о том. Извиняюсь, не очень внимательно прочитал.
Да, вы правы. История стословных списков это не то же, что история языков. Более того, язык вообще не является отдельной сущностью, атомом. Язык это множество идиолектов, каждый из которых конструируется по образцу окружающей речи. История языка это невообразимое множество взаимовлияющих  историй, и чему соответствует в реальности оценка времени дивергенции даже для достоверно родственных языков - нетривиальный вопрос.  Это, кстати, важная мысль. Но, может лингвистика на этот вопрос уже обращала внимание, кто знает?
Из более менее очевидного приходит в голову, что событие разделения, при любом разумном определении, ограничено снизу появлением диалектной особенности, а сверху - полным прекращением контактов Глоттохронологическая оценка, кажется, должна тяготеть к нижней границе.
Название: Заметки о глоттохронологии
Отправлено: Alone Coder от февраля 17, 2016, 15:42
Есть и ещё одна проблема.
Как только языки получают письменность, они развиваются уже не так, как в естественной среде обитания. А именно, появляется тенденция к замораживанию, внедрению пласта абстрактных терминов, пуризму в других областях (тоже взаимовлияние языков, но с обратным знаком), исчезновению диалектного разнообразия, ломке структуры из-за смешения в одной "норме" диалектного материала из разных "классиков".
Но языки, не имеющие письменности, мы не можем исследовать в историческом разрезе. Максимум мы можем найти заимствования в других языках, которые всегда ненадёжны - и даже когда надёжны, то фонетически искажены.
Выходит, нет вообще никаких шансов правильно калибровать глоттохронологию, какой бы метод расчётов мы ни выбрали.

Какие задачи решает глоттохронология? Она не годится для доказательства родства языков. Она нужна только для исследования похождений племён, с привязкой к культурам и генам. Но известно, что и языки, и культурные элементы легко заимствуются. Ни горшки, ни гены не "разговаривают". Можно сконструировать красивую гипотезу, но она в любом случае будет бездоказательной.

А ведь есть альтернатива - мы можем построить математическую модель развития языка, исходя из физиологии, и подставить в неё целые словари. Так мы сможем определить вероятность того или иного родства, порядок наложения языковых пластов и даже, возможно, топологию связей с соседями (если вместо словаря языка подставить размеченный массив диалектных данных). Это решило бы те же исторические задачи, но более надёжно. Проблема в том, что такую математическую модель никто не строит и не построит, покуда уровень используемой лингвистами математики остаётся на уровне начальной школы. Тут и обычной институтской программы недостаточно. Кроме того, поскольку это будет динамит под систему авторитетов в лингвистике, лингвистическое сообщество не примет эти результаты.

По другой теме - интересно было бы довести методику Старостина до абсурда: случайным образом переставить семантику слов в базе данных и запустить автоматическое сравнение. Понятно, что Старостин делал публикации только о парах языков, где набралось побольше совпадений. Поэтому случайная перестановка в этих парах не даст результата. Но для других пар языков после такого эксперимента может найтись совпадений не меньше, чем в старостинских парах.
Название: Заметки о глоттохронологии
Отправлено: Bhudh от февраля 17, 2016, 16:47
Цитата: Alone Coder от февраля 17, 2016, 15:42мы можем построить математическую модель развития языка, исходя из физиологии, и подставить в неё целые словари
Для этого необходима точная фонологическая запись всех слов. А для языков, данные по которым старше 50 лет, это, м-м-м, маловероятно...
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 17, 2016, 17:02
Литературный язык может и без письменности существовать. Письменность сохраняет прошлое, конечно.
Название: Комментарии на http://starling.rinet.ru/Texts/vasilyev.pdf
Отправлено: yurifromspb от февраля 18, 2016, 17:02
Прочитал http://starling.rinet.ru/Texts/vasilyev.pdf
При изложении результатов Старостина, авторы никак не вскрывают непонимания им дифференциальной природы предположений типа λ=λt. То ли сами не понимают, то ли не хотят унижать авторитет. В принципе, если бы дело шло об учителе, можно было бы просто представить его формулы как результат чисто эмпирического подбора, и не было бы вопросов. Но это, в общем, не так важно. Важнее, что авторы делают очень смешные аппроксимации по шести точкам. Там слона можно вписать, если захотеть. Всё это очень слабо обосновано. А если убрать реконструкции типа даты распада индоевропейского, то там вообще лучшая аппроксимация - банальная прямая. Но, в принципе, по сравнению со Старостиным это шаг вперёд.
Интересна попытка получить эффект "старения слов" исходя из вида дифура. В общем, это удалось.
Модель там такая: вместо одностадийного распада вводят двустадийный. Сначала слово заменяется одинаково в языках-потомках, потом - независимо. Интересно, что при равенстве констант скорости этих двух стадий, эта модель идентична моей модели 4 при τ=1/λ.
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 19, 2016, 13:57
График по калибровочным данным данным Старостина и Васильева.

Красная линия - формула Старостина с λ=0.0623 residual sum-of-squares: 2.569
Зеленая - формула Васильева без неизменной части (= моя 4) с λ=0.3687 residual sum-of-squares: 0.03217
Синяя - полная формула Васильева [tex]c + (1-c)e^{-\lambda t}(1+\lambda t)[/tex]
c=0.5369 λ=0.6729 residual sum-of-squares: 0.02648
Видно, что формула Васильева гораздо лучше приближает данные.
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 19, 2016, 16:28
Я лопух. Не заметил, что обоснование у Васильева построено так, как будто речь идёт о сравнении двух синхронных языков, а калибровка на данных по изменениям отдельных языков (внутри одного языка связанная и независимая части словаря неотличимы, замедление по времени при парном сравнении - следствие потери памяти о прошлом, но не отсутствия симметрии по времени). Я дважды лопух, у Васильева разные данные для калибровки, но данные по совр. языкам я не заметил (там табличка была на боку, я её пропустил).
Но замедление на малых временах, вроде как налицо. Ничего не понимаю. Нет симметрии по времени? Глоттохронология отменяется?
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 19, 2016, 19:00
На подумать: чем больше система, тем медленнее в ней идут процессы.  :scl:
Название: Заметки о глоттохронологии
Отправлено: Mihailov от февраля 22, 2016, 18:02
Цитата: Alone Coder от февраля 16, 2016, 09:57
Кроме того, глоттохронология датирует событие, которое мы не можем датировать даже непосредственным наблюдением - момент расхождения языков. Что это за момент, как его строго определить?
Формально проблемы нет. Можно определить как средний момент между последней синхронной заменой в стословнике и первой асинхронной.
Название: Заметки о глоттохронологии
Отправлено: Alone Coder от февраля 23, 2016, 13:20
Так нельзя. В одном языке есть диалекты, которые не совпадают по стословнику.
Название: Заметки о глоттохронологии
Отправлено: Tibaren от февраля 23, 2016, 19:39
Цитата: Alone Coder от февраля 23, 2016, 13:20
Так нельзя. В одном языке есть диалекты, которые не совпадают по стословнику.
Offtop
Кодер, если не трудно, продолжите вашу идею. Не совсем понятно, что вы имели в виду.
Название: Заметки о глоттохронологии
Отправлено: Alone Coder от февраля 23, 2016, 19:49
Стословник фиксирует немаркированные слова, выражающие данные понятия. Маркированность в каждом диалекте своя. Например, для русского живот/пузо, кожа/шкура.
Название: Заметки о глоттохронологии
Отправлено: Tibaren от февраля 23, 2016, 19:59
Цитата: Alone Coder от февраля 23, 2016, 19:49
Стословник фиксирует немаркированные слова, выражающие данные понятия. Маркированность в каждом диалекте своя. Например, для русского живот/пузо, кожа/шкура.
Да это понятно, имеется в виду ваше
ЦитироватьТак нельзя
Название: Заметки о глоттохронологии
Отправлено: Alone Coder от февраля 23, 2016, 20:14
В языке мы не можем определить момент, когда произошла замена. Если же взять не язык, а конкретный диалект, то может получиться ситуация, когда уже заменённое слово возвращается назад, причём в синхронно регулярном виде.
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от февраля 24, 2016, 10:59
А что читатели темы думают о калибровочных данных по литературным языкам? Ведь должна же быть экспонента? Аргументация Васильева за "старение слов", как мы увидели, содержит грубую ошибку (верна для пары языков, но не для одного), а у Старостина аргументации, считай, что и нет. Ни у кого нет мыслей, почему так? Может быть дело в росте населения? Или в росте грамотности? Или причина в "глобализации"? По любому, здесь есть какой-то фактор, монотонно меняющийся во времени, и убивающий саму идею глоттохронологии. Или есть другие варианты?
Название: Заметки о глоттохронологии
Отправлено: Mihailov от февраля 25, 2016, 12:02
Цитата: Alone Coder от февраля 23, 2016, 20:14
В языке мы не можем определить момент, когда произошла замена
С точностью до года не можем. А с точностью 10-20 лет внутренний наблюдатель сможет определить. В 50-х годах вместо "фильм" говорили "картина". А в 70-х годах слово "картина" применительно к фильму редко можно было услышать, обычно говорили "фильм". Значит, датируем замену 60-ми годами.
Название: Заметки о глоттохронологии
Отправлено: Mihailov от февраля 25, 2016, 13:03
Цитата: Alone Coder от февраля 23, 2016, 20:14
Если же взять не язык, а конкретный диалект, то может получиться ситуация, когда уже заменённое слово возвращается назад, причём в синхронно регулярном виде.
Дело усложняется, но не драматично. Существуют рядом диалекты, различаются немного по стословнику, происходят иногда замены то на сближение, то на расхождение. Началом разделения считаем момент, когда начинается устойчивая динамика на расхождение. Точный год тут не укажешь, но столетие, наверно, указать можно.
Название: Заметки о глоттохронологии
Отправлено: Mihailov от февраля 25, 2016, 13:29
Цитата: yurifromspb от февраля 24, 2016, 10:59
А что читатели темы думают о калибровочных данных по литературным языкам? Ведь должна же быть экспонента?
Я не совсем понял, о чем это вы. Какая величина должна изменяться по экспоненте?
Название: Заметки о глоттохронологии
Отправлено: Alone Coder от февраля 25, 2016, 21:50
Кино - это всё-таки культурный термин с централизованным распространением. А такие новые явления, которые не успели стандартизировать, как небоскрёбы, подъезды, вешалки для одежды, сотовые телефоны, панельки под микросхемы, файловые директории называются везде по-разному. Даже и старые. Рекорд, наверно, принадлежит растению алтей.
Название: Заметки о глоттохронологии
Отправлено: Mihailov от февраля 26, 2016, 19:47
Цитата: Alone Coder от февраля 25, 2016, 21:50
Кино - это всё-таки культурный термин с централизованным распространением. А такие новые явления, которые не успели стандартизировать...
Про туалет вы, наверно,не скажете, что это культурный термин с централизованным распространением. Или новое явление, которое не успели стандартизировать.
До войны и первое время после войны говорили не "туалет", а "уборная". В 70-х годах уже решительно преобладало "туалет". Опять датируем замену 50-ми или 60-ми годами.
Название: Заметки о глоттохронологии
Отправлено: Tibaren от марта 6, 2016, 04:13
Цитата: Mihailov от февраля 25, 2016, 13:03
Началом разделения считаем момент, когда начинается устойчивая динамика на расхождение.
А если динамики нет, скажем, два эквивалентных термина употребляются эквидистантно?
Название: Заметки о глоттохронологии
Отправлено: Bhudh от марта 6, 2016, 12:56
А что сейчас чаще употребляется, автозаправка или бензоколонка?
Название: Заметки о глоттохронологии
Отправлено: Wolliger Mensch от марта 6, 2016, 19:55
Цитата: Bhudh от марта  6, 2016, 12:56
А что сейчас чаще употребляется, автозаправка или бензоколонка?

И беседы:

— Сейчас заеду тут, подожди.
— А что случилось?
— Да вот.
— А.


Вот так называется сейчас бензоколонка. :yes: ;D
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 9, 2016, 12:31
Цитата: Tibaren от марта  6, 2016, 04:13А если динамики нет, скажем, два эквивалентных термина употребляются эквидистантно?
Если динамики нет, то и расхождение не началось. Только динамику смотрим не по двум терминам, а по всему стословнику.
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 9, 2016, 12:32
Цитата: Bhudh от марта  6, 2016, 12:56
А что сейчас чаще употребляется, автозаправка или бензоколонка?
По-моему, чаще употребляется "заправка".
Название: Заметки о глоттохронологии
Отправлено: Bhudh от марта 9, 2016, 14:07
Картриджей?
Название: Заметки о глоттохронологии
Отправлено: Wolliger Mensch от марта 9, 2016, 14:33
Цитата: Bhudh от марта  9, 2016, 14:07
Картриджей?

Буд, не усердствуйте. Выражение заехать на заправку не употребляется в других значениях. Иное вам придётся слушателю специально объяснять, а потом лицезреть вот такое выражение:
(http://4.bp.blogspot.com/_sK6O7q1TURQ/SjASYcQkwxI/AAAAAAAACEY/VWSLeYDMXLg/s400/debbie_downer.jpg)
Название: Заметки о глоттохронологии
Отправлено: Lodur от марта 9, 2016, 15:02
Цитата: Mihailov от марта  9, 2016, 12:32
Цитата: Bhudh от марта  6, 2016, 12:56
А что сейчас чаще употребляется, автозаправка или бензоколонка?
По-моему, чаще употребляется "заправка".
Мне кажется, или большинсво людей все же различает автозаправку
и бензоколонку
?
(Не то, чтобы я не слышал, чтобы первое называли вторым, и наоборот, но всё же...)
Название: Заметки о глоттохронологии
Отправлено: Wolliger Mensch от марта 9, 2016, 15:39
Цитата: Lodur от марта  9, 2016, 15:02
Мне кажется, или большинсво людей все же различает автозаправку

Различают. Равно как отличают колонку от процесса заправки автомобиля.  :yes: ;D Только практического смысла такие различения не имеют, поэтому оба слова обозначают всё учреждение с колонками, из которых заправляют машины.
Название: Заметки о глоттохронологии
Отправлено: Tibaren от марта 9, 2016, 23:13
Да, бензоколонки, безусловно, относятся к базовой лексике.
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от марта 10, 2016, 10:20
Цитата: Mihailov от февраля 25, 2016, 13:29Я не совсем понял, о чем это вы. Какая величина должна изменяться по экспоненте?
Извиняюсь, что не прореагировал.
Так всё та же величина - доля незаместившихся слов. Данные по литературным языкам говорят, что есть какая-то глобальная неоднородность по времени.
(http://lingvoforum.net/index.php?action=dlattach;topic=81674.0;attach=60437;image)
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 10, 2016, 12:36
Цитата: yurifromspb от марта 10, 2016, 10:20
[ Данные по литературным языкам говорят, что есть какая-то глобальная неоднородность по времени.
Можно расшифровку этих точек в виде цифровой таблицы? Или ссылку на таблицу. Я хотел бы посмотреть, что это за языки, чьи данные, и как с этими точками согласуется простая функция Сводеша, а не только функции Старостина и Васильева.
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от марта 10, 2016, 13:29
Цитата: Mihailov от марта 10, 2016, 12:36Можно расшифровку этих точек в виде цифровой таблицы? Или ссылку на таблицу. Я хотел бы посмотреть, что это за языки, чьи данные, и как с этими точками согласуется простая функция Сводеша, а не только функции Старостина и Васильева.

Данные из статей Васильева и Старостина. Из Васильева прямо табличку взял, из Старостина выдирал данные из текста (заимствования выбрасывал, процент считал так: "число замен" / (100 - "число заимствований")). Табличку прилагаю.

Картинка воспроизводится на языке R так:

x <- c(0.3,0.5,0.5,0.5,1.1,1.1,1.2,1.2,1.2,1.5,1.5,1.5,2.6,3,3,3,1.2,2.7,1.1,1.2,1.6,1.6,1.6,2.3,2.3,2.3)
y <- c(0.97,0.95,0.94,0.96,0.95,0.87,0.89,0.91,0.94,0.82,0.86,0.89,0.78,0.66,0.69,0.77,0.93,0.77,0.87,0.94,0.89,0.90,0.87,0.77,0.81,0.80)

fitvas = nls(y~c+(1-c)*exp(-l*x)*(1+l*x),start = list(c=0.5,l=0.4))
fitvas0 = nls(y~exp(-l*x)*(1+l*x),start = list(l=0.4))
fitstar = nls(x~sqrt(-log(y)/(l*y)),start = list(l=0.05))

new = data.frame(x = seq(0,max(x),len=200))
xcont = data.frame(y = seq(min(y),1.0,len=200))

plot(x,y,xlim = c(0,3),ylim = c(0.4,1),xlab = "time, ky",ylab = "x")
lines(new$x,predict(fitvas,newdata=new),col="blue")
lines(new$x,predict(fitvas0,newdata=new),col="green")
lines(predict(fitstar,newdata = xcont),xcont$y,col="red")
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 17, 2016, 16:24
Может, есть глобальная неоднородность во времени, а может, и нет. Не могу судить, так как не располагаю достаточным количеством надежных данных. На вашем графике я вижу 24 точки, но реально их меньше, так они отчасти продублированы.  Мне удобнее смотреть неоднородность не на графике, а по табличным данным. Если есть неоднородность, то она должна проявляться в вариации лямбды, которая вычисляется по сохранению лексики.
В табличке я свел данные Васильева и добавил данные Старостина по скандинавским и по латыни. Получил 11 точек. Многие из этих точек представляют среднее по семейству родственных языков или диалектов, но, может быть, так корректнее.



1) Язык;   2) Период, тыс. лет   ; 3) Середина интервала, от н.э.; 4) Сохранение лексики; 5)  λ; 6) Ожидаемое сохранение при λср=0.093

Корейские д-ты   0.5   1750   0.95       0.103   0.95
Белорусский           0.6   1700   0.985   0.025   0.95
Скандинавские   1.0   1500   0.95       0,05   0.91
Немецкий            1.1   1450   0.95       0.047   0.90
Английский           1.1   1450   0.87       0.127   0.90
Японские д-ты   1.2   1400   0.91       0.079   0.89
Романские            1.5   1250   0.86       0.105   0.87
Тюркский (от рунического до караханидского)
                            0.3   800           0.97       0.102   0.97
Греческий           2.6   700           0.78       0.096   0.79
Китайские д-ты   3   500           0.69       0.113   0.76
Латынь                   0.8   100           0.87     0.178   0.93

Вроде бы есть тенденция – чем раньше эпоха, тем выше скорость замен, но не слишком убедительная. Корреляция лямбды с серединой интервала равна -0,70.  Вроде высокая, но при 11 точках ее уровень значимости 0,05. Это значит, что зависимость не доказана, но следует обратить внимание. Можете сравнить ожидаемое сохранение с наблюдаемым – везде различие в пределах случайного отклонения.
Но  если зависимость есть, то не обязательно в старые времена замены случались чаще. Возможны и другие объяснения.
1) На больших интервалах времени генетическое родство может затираться из-за фонетических изменений. Поэтому может отмечаться больше замен, чем на самом деле.
2) На малых интервалах времени (а такие случаи в основном относятся к эпохе, близкой к современной), когда сравниваются близкие состояния языка, возможно завышение числа совпадений. Некоторые замены можно прозевать, например, случившуюся в 19 веке замену слов «худой» и «дурной» на «плохой». Были все эти слова в языке раньше, остались и сейчас, вот и кажется, что замены не было. И не обращают внимание на частоту и характер употребления. По этой же теме процитирую Сводеша:
«Арндт, производя подсчеты в германских языках, сделал следующее заключение относительно предыдущих подсчетов: «В них (в этих подсчетах) ощущается постоянное стремление находить больше родственных элементов, чем это допускает строгий анализ». Приводимый им процент для шведского языка равен 79,7% вместо 85,4%, для немецкого—82,0% вместо 85,4%, для английского—67,8% или 74,8% вместо 76,6%. Поскольку Арндт имел возможность посвятить этому вопросу больше времени и внимания, чем Лиз и его коллеги, и поскольку он подошел к решению своей задачи с самых строгих позиций, есть все основания предполагать, что его данные более точны, чем данные его предшественников.
Однако автор во время подготовки настоящей статьи не располагал записями Арндта и поэтому был вынужден пользоваться старыми подсчетами. Это очень досадно, так как именно с немецким и шведским языками связано значительное отклонение, которое обнаруживается при исследовании.»
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 17, 2016, 17:55
Остается еще вопрос о надежности данных. Сравним данные по китайскому языку Старостина и Сводеша (1955).
По Старостину, за последние 2600 лет произошло 23 замены в 100-словном списке, С=0,77. По Сводешу, за 1000 лет (950-1950) в 92-словном списке произошло 17 замен при 3 сомнительных случаях, С=72/89=0,809.
Из 3-х сомнительных случаев Сводеша в 2-х случаях Старостин увидел замену. У обоих авторов совпадает 11 замен. Если верить им обоим, значит, эти замены случились с 950 до 1950 г. У Старостина есть 10 замен, которых нет у Сводеша. Значит, они случились от -600 г. до 950 г., если оба правы. Тут получается обратная ситуация по сравнению с моим предыдущим примером с латынью: в более раннюю эпоху замены случались реже. И, наконец, у Сводеша есть 7 замен там, где у Старостина засчитано совпадение. Тут уже не  могут быть оба правы. Чьи данные надежнее – непонятно.
Теперь сравним их по румынскому языку. Оба сравнивают румынский с классической латынью, только Старостин датирует ее несколько раньше (-300 г.), чем Сводеш (-200 г.).
По Старостину, случилось 24 замены в 100-словнике, включая заимствования (а также и в 92-словнике). По Сводешу, случилось 26 замен в 92-словнике при 2-х неясных случаях. Один из неясных случаев Старостин засчитал как замену. Общих замен у обоих авторов 19, у Старостина 4 замены, которых нет у Сводеша, у Сводеша  7 замен, которых нет у Старостина. Расхождение по 11 словам. В 6-ти этих случаях решение зависит от выбора синонимов, а в 5-ти случаях надо выбирать между случайным совпадением и затертым исконным сходством.
То есть сравнение списков – дело тонкое, тут надо четко следовать четким инструкциям, особенно при выборе между синонимами, а то можно запросто ошибиться на несколько пунктов.
Название: Заметки о глоттохронологии
Отправлено: Tibaren от марта 17, 2016, 18:15
Цитата: Mihailov от марта 17, 2016, 17:55
Из 3-х сомнительных случаев Сводеша в 2-х случаях Старостин увидел замену. У обоих авторов совпадает 11 замен. Если верить им обоим, значит, эти замены случились с 950 до 1950 г.
Погрешность в 1000 лет - не многовато ли для столь точной науки, как глоттохронология?
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 18, 2016, 09:31
Цитата: Tibaren от марта 17, 2016, 18:15
Погрешность в 1000 лет - не многовато ли для столь точной науки, как глоттохронология?
Вы не поняли. 1000 лет - это не погрешность, а заранее заданная длина временного интервала.
Название: Заметки о глоттохронологии
Отправлено: Tibaren от марта 18, 2016, 10:32
Цитата: Mihailov от марта 18, 2016, 09:31
Цитата: Tibaren от марта 17, 2016, 18:15
Погрешность в 1000 лет - не многовато ли для столь точной науки, как глоттохронология?
Вы не поняли. 1000 лет - это не погрешность, а заранее заданная длина временного интервала.
То есть, метод Васильева-Старостина априори допускает временные лакуны в 1000 лет? И да, таки кому верить в пракитайских и прасеверокавказских реконструкциях, одному Старостину?
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 18, 2016, 10:56
Это не лакуна, а период, в котором подсчитываются замены. Берется современный язык и язык тысячелетней давности, подсчитывают, насколько словари различаются, сколько слов сохранилось и сколько заменилось.
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от марта 19, 2016, 00:07
Про надежность данных.
Я опасался чего-то такого. Если есть такая свобода в определении числа замен, то про вид зависимости говорить нечего. Не говоря уж о том, что автор может сознательно или бессознательно подогнать данные под свои идеи.
Про зависимость лямбды от времени.
Ну, с достоверностью 95% (а разве не с большей, как вы считали?) отвергнуть гипотезу о нулевой корреляции - это не так плохо. Впрочем, да, дело скользкое.
Кстати, посмотрите, у вас лямбды неверно посчитаны.
С правильными лямбдами коэф. Пирсона = -0.7194111
p-value = 0.01257

Код на R для работы с вашими данными:

Про погрешность.
В общем, биномиальное распределение при 100 испытаниях действительно даёт большую дисперсию, тут всё очевидно.
На мой взгляд, имеющиеся данные вообще не позволяют судить о виде зависимости. Я попробовал подогнать прямой, экспонентой, формулой Васильева - по RMSD отличия небольшие. Лучше всего, кстати, подгоняет обычная прямая ( ;up:). Не знаю, о чём тут говорить. Получается, что все эти подгонки ничего не дают. А с формулой Васильева - хохма получается. Она даёт лучшую подгонку, только если добавить праязыки, а так - не лучше других. Здесь было недопонимание с моей стороны. Надо смотреть заново.
(http://lingvoforum.net/index.php?action=dlattach;topic=81674.0;attach=60785;image)
В итоге, что получается, чтобы продвинуться дальше, нужно делать ревизию списков Сводеша, самому собирать данные для анализа?

P.S.
Кстати, а зачем вы λср считаете как среднее арифметическое? Имеет смысл её определять или из наименьших квадратов (0.1011, если в обычных координатах, 0.1039 если из линейной регрессии в логарифмических) или методом наибольшего правдоподобия (0.0968, если я правильно это сделал).
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от марта 19, 2016, 00:33
А вообще, зашибись, конечно.
Исходные данные:
Число когнатов у румынского языка и латыни можно варьировать в переделах десятки. У румынского!  А тут ностратический распался Х тыс. лет назад, кто не верит - ретроград.
Уровень теоретического мышления:
У Старостина: дифуры не понимает (и не понимает, что не понимает), главное чтоб формула подошла к интуитивному пониманию.
У Васильева: обоснование модели для пары языков, а калибровка на стадиях одного языка. И если не добавить ПИЕ и ещё какой-то теор. конструкт, не помню какой, никакого чуда не произойдёт. Здесь я ошибся. Васильев калибровал по данным современных языков.
Итог.
Ехал гений через реку времени, видит гений праязык.

Т.е. ни эмпирики, ни теории нет. Но есть статьи, конференции, научпоп.
Название: Заметки о глоттохронологии
Отправлено: Tibaren от марта 19, 2016, 02:03
Цитата: Mihailov от марта 18, 2016, 10:56
Это не лакуна, а период, в котором подсчитываются замены.
Замечательно. Только с чего бы сия величина как бы константа?
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от марта 19, 2016, 10:07
Цитата: yurifromspb от марта 19, 2016, 00:07
Кстати, а зачем вы λср считаете как среднее арифметическое? Имеет смысл её определять или из наименьших квадратов (0.1011, если в обычных координатах, 0.1039 если из линейной регрессии в логарифмических) или методом наибольшего правдоподобия (0.0968, если я правильно это сделал).

Кстати, о точности определения лямбды. Вопрос важный и некое чутьё здесь иметь стоит. Понятно, что здесь. наверное есть разработанные подходы, но я не знаток статистики, поэтому предпочёл генерацию случайной выборки.
К примеру, определяем мы лямбду из линейной регрессии log(x) ~ -λt.
logfit <- lm(log(x)~t+0)
Получаем λ=0.103873.
Вопрос, насколько был бы велик разброс оценки если бы выпадение слов происходило строго по Сводешу с соотв. лямбдой?
Я сгенерировал 10000 случайных наборов данных (время,доля сохранившихся слов в стословнике), для тех же t, что в исходном наборе, в предположении, что вероятность выпадения слова p=exp(-0.103873t) и построил гистограмму для оценки лямбды тем же методом.
Получилось так.
(http://lingvoforum.net/index.php?action=dlattach;topic=81674.0;attach=60787;image)
Вот квантили:
        0%       0.5%       2.5%        50%      97.5%      99.5%       100%
0.06948321 0.07844244 0.08448759 0.10418779 0.12596824 0.13450926 0.15038085

Стандартное отклонение 0.01055299
В общем, довольно большой разброс получается.
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от марта 21, 2016, 05:40
Возник такой вопрос, а насколько хорошо, в принципе, должна быть видна экспонента на этих данных,если даже она там и есть?
Схема такая: взял эксп. распад с константой 0.103873, набор времен из таблицы Михайлова, для случайных реализаций списков сохранности сравнивал коэффициенты детерминации для фитирования
1) x ~ 1 - l*t
2) log(x) ~ -l*t
У меня получилось, что только в 70% случаев логарифм лучше ложиться на прямую, чем исходные данные.
Думаю, что хотя это и грубая прикидка, результат говорит, что, по такому числу языков закон распада устанавливать нельзя (раньше я писал то же относительно конкретного набора, а теперь говорю вообще о наборе такого маленького размера).

Код, если кому интересно:
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 21, 2016, 18:39
Цитата: yurifromspb от марта 19, 2016, 00:07
Кстати, посмотрите, у вас лямбды неверно посчитаны.
Посмотрел, спасибо, что заметили. Но по латыни у меня посчитано верно, просто C=0.87 у меня дано с округлением. На самом деле C=85/98=0.8673.
Цитата: yurifromspb от марта 19, 2016, 00:07
Кстати, а зачем вы λср считаете как среднее арифметическое?
Побыстрее хотел. Но по-вашему, конечно, лучше. Сводеш еще считал средневзвешенное: длину периода считаем весом.
Цитата: yurifromspb от марта 19, 2016, 00:07
В общем, биномиальное распределение при 100 испытаниях действительно даёт большую дисперсию, тут всё очевидно.
Сводеша это тоже огорчало, он поначалу хотел список расширить. Он сначала нашел 215 слов и сказал, что этот список предварительный, и результаты предварительные, вот когда наберется у него 400 слов, тогда уже можно будет делать точную статистику. Но нашел он всего 8 новых слов, а с другой стороны, обнаружил, что половину списка надо выбросить. Он старался оставлять слова не самые устойчивые, а однозначно переводимые. Но своей цели, как видим, достиг не полностью.
Возможно, вам будет интересно почитать его пионерские работы (Новое в зарубежной лингвистике, вып. 1).
http://www.classes.ru/grammar/148.new-in-linguistics-1/source/worddocuments/1.htm (http://www.classes.ru/grammar/148.new-in-linguistics-1/source/worddocuments/1.htm)
Цитата: yurifromspb от марта 19, 2016, 00:07
В итоге, что получается, чтобы продвинуться дальше, нужно делать ревизию списков Сводеша, самому собирать данные для анализа?
Сводеш пошел по пути уточнения и сужения значений, он свой список все время редактировал, окончательный вариант опубликовал в 1971 году. Например, в 1952 году у него было слово warm – теплый (теплая погода), потом он заменил его на hot. Слово breast (грудь) у него сначала означало часть туловища, потом – женскую грудь. Были и другие подобные изменения.  Не знаю, к сожалению, продолжались ли эти уточнения после Сводеша.
Была еще идея у Санкоффа (1970) в случае синонимов ставить дробные значения по формуле 1-0,5Σabs(Δi), где Δi – разность частоты. Например, польскому «брюх» соответствуют русские «живот» и «брюхо». По строгой методике здесь надо поставить ноль; если очень хочется, можно поставить единицу, а по Санкоффу надо поставить 1/3. Допустим, для русского языка припишем слову «живот» частоту 2/3, а для «брюхо» - 1/3. Считаем так:
              частота в польском          частота в русском         разность
живот             0                                    2/3                                  2/3
брюхо            1                                     1/3                                  2/3

Оценка = 1-0,5(2/3+2/3)=1/3.
У Дайена (1967) была идея использовать не 100 слов, а 195, но для каждого слова вычислять отдельную лямбду. Примерно то же, что потом  Васильев сделал. Не знаю, читал ли Васильев Дайена, или он самостоятельно изобрел велосипед. Эту идею потом включил Санкофф в свою книжку «Полностью параметризованная лексикостатистика», к сожалению, не могу ее найти в открытом доступе.
Изложу, наконец, и свои соображения. На мой взгляд, уточнение и сужение значений в списке Сводеша часто приводит к тому, что более частотные слова заменяются на менее частотные, а значит, и на менее устойчивые, а это нехорошо. Например, русском списке против английского «foot» пишут «стопа, ступня». Хотя на практике  foot почти всегда переводится как нога. Да и вообще слово «нога»  в русском языке употребляется гораздо чаще, чем «ступня».
На мой взгляд, пусть каждая позиция в списке сопровождается тремя типовыми предложениями, в которых это слово употребляется. Предложения должны однозначно характеризовать ситуацию. Для позиции «нога» предложения могут быть такие:
1) Я постриг ногти на ноге; 2) У меня на ноге мозоль; 3) Я снял ботинок с ноги.
Во всех трех случаях будет однозначный перевод foot=нога. Если будут два варианта перевода, выбираем по большинству. Если будут три варианта, выбираем первый. Если известен перевод только для одного предложения (что возможно для древних языков), то этот вариант и берем.
Может быть, при таком подходе можно расширить список и набрать 300-400 слов, как Сводеш изначально и хотел.
Может быть, надо понаблюдать за жизнью и начать собирать самые ходовые предложения, вроде «куда идешь?», «когда придешь?» «Я хочу спать» и т.д.
Цитата: yurifromspb от марта 19, 2016, 00:07
Уровень теоретического мышления: У Старостина...У Васильева... Т.е. ни эмпирики, ни теории нет.
Есть у них идеи удачные, есть неудачные. У Старостина идея ускоряющей и замедляющей поправки – очень неудачная. Чистка заимствований  – сомневаюсь, что идея хорошая. Старостин считал, что заимствования создают большой шум, который повышает вариацию лямбды. Но обосновывает этот тезис только примером риксмола. Там действительно шум получился громадный, но только если сравнивать риксмол со старонорвежским. Но есть мнение, что риксмол – это преемник датского, а не старонорвежского. Если сравнить риксмол с датским, то этот громадный шум исчезнет. Я прикидывал вариацию для лямбды. Если не учитывать риксмол, то коэффициент вариации будет 1/3 что с заимствованиями, что без них. Выходит, что чистка заимствований точность не повысила, только усложнила процедуру.
Зато идея этимологической лексикостатистики (она же корневая глоттохронология) – на мой взгляд, идея очень удачная.
Что касается Васильева, то я считаю удачной его идею учитывать параллелизм в развитии близкородственных языков. Ваши претензии к нему, по-моему, несправедливы, хотя я может быть, чего-то не понял. Перечитаю еще раз. Моя же претензия к нему – что он, похоже, не читает предшественников.
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 21, 2016, 18:46
Цитата: Tibaren от марта 19, 2016, 02:03
Только с чего бы сия величина как бы константа?
А как вообще считают промежуток времени? Из конечного момента вычитают начальный. С какой стати результат должен быть вариабельным?
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от марта 22, 2016, 22:45
Цитата: Mihailov от марта 21, 2016, 18:39
Возможно, вам будет интересно почитать его пионерские работы (Новое в зарубежной лингвистике, вып. 1).
http://www.classes.ru/grammar/148.new-in-linguistics-1/source/worddocuments/1.htm (http://www.classes.ru/grammar/148.new-in-linguistics-1/source/worddocuments/1.htm)
:yes: Спасибо! Надо будет ознакомиться.
Цитата: Mihailov от марта 21, 2016, 18:39
Зато идея этимологической лексикостатистики (она же корневая глоттохронология) – на мой взгляд, идея очень удачная.
Согласен. Интересно было бы посмотреть какой-нибудь корпус текстов, охватывающий длительный промежуток времени. Есть такие?  Но здесь проблема - автоматический морфологический разбор. Я вряд ли быстро осилю.
Цитата: Mihailov от марта 21, 2016, 18:39
Что касается Васильева, то я считаю удачной его идею учитывать параллелизм в развитии близкородственных языков. Ваши претензии к нему, по-моему, несправедливы, хотя я может быть, чего-то не понял. Перечитаю еще раз. Моя же претензия к нему – что он, похоже, не читает предшественников.
А вот здесь я и вправду был не прав - я пропустил табличку с данными по родственным языкам и подумал, что он свою модель калибровал по литературным. Это я сейчас перечитал. Да, нехорошо получилось. Надо будет посмотреть эти данные.
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 23, 2016, 10:28
Цитата: yurifromspb от марта 22, 2016, 22:45
Спасибо! Надо будет ознакомиться.
Тогда почитайте заодно и статью Хойера, она рядом. Очень хорошо показаны сложности с переводом. Я мог бы прислать вам этот выпуск в формате djvu (5 мгб) - лучше качество, лучше читается. Только не знаю, как тут его прикрепить.
Название: Заметки о глоттохронологии
Отправлено: Nevik Xukxo от марта 23, 2016, 10:35
Как демона синхронности побеждают?
Один список из, допустим, 1850 года, другой - из 370 года. Как на дату предка выйти? :???
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 23, 2016, 10:57
Цитата: Nevik Xukxo от марта 23, 2016, 10:35
Как демона синхронности побеждают?
Один список из, допустим, 1850 года, другой - из 370 года. Как на дату предка выйти?
Обозначим дату предка через Х. Она определяется из равенства
(1850-Х)+(370-Х)=Т,
где Т - дистанция, вычисляемая по формуле.
Название: Заметки о глоттохронологии
Отправлено: Mihailov от марта 23, 2016, 15:52
Цитата: yurifromspb от марта 22, 2016, 22:45
Интересно было бы посмотреть какой-нибудь корпус текстов, охватывающий длительный промежуток времени
Латинские тексты есть здесь
http://www.thelatinlibrary.com/index.html
(http://www.thelatinlibrary.com/index.html)
Название: Заметки о глоттохронологии
Отправлено: Mihailov от апреля 21, 2016, 13:53
Цитата: Mihailov от марта 21, 2016, 18:39
На мой взгляд, пусть каждая позиция в списке сопровождается тремя типовыми предложениями, в которых это слово употребляется. Предложения должны однозначно характеризовать ситуацию.
Уже сделано
[url=http://www.jolr.ru/files/%2850%29jlr2010-4%2846-89%29.pdf]http://www.jolr.ru/files/(50)jlr2010-4(46-89).pdf][url=http://www.jolr.ru/files/%2850%29jlr2010-4%2846-89%29.pdf]http://www.jolr.ru/files/(50)jlr2010-4(46-89).pdf (http://www.jolr.ru/files/%2850%29jlr2010-4%2846-89%29.pdf)]http://www.jolr.ru/files/(50)jlr2010-4(46-89).pdf (http://www.jolr.ru/files/%2850%29jlr2010-4%2846-89%29.pdf)
Название: Заметки о глоттохронологии
Отправлено: Bhudh от апреля 21, 2016, 14:07
Ни фига себе урл зарекурсился.
Название: Заметки о глоттохронологии
Отправлено: maratique от апреля 18, 2022, 08:20
А какова наипростейшая математическая модель, позволяющая получить правильные законы изменения языков во времени? Тогда все законы получаются просто решением диффура.
Название: Заметки о глоттохронологии
Отправлено: Bhudh от апреля 18, 2022, 08:54
Где Вы видели вероятностные дифуры?
Название: Заметки о глоттохронологии
Отправлено: maratique от апреля 18, 2022, 09:36
Цитата: Bhudh от апреля 18, 2022, 08:54
Где Вы видели вероятностные дифуры?
Ну, во-первых, в квантовой механике.
Название: Заметки о глоттохронологии
Отправлено: Bhudh от апреля 18, 2022, 09:53
А, ну да, а ещё в марковских цепях, которые в лингвистике уже давно применяются.
Но получаются-то в результате всё равно не законы, а их вероятности.
Название: Заметки о глоттохронологии
Отправлено: yurifromspb от апреля 18, 2022, 12:23
Цитата: maratique от апреля 18, 2022, 08:20
А какова наипростейшая математическая модель, позволяющая получить правильные законы изменения языков во времени? Тогда все законы получаются просто решением диффура.
Эмпирически вроде как модель Васильева лучше ложится на времена дивергенции.

"Физический смысл" без комментариев:
Модель мотивирована наблюдением, что модель Сводеша переоценивает число замен тем больше, чем меньше времени прошло от разделения.
Иными словами, в недавно разошедшихся языках у замен есть "тенденция" происходить одинаковым образом, но со временем тенденция пропадает.

Простейшая модель разделяет список родственных слов на две части - в одной замены происходят одинаково в обоих языках и не приводят к уменьшению числа когнатов, а в другой - по разному и приводят (вторая часть = "как по Сводешу").
[tex]N = N_s(t) + N_d(t) + N_x(t)[/tex]: "не дают замены при замене" - "дают замену" - "заменены".
Число когнатов равно [tex]N_c = N-N_x = N_s(t) + N_d(t)[/tex] и меняется за счёт распада независимой части.
[tex]dN_c = - \eta N_d dt[/tex]
"Согласованная" часть уменьшается также по модели "распада", т.е.:
[tex]dN_s = -\mu N_s dt[/tex], откуда [tex]N_s = N_{s0} e^{-\mu t}[/tex], считаем, что [tex]N_{s0}=N_0[/tex]
Отсюда и из [tex]N_d = N_c - N_s[/tex] получаем неоднородное дифференциальное уравнение:
[tex]dN_c = -\eta (N_c-N_0 e^{-\mu t}) dt[/tex]
[tex] \frac 1 \eta \frac {dN_c} {dt} + N_c = N_0 e^{-\mu t}[/tex]

Решение уравнения:
[tex]N_c = N_0 \left( \frac {\mu} {\mu - \eta} e^{-\eta t} + \frac {\eta} {\eta - \mu} e^{-\mu t} \right) [/tex]
Решение уравнения при [tex]\eta = \mu[/tex]:
[tex]N_c = N_0 e^{-\eta t} (1+\eta t)[/tex]
Так же, рассматривается вариант модели с абсолютно неизменяемой частью.

Публикация про модель:
https://starlingdb.org/Texts/vasilyev.pdf
Публикация про определение параметров модели на материале романских.
https://www.jolr.ru/files/(218)jlr2017-15-1-2(114-135).pdf

P.S.
И всё же пара комментариев:
Обращают на себя внимание две вещи: 1) - вопиющее несовпадение скоростей распада по модели Васильева на парах и по модели Сводеша на одном языке и 2) как будто, неожиданно низкий уровень "шума" в долях когнатов по сравнению с ожидаемым.
Кажется, что это должно вести к выводу о существовании структуры не просто у списка, а у элементов списка.
P.P.S.
Сейчас всем этим заниматься не планирую, помочь вряд ли смогу. Попробуйте поискать другие работы Васильева. Может быть он там что-то ещё сделал.