Author Topic: Пара вопросов о глоттохронологии на сайте starling.rinet.ru.  (Read 3928 times)

0 Members and 1 Guest are viewing this topic.

Offline yurifromspb

  • Posts: 616
Попробовал зайти, вот что увидел:
"Тема или раздел, которую вы ищете, отсутствует или недоступна для входа."

Добавьте себя в группу "Личные блоги". Профиль-Изменить профиль-Членство в группах.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Offline Alone Coder

  • Posts: 22481
    • Орфовики
Вообще, сколько всего есть языков, для которых известны более двух стадий?
Длинная письменная история есть у египетского, персидского, китайского, греческого.

Offline yurifromspb

  • Posts: 616
Пока этот пример единственный, он ни на что тень не бросает. Знаете, какая там случайная вариация?
Корень(15*85/100)=3,57
Корень(12*88/100)=3,69.
Еще умножим эти стандартные отклонения на 2, чтобы выйти на доверительный интервал95%.
Вот когда таких примеров наберется много, тогда и появится предмет для размышлений.
Ну, так нельзя. Доверительный интервал чего? Оценки вероятности сохранения слова, так ведь?
Скажем сохранилось 85 из 100, значит оценка 0.85. Это за 0.8 т.л. И, по другой точке 0.88 за 1.5 т.л.
Теперь вопрос стоит так: если есть некий вероятностный закон, дающий вероятность сохранения слова за некоторое время p(t), то как оценить правдоподобие такой пары данных: (p(0.8)=0.88; p(1.5)=0.85)? По моему, тут такие прикидки с двумя сигмами ни о чём не говорят. Надо строить какую-то специальную стат. оценку. В общем, я тут пас.
Но, можно так прикинуть:
Если распад идёт по Сводешу, оценка вероятности сохранения во второй точки исходя из первой точки такая:
λ=log(0.85)/-0.8=0.203
p=exp(-0.203*1.5)=0.737
И, наоборот:
λ=log(0.88)/-1.5=0.085
p=exp(-0.085*0.8)=0.934
Лямбды, как видите, сильно отличаются, и рассчитанные вероятности по другой точке лежат далеко от вероятности, рассчитанной исходя из неё самой.
Для сохранения 88 из 100, 95% доверительный интервал будет (0.800 0.936),  0.737 в него не попадает. Для альтернативной гипотезы p-value = 0.0006108.
Соответсвенно, наооборот: (0.765 0.914) 0.737 0.003435
Как видите, вместе эти данные плохо сочетаются.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Длинная письменная история есть у египетского, персидского, китайского, греческого.

А есть готовые ряды временные ряды списков Сводеша в открытом доступе? Было бы интересно посмотреть.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Offline sasza

  • Posts: 7640
Вы не поняли. В своей работе он расписал даже идеологию своей формулы - якобы поток изобретений пропорционален численности населения, а рост пропорционален потоку изобретений.

Только он не упомянул, что если человечество посчитать не целиком, а, например, Америку отдельно, то при суммировании получится совершенно другой результат.
А шо не так? В Америку, вообще-то, куча образованных индусов и китайцев эмигрируют, например, которые участвуют в процессе. А изобретения, которые там делаются, повышат продолжительность жизни и уменьшают детскую смертность в том числе и на их родине. Так что всё сходится.

Ещё один пример из той же эпохи - Гумилёв, который в серии своих книг отстаивал пространственно-временные точки "этногенеза", выстроенные по прямым линиям. Красиво написано, куча ссылок (правда, на самые интересные "открытия", типа братания Александра Невского с Сартаком, ссылок нет), тоже кумир миллионов.

Так что Старостин никакого удивления не вызывает.
Фричность Гумилёва общепринята.

Offline yurifromspb

  • Posts: 616
2) Допустим, слова действительно стареют и вероятность их замены увеличивается с течением времени. Но отсюда не следует нестабильность лямбды. Можно представить нестабильность в таком случае: если вдруг заменились одновременно все слова из 100-словника. Тогда мы увидим такую картину: в первое тысячелетие заменились, допустим, 3-4 слова, во второе тысячелетие – около 10, в третье – еще больше, а в 4-5 тысячелетиях старые слова начнут вымирать, как по команде, пока ни одного в живых не останется.
Но на самом деле такого одновременного обновления списка не бывает. Какой момент в истории языка ни возьми, всегда в списке будут слова разного возраста – и молодые, и старые, и средние. С течением времени одни слова уходят, другие приходят, сохранившиеся слова передвигаются в следующий возрастной разряд, а средний возраст списка остается одинаковым, а потому должна оставаться одинаковой и частота замен. Даже в случае чудесного обновления всего списка одновременно лямбда упадет только временно, а затем вернется к равновесному значению – когда установится разновозрастный состав списка.
Ну, в общем, да. Васильев обосновал "старение слов" для сравнения  двух синхронных языков. Грубо говоря, если язык помнит своё состояние (а это так, процессы не идут мгновенно), то будет уменьшение числа замен в паре недавно разошедшихся языков. По мере забывания прошлого распад будет стремится к обычному экспоненциальному. Но, для одного-то языка, внутри него замены всё равно идут экспоненциально, а калибрует Васильев по историям единичных языков, не пар! Как-то не очень хорошо.
Если посмотреть на данные Васильева, кстати, если не брать реконструкции, то эти данные аппроксимируются обычной прямой. Если добавить данные Старостина, то что-то такое, похожее на закон Васильева ([tex]c + (1-c)e^{-\lambda t}(1+\lambda t)[/tex]) выходит, хотя, по уму и не должно.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Соответсвенно, наооборот: (0.765 0.914) 0.737 0.003435
Извиняюсь - не то число вставил:
(0.765 0.914) 0.934 0.003435
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Offline Mihailov

  • Posts: 133
Здесь мне тоже не всё понятно (есть к тому же две разные ситуации - сравнение двух одновременных языков и двух стадий одного языка, там старение слов можно интерпретировать по разному). Я не очень понял насчёт Сводеша и Васильева, с латынью, вроде как, как ни считай, интервалы не суммируются.  Вообще, сколько всего есть языков, для которых известны более двух стадий?
Я говорю про сравнение стадий одного языка. Насчет числа известных стадий - во-первых, стадии мы можем нарезать как хотим. Возьмем русский язык 1000 года, 1500 и 2000 - вот вам и три стадии. Во-вторых, необязательно проверять формулы на реальном языке. Можно испытать простейший модельный случай. Например, за первый период изменилось 10 слов, за второй тоже 10, а за оба периода  19 (одна замена была повторная). Рассчитайте по формулам длительность двух этих периодов, а также и суммарного. Результат вас удивит.
В третьих, условию суммирования времени можно придать эквивалентную форму: число замен должно согласовываться. Если разобьем период на два подпериода, то число замен за период не должно превышать число замен в первом подпериоде плюс число замен во втором подпериоде. А теперь посмотрим, какую историю языка предписывает формула с ускоряющей поправкой (номер 5-й в вашем списке в блоге). При лямбда 0.05 формула рисует такую историю: за первое тысячелетие должно случится 5 замен, за второе тоже 5, а за суммарный период в 2000 лет - 18 замен. Подставьте в формулу для x(t) значения t=1 и t=2 и убедитесь. Можете поварьировать лямбду, легче не станет.

Если распад идёт по Сводешу, оценка вероятности сохранения во второй точки исходя из первой точки такая:
λ=log(0.85)/-0.8=0.203
p=exp(-0.203*1.5)=0.737
И, наоборот:
λ=log(0.88)/-1.5=0.085
p=exp(-0.085*0.8)=0.934
Я бы немного не так подсчитал. Мы проверяем нуль-гипотезу, что на всем интервале лямбда одинакова. Значит, и оценивать надо по всему интервалу.
λ=ln(0.74)/-2.3=0.131.
Ожидаемое сохранение за первый период
exp(-0.131*0.8)=0.901, наблюдаемое значение 0,85
за второй период
exp(-0.131*1.5)=0.822, наблюдаемое значение 0,88.
Каждое отклонение в отдельности - в пределах двух сигм. Для обоих отклонений вместе расчет будет сложнее, тут уже двумерное распределение.

Offline yurifromspb

  • Posts: 616
Я тупо посчитал вероятность того, что вероятность выпадения случайной пары (n1,n2) ~ Binom(n1,100,0.903) * Binom(n2,100,0.822) будет меньше, чем у (85,88).
Получается 0.07452083. В общем, да, нельзя отвергнуть гипотезу.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Но, для одного-то языка, внутри него замены всё равно идут экспоненциально, а калибрует Васильев по историям единичных языков, не пар! Как-то не очень хорошо.
Если посмотреть на данные Васильева, кстати, если не брать реконструкции, то эти данные аппроксимируются обычной прямой.
А вот здесь я ошибся - пропустил табличку с данными для калибровки модели с согласованным распадом и подумал, что он эту модель калибрует теми же данными, что и другие модели в статье. Но это не так, он калибровал как и надо - по данным современных родственных языков. Будет время - посмотрю данные, которые он использовал.
В общем, нехорошо получилось.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: