Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.
Ограничения: максимум вложений в сообщении — 3 (3 осталось), максимальный размер всех файлов — 300 КБ, максимальный размер одного файла — 100 КБ
Снимите пометку с вложений, которые необходимо удалить
Перетащите файлы сюда или используйте кнопку для добавления файлов
Вложения и другие параметры
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр

Сообщения в этой теме

Автор yurifromspb
 - марта 22, 2016, 22:58
Цитата: yurifromspb от февраля 19, 2016, 16:42
Но, для одного-то языка, внутри него замены всё равно идут экспоненциально, а калибрует Васильев по историям единичных языков, не пар! Как-то не очень хорошо.
Если посмотреть на данные Васильева, кстати, если не брать реконструкции, то эти данные аппроксимируются обычной прямой.
А вот здесь я ошибся - пропустил табличку с данными для калибровки модели с согласованным распадом и подумал, что он эту модель калибрует теми же данными, что и другие модели в статье. Но это не так, он калибровал как и надо - по данным современных родственных языков. Будет время - посмотрю данные, которые он использовал.
В общем, нехорошо получилось.
Автор yurifromspb
 - февраля 24, 2016, 11:55
Я тупо посчитал вероятность того, что вероятность выпадения случайной пары (n1,n2) ~ Binom(n1,100,0.903) * Binom(n2,100,0.822) будет меньше, чем у (85,88).
Получается 0.07452083. В общем, да, нельзя отвергнуть гипотезу.
Автор Mihailov
 - февраля 22, 2016, 17:56
Цитата: yurifromspb от февраля 19, 2016, 16:14
Если распад идёт по Сводешу, оценка вероятности сохранения во второй точки исходя из первой точки такая:
λ=log(0.85)/-0.8=0.203
p=exp(-0.203*1.5)=0.737
И, наоборот:
λ=log(0.88)/-1.5=0.085
p=exp(-0.085*0.8)=0.934
Я бы немного не так подсчитал. Мы проверяем нуль-гипотезу, что на всем интервале лямбда одинакова. Значит, и оценивать надо по всему интервалу.
λ=ln(0.74)/-2.3=0.131.
Ожидаемое сохранение за первый период
exp(-0.131*0.8)=0.901, наблюдаемое значение 0,85
за второй период
exp(-0.131*1.5)=0.822, наблюдаемое значение 0,88.
Каждое отклонение в отдельности - в пределах двух сигм. Для обоих отклонений вместе расчет будет сложнее, тут уже двумерное распределение.
Автор Mihailov
 - февраля 19, 2016, 17:06
Цитата: yurifromspb от февраля 19, 2016, 15:16
Здесь мне тоже не всё понятно (есть к тому же две разные ситуации - сравнение двух одновременных языков и двух стадий одного языка, там старение слов можно интерпретировать по разному). Я не очень понял насчёт Сводеша и Васильева, с латынью, вроде как, как ни считай, интервалы не суммируются.  Вообще, сколько всего есть языков, для которых известны более двух стадий?
Я говорю про сравнение стадий одного языка. Насчет числа известных стадий - во-первых, стадии мы можем нарезать как хотим. Возьмем русский язык 1000 года, 1500 и 2000 - вот вам и три стадии. Во-вторых, необязательно проверять формулы на реальном языке. Можно испытать простейший модельный случай. Например, за первый период изменилось 10 слов, за второй тоже 10, а за оба периода  19 (одна замена была повторная). Рассчитайте по формулам длительность двух этих периодов, а также и суммарного. Результат вас удивит.
В третьих, условию суммирования времени можно придать эквивалентную форму: число замен должно согласовываться. Если разобьем период на два подпериода, то число замен за период не должно превышать число замен в первом подпериоде плюс число замен во втором подпериоде. А теперь посмотрим, какую историю языка предписывает формула с ускоряющей поправкой (номер 5-й в вашем списке в блоге). При лямбда 0.05 формула рисует такую историю: за первое тысячелетие должно случится 5 замен, за второе тоже 5, а за суммарный период в 2000 лет - 18 замен. Подставьте в формулу для x(t) значения t=1 и t=2 и убедитесь. Можете поварьировать лямбду, легче не станет.
Автор yurifromspb
 - февраля 19, 2016, 16:53
Цитата: yurifromspb от февраля 19, 2016, 16:14
Соответсвенно, наооборот: (0.765 0.914) 0.737 0.003435
Извиняюсь - не то число вставил:
(0.765 0.914) 0.934 0.003435
Автор yurifromspb
 - февраля 19, 2016, 16:42
Цитата: Mihailov от февраля 18, 2016, 19:01
2) Допустим, слова действительно стареют и вероятность их замены увеличивается с течением времени. Но отсюда не следует нестабильность лямбды. Можно представить нестабильность в таком случае: если вдруг заменились одновременно все слова из 100-словника. Тогда мы увидим такую картину: в первое тысячелетие заменились, допустим, 3-4 слова, во второе тысячелетие – около 10, в третье – еще больше, а в 4-5 тысячелетиях старые слова начнут вымирать, как по команде, пока ни одного в живых не останется.
Но на самом деле такого одновременного обновления списка не бывает. Какой момент в истории языка ни возьми, всегда в списке будут слова разного возраста – и молодые, и старые, и средние. С течением времени одни слова уходят, другие приходят, сохранившиеся слова передвигаются в следующий возрастной разряд, а средний возраст списка остается одинаковым, а потому должна оставаться одинаковой и частота замен. Даже в случае чудесного обновления всего списка одновременно лямбда упадет только временно, а затем вернется к равновесному значению – когда установится разновозрастный состав списка.
Ну, в общем, да. Васильев обосновал "старение слов" для сравнения  двух синхронных языков. Грубо говоря, если язык помнит своё состояние (а это так, процессы не идут мгновенно), то будет уменьшение числа замен в паре недавно разошедшихся языков. По мере забывания прошлого распад будет стремится к обычному экспоненциальному. Но, для одного-то языка, внутри него замены всё равно идут экспоненциально, а калибрует Васильев по историям единичных языков, не пар! Как-то не очень хорошо.
Если посмотреть на данные Васильева, кстати, если не брать реконструкции, то эти данные аппроксимируются обычной прямой. Если добавить данные Старостина, то что-то такое, похожее на закон Васильева ([tex]c + (1-c)e^{-\lambda t}(1+\lambda t)[/tex]) выходит, хотя, по уму и не должно.
Автор sasza
 - февраля 19, 2016, 16:39
Цитата: Alone Coder от февраля 19, 2016, 15:08
Ещё один пример из той же эпохи - Гумилёв, который в серии своих книг отстаивал пространственно-временные точки "этногенеза", выстроенные по прямым линиям. Красиво написано, куча ссылок (правда, на самые интересные "открытия", типа братания Александра Невского с Сартаком, ссылок нет), тоже кумир миллионов.

Так что Старостин никакого удивления не вызывает.
Фричность Гумилёва общепринята.
Автор sasza
 - февраля 19, 2016, 16:38
Цитата: Alone Coder от февраля 19, 2016, 15:02
Вы не поняли. В своей работе он расписал даже идеологию своей формулы - якобы поток изобретений пропорционален численности населения, а рост пропорционален потоку изобретений.

Только он не упомянул, что если человечество посчитать не целиком, а, например, Америку отдельно, то при суммировании получится совершенно другой результат.
А шо не так? В Америку, вообще-то, куча образованных индусов и китайцев эмигрируют, например, которые участвуют в процессе. А изобретения, которые там делаются, повышат продолжительность жизни и уменьшают детскую смертность в том числе и на их родине. Так что всё сходится.
Автор yurifromspb
 - февраля 19, 2016, 16:19
Цитата: Alone Coder от февраля 19, 2016, 16:00
Длинная письменная история есть у египетского, персидского, китайского, греческого.

А есть готовые ряды временные ряды списков Сводеша в открытом доступе? Было бы интересно посмотреть.
Автор yurifromspb
 - февраля 19, 2016, 16:14
Цитата: Mihailov от февраля 19, 2016, 14:44
Пока этот пример единственный, он ни на что тень не бросает. Знаете, какая там случайная вариация?
Корень(15*85/100)=3,57
Корень(12*88/100)=3,69.
Еще умножим эти стандартные отклонения на 2, чтобы выйти на доверительный интервал95%.
Вот когда таких примеров наберется много, тогда и появится предмет для размышлений.
Ну, так нельзя. Доверительный интервал чего? Оценки вероятности сохранения слова, так ведь?
Скажем сохранилось 85 из 100, значит оценка 0.85. Это за 0.8 т.л. И, по другой точке 0.88 за 1.5 т.л.
Теперь вопрос стоит так: если есть некий вероятностный закон, дающий вероятность сохранения слова за некоторое время p(t), то как оценить правдоподобие такой пары данных: (p(0.8)=0.88; p(1.5)=0.85)? По моему, тут такие прикидки с двумя сигмами ни о чём не говорят. Надо строить какую-то специальную стат. оценку. В общем, я тут пас.
Но, можно так прикинуть:
Если распад идёт по Сводешу, оценка вероятности сохранения во второй точки исходя из первой точки такая:
λ=log(0.85)/-0.8=0.203
p=exp(-0.203*1.5)=0.737
И, наоборот:
λ=log(0.88)/-1.5=0.085
p=exp(-0.085*0.8)=0.934
Лямбды, как видите, сильно отличаются, и рассчитанные вероятности по другой точке лежат далеко от вероятности, рассчитанной исходя из неё самой.
Для сохранения 88 из 100, 95% доверительный интервал будет (0.800 0.936),  0.737 в него не попадает. Для альтернативной гипотезы p-value = 0.0006108.
Соответсвенно, наооборот: (0.765 0.914) 0.737 0.003435
Как видите, вместе эти данные плохо сочетаются.