Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Заметки о глоттохронологии

Автор yurifromspb, февраля 16, 2016, 00:35

0 Пользователи и 1 гость просматривают эту тему.

yurifromspb

А вообще, зашибись, конечно.
Исходные данные:
Число когнатов у румынского языка и латыни можно варьировать в переделах десятки. У румынского!  А тут ностратический распался Х тыс. лет назад, кто не верит - ретроград.
Уровень теоретического мышления:
У Старостина: дифуры не понимает (и не понимает, что не понимает), главное чтоб формула подошла к интуитивному пониманию.
У Васильева: обоснование модели для пары языков, а калибровка на стадиях одного языка. И если не добавить ПИЕ и ещё какой-то теор. конструкт, не помню какой, никакого чуда не произойдёт. Здесь я ошибся. Васильев калибровал по данным современных языков.
Итог.
Ехал гений через реку времени, видит гений праязык.

Т.е. ни эмпирики, ни теории нет. Но есть статьи, конференции, научпоп.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Tibaren

Цитата: Mihailov от марта 18, 2016, 10:56
Это не лакуна, а период, в котором подсчитываются замены.
Замечательно. Только с чего бы сия величина как бы константа?
Zikiro beltza ona dut bañan obea buztan zuria

yurifromspb

Цитата: yurifromspb от марта 19, 2016, 00:07
Кстати, а зачем вы λср считаете как среднее арифметическое? Имеет смысл её определять или из наименьших квадратов (0.1011, если в обычных координатах, 0.1039 если из линейной регрессии в логарифмических) или методом наибольшего правдоподобия (0.0968, если я правильно это сделал).

Кстати, о точности определения лямбды. Вопрос важный и некое чутьё здесь иметь стоит. Понятно, что здесь. наверное есть разработанные подходы, но я не знаток статистики, поэтому предпочёл генерацию случайной выборки.
К примеру, определяем мы лямбду из линейной регрессии log(x) ~ -λt.
logfit <- lm(log(x)~t+0)
Получаем λ=0.103873.
Вопрос, насколько был бы велик разброс оценки если бы выпадение слов происходило строго по Сводешу с соотв. лямбдой?
Я сгенерировал 10000 случайных наборов данных (время,доля сохранившихся слов в стословнике), для тех же t, что в исходном наборе, в предположении, что вероятность выпадения слова p=exp(-0.103873t) и построил гистограмму для оценки лямбды тем же методом.
Получилось так.

Вот квантили:
        0%       0.5%       2.5%        50%      97.5%      99.5%       100%
0.06948321 0.07844244 0.08448759 0.10418779 0.12596824 0.13450926 0.15038085

Стандартное отклонение 0.01055299
В общем, довольно большой разброс получается.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

yurifromspb

Возник такой вопрос, а насколько хорошо, в принципе, должна быть видна экспонента на этих данных,если даже она там и есть?
Схема такая: взял эксп. распад с константой 0.103873, набор времен из таблицы Михайлова, для случайных реализаций списков сохранности сравнивал коэффициенты детерминации для фитирования
1) x ~ 1 - l*t
2) log(x) ~ -l*t
У меня получилось, что только в 70% случаев логарифм лучше ложиться на прямую, чем исходные данные.
Думаю, что хотя это и грубая прикидка, результат говорит, что, по такому числу языков закон распада устанавливать нельзя (раньше я писал то же относительно конкретного набора, а теперь говорю вообще о наборе такого маленького размера).

Код, если кому интересно:
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Mihailov

Цитата: yurifromspb от марта 19, 2016, 00:07
Кстати, посмотрите, у вас лямбды неверно посчитаны.
Посмотрел, спасибо, что заметили. Но по латыни у меня посчитано верно, просто C=0.87 у меня дано с округлением. На самом деле C=85/98=0.8673.
Цитата: yurifromspb от марта 19, 2016, 00:07
Кстати, а зачем вы λср считаете как среднее арифметическое?
Побыстрее хотел. Но по-вашему, конечно, лучше. Сводеш еще считал средневзвешенное: длину периода считаем весом.
Цитата: yurifromspb от марта 19, 2016, 00:07
В общем, биномиальное распределение при 100 испытаниях действительно даёт большую дисперсию, тут всё очевидно.
Сводеша это тоже огорчало, он поначалу хотел список расширить. Он сначала нашел 215 слов и сказал, что этот список предварительный, и результаты предварительные, вот когда наберется у него 400 слов, тогда уже можно будет делать точную статистику. Но нашел он всего 8 новых слов, а с другой стороны, обнаружил, что половину списка надо выбросить. Он старался оставлять слова не самые устойчивые, а однозначно переводимые. Но своей цели, как видим, достиг не полностью.
Возможно, вам будет интересно почитать его пионерские работы (Новое в зарубежной лингвистике, вып. 1).
http://www.classes.ru/grammar/148.new-in-linguistics-1/source/worddocuments/1.htm
Цитата: yurifromspb от марта 19, 2016, 00:07
В итоге, что получается, чтобы продвинуться дальше, нужно делать ревизию списков Сводеша, самому собирать данные для анализа?
Сводеш пошел по пути уточнения и сужения значений, он свой список все время редактировал, окончательный вариант опубликовал в 1971 году. Например, в 1952 году у него было слово warm – теплый (теплая погода), потом он заменил его на hot. Слово breast (грудь) у него сначала означало часть туловища, потом – женскую грудь. Были и другие подобные изменения.  Не знаю, к сожалению, продолжались ли эти уточнения после Сводеша.
Была еще идея у Санкоффа (1970) в случае синонимов ставить дробные значения по формуле 1-0,5Σabs(Δi), где Δi – разность частоты. Например, польскому «брюх» соответствуют русские «живот» и «брюхо». По строгой методике здесь надо поставить ноль; если очень хочется, можно поставить единицу, а по Санкоффу надо поставить 1/3. Допустим, для русского языка припишем слову «живот» частоту 2/3, а для «брюхо» - 1/3. Считаем так:
              частота в польском          частота в русском         разность
живот             0                                    2/3                                  2/3
брюхо            1                                     1/3                                  2/3

Оценка = 1-0,5(2/3+2/3)=1/3.
У Дайена (1967) была идея использовать не 100 слов, а 195, но для каждого слова вычислять отдельную лямбду. Примерно то же, что потом  Васильев сделал. Не знаю, читал ли Васильев Дайена, или он самостоятельно изобрел велосипед. Эту идею потом включил Санкофф в свою книжку «Полностью параметризованная лексикостатистика», к сожалению, не могу ее найти в открытом доступе.
Изложу, наконец, и свои соображения. На мой взгляд, уточнение и сужение значений в списке Сводеша часто приводит к тому, что более частотные слова заменяются на менее частотные, а значит, и на менее устойчивые, а это нехорошо. Например, русском списке против английского «foot» пишут «стопа, ступня». Хотя на практике  foot почти всегда переводится как нога. Да и вообще слово «нога»  в русском языке употребляется гораздо чаще, чем «ступня».
На мой взгляд, пусть каждая позиция в списке сопровождается тремя типовыми предложениями, в которых это слово употребляется. Предложения должны однозначно характеризовать ситуацию. Для позиции «нога» предложения могут быть такие:
1) Я постриг ногти на ноге; 2) У меня на ноге мозоль; 3) Я снял ботинок с ноги.
Во всех трех случаях будет однозначный перевод foot=нога. Если будут два варианта перевода, выбираем по большинству. Если будут три варианта, выбираем первый. Если известен перевод только для одного предложения (что возможно для древних языков), то этот вариант и берем.
Может быть, при таком подходе можно расширить список и набрать 300-400 слов, как Сводеш изначально и хотел.
Может быть, надо понаблюдать за жизнью и начать собирать самые ходовые предложения, вроде «куда идешь?», «когда придешь?» «Я хочу спать» и т.д.
Цитата: yurifromspb от марта 19, 2016, 00:07
Уровень теоретического мышления: У Старостина...У Васильева... Т.е. ни эмпирики, ни теории нет.
Есть у них идеи удачные, есть неудачные. У Старостина идея ускоряющей и замедляющей поправки – очень неудачная. Чистка заимствований  – сомневаюсь, что идея хорошая. Старостин считал, что заимствования создают большой шум, который повышает вариацию лямбды. Но обосновывает этот тезис только примером риксмола. Там действительно шум получился громадный, но только если сравнивать риксмол со старонорвежским. Но есть мнение, что риксмол – это преемник датского, а не старонорвежского. Если сравнить риксмол с датским, то этот громадный шум исчезнет. Я прикидывал вариацию для лямбды. Если не учитывать риксмол, то коэффициент вариации будет 1/3 что с заимствованиями, что без них. Выходит, что чистка заимствований точность не повысила, только усложнила процедуру.
Зато идея этимологической лексикостатистики (она же корневая глоттохронология) – на мой взгляд, идея очень удачная.
Что касается Васильева, то я считаю удачной его идею учитывать параллелизм в развитии близкородственных языков. Ваши претензии к нему, по-моему, несправедливы, хотя я может быть, чего-то не понял. Перечитаю еще раз. Моя же претензия к нему – что он, похоже, не читает предшественников.

Mihailov

Цитата: Tibaren от марта 19, 2016, 02:03
Только с чего бы сия величина как бы константа?
А как вообще считают промежуток времени? Из конечного момента вычитают начальный. С какой стати результат должен быть вариабельным?

yurifromspb

Цитата: Mihailov от марта 21, 2016, 18:39
Возможно, вам будет интересно почитать его пионерские работы (Новое в зарубежной лингвистике, вып. 1).
http://www.classes.ru/grammar/148.new-in-linguistics-1/source/worddocuments/1.htm
:yes: Спасибо! Надо будет ознакомиться.
Цитата: Mihailov от марта 21, 2016, 18:39
Зато идея этимологической лексикостатистики (она же корневая глоттохронология) – на мой взгляд, идея очень удачная.
Согласен. Интересно было бы посмотреть какой-нибудь корпус текстов, охватывающий длительный промежуток времени. Есть такие?  Но здесь проблема - автоматический морфологический разбор. Я вряд ли быстро осилю.
Цитата: Mihailov от марта 21, 2016, 18:39
Что касается Васильева, то я считаю удачной его идею учитывать параллелизм в развитии близкородственных языков. Ваши претензии к нему, по-моему, несправедливы, хотя я может быть, чего-то не понял. Перечитаю еще раз. Моя же претензия к нему – что он, похоже, не читает предшественников.
А вот здесь я и вправду был не прав - я пропустил табличку с данными по родственным языкам и подумал, что он свою модель калибровал по литературным. Это я сейчас перечитал. Да, нехорошо получилось. Надо будет посмотреть эти данные.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Mihailov

Цитата: yurifromspb от марта 22, 2016, 22:45
Спасибо! Надо будет ознакомиться.
Тогда почитайте заодно и статью Хойера, она рядом. Очень хорошо показаны сложности с переводом. Я мог бы прислать вам этот выпуск в формате djvu (5 мгб) - лучше качество, лучше читается. Только не знаю, как тут его прикрепить.

Nevik Xukxo

Как демона синхронности побеждают?
Один список из, допустим, 1850 года, другой - из 370 года. Как на дату предка выйти? :???

Mihailov

Цитата: Nevik Xukxo от марта 23, 2016, 10:35
Как демона синхронности побеждают?
Один список из, допустим, 1850 года, другой - из 370 года. Как на дату предка выйти?
Обозначим дату предка через Х. Она определяется из равенства
(1850-Х)+(370-Х)=Т,
где Т - дистанция, вычисляемая по формуле.

Mihailov

Цитата: yurifromspb от марта 22, 2016, 22:45
Интересно было бы посмотреть какой-нибудь корпус текстов, охватывающий длительный промежуток времени
Латинские тексты есть здесь
http://www.thelatinlibrary.com/index.html

Mihailov

Цитата: Mihailov от марта 21, 2016, 18:39
На мой взгляд, пусть каждая позиция в списке сопровождается тремя типовыми предложениями, в которых это слово употребляется. Предложения должны однозначно характеризовать ситуацию.
Уже сделано
[url=http://www.jolr.ru/files/%2850%29jlr2010-4%2846-89%29.pdf]http://www.jolr.ru/files/(50)jlr2010-4(46-89).pdf][url=http://www.jolr.ru/files/%2850%29jlr2010-4%2846-89%29.pdf]http://www.jolr.ru/files/(50)jlr2010-4(46-89).pdf]http://www.jolr.ru/files/(50)jlr2010-4(46-89).pdf

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

maratique

А какова наипростейшая математическая модель, позволяющая получить правильные законы изменения языков во времени? Тогда все законы получаются просто решением диффура.
Memento mori
普京回罗

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

maratique

Цитата: Bhudh от апреля 18, 2022, 08:54
Где Вы видели вероятностные дифуры?
Ну, во-первых, в квантовой механике.
Memento mori
普京回罗

Bhudh

А, ну да, а ещё в марковских цепях, которые в лингвистике уже давно применяются.
Но получаются-то в результате всё равно не законы, а их вероятности.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

yurifromspb

Цитата: maratique от апреля 18, 2022, 08:20
А какова наипростейшая математическая модель, позволяющая получить правильные законы изменения языков во времени? Тогда все законы получаются просто решением диффура.
Эмпирически вроде как модель Васильева лучше ложится на времена дивергенции.

"Физический смысл" без комментариев:
Модель мотивирована наблюдением, что модель Сводеша переоценивает число замен тем больше, чем меньше времени прошло от разделения.
Иными словами, в недавно разошедшихся языках у замен есть "тенденция" происходить одинаковым образом, но со временем тенденция пропадает.

Простейшая модель разделяет список родственных слов на две части - в одной замены происходят одинаково в обоих языках и не приводят к уменьшению числа когнатов, а в другой - по разному и приводят (вторая часть = "как по Сводешу").
[tex]N = N_s(t) + N_d(t) + N_x(t)[/tex]: "не дают замены при замене" - "дают замену" - "заменены".
Число когнатов равно [tex]N_c = N-N_x = N_s(t) + N_d(t)[/tex] и меняется за счёт распада независимой части.
[tex]dN_c = - \eta N_d dt[/tex]
"Согласованная" часть уменьшается также по модели "распада", т.е.:
[tex]dN_s = -\mu N_s dt[/tex], откуда [tex]N_s = N_{s0} e^{-\mu t}[/tex], считаем, что [tex]N_{s0}=N_0[/tex]
Отсюда и из [tex]N_d = N_c - N_s[/tex] получаем неоднородное дифференциальное уравнение:
[tex]dN_c = -\eta (N_c-N_0 e^{-\mu t}) dt[/tex]
[tex] \frac 1 \eta \frac {dN_c} {dt} + N_c = N_0 e^{-\mu t}[/tex]

Решение уравнения:
[tex]N_c = N_0 \left( \frac {\mu} {\mu - \eta} e^{-\eta t} + \frac {\eta} {\eta - \mu} e^{-\mu t} \right) [/tex]
Решение уравнения при [tex]\eta = \mu[/tex]:
[tex]N_c = N_0 e^{-\eta t} (1+\eta t)[/tex]
Так же, рассматривается вариант модели с абсолютно неизменяемой частью.

Публикация про модель:
https://starlingdb.org/Texts/vasilyev.pdf
Публикация про определение параметров модели на материале романских.
https://www.jolr.ru/files/(218)jlr2017-15-1-2(114-135).pdf

P.S.
И всё же пара комментариев:
Обращают на себя внимание две вещи: 1) - вопиющее несовпадение скоростей распада по модели Васильева на парах и по модели Сводеша на одном языке и 2) как будто, неожиданно низкий уровень "шума" в долях когнатов по сравнению с ожидаемым.
Кажется, что это должно вести к выводу о существовании структуры не просто у списка, а у элементов списка.
P.P.S.
Сейчас всем этим заниматься не планирую, помочь вряд ли смогу. Попробуйте поискать другие работы Васильева. Может быть он там что-то ещё сделал.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр