Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Заметки о глоттохронологии

Автор yurifromspb, февраля 16, 2016, 00:35

0 Пользователи и 1 гость просматривают эту тему.

Mihailov

Цитата: Alone Coder от февраля 23, 2016, 20:14
В языке мы не можем определить момент, когда произошла замена
С точностью до года не можем. А с точностью 10-20 лет внутренний наблюдатель сможет определить. В 50-х годах вместо "фильм" говорили "картина". А в 70-х годах слово "картина" применительно к фильму редко можно было услышать, обычно говорили "фильм". Значит, датируем замену 60-ми годами.

Mihailov

Цитата: Alone Coder от февраля 23, 2016, 20:14
Если же взять не язык, а конкретный диалект, то может получиться ситуация, когда уже заменённое слово возвращается назад, причём в синхронно регулярном виде.
Дело усложняется, но не драматично. Существуют рядом диалекты, различаются немного по стословнику, происходят иногда замены то на сближение, то на расхождение. Началом разделения считаем момент, когда начинается устойчивая динамика на расхождение. Точный год тут не укажешь, но столетие, наверно, указать можно.

Mihailov

Цитата: yurifromspb от февраля 24, 2016, 10:59
А что читатели темы думают о калибровочных данных по литературным языкам? Ведь должна же быть экспонента?
Я не совсем понял, о чем это вы. Какая величина должна изменяться по экспоненте?

Alone Coder

Кино - это всё-таки культурный термин с централизованным распространением. А такие новые явления, которые не успели стандартизировать, как небоскрёбы, подъезды, вешалки для одежды, сотовые телефоны, панельки под микросхемы, файловые директории называются везде по-разному. Даже и старые. Рекорд, наверно, принадлежит растению алтей.

Mihailov

Цитата: Alone Coder от февраля 25, 2016, 21:50
Кино - это всё-таки культурный термин с централизованным распространением. А такие новые явления, которые не успели стандартизировать...
Про туалет вы, наверно,не скажете, что это культурный термин с централизованным распространением. Или новое явление, которое не успели стандартизировать.
До войны и первое время после войны говорили не "туалет", а "уборная". В 70-х годах уже решительно преобладало "туалет". Опять датируем замену 50-ми или 60-ми годами.

Tibaren

Цитата: Mihailov от февраля 25, 2016, 13:03
Началом разделения считаем момент, когда начинается устойчивая динамика на расхождение.
А если динамики нет, скажем, два эквивалентных термина употребляются эквидистантно?
Zikiro beltza ona dut bañan obea buztan zuria

Bhudh

А что сейчас чаще употребляется, автозаправка или бензоколонка?
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Wolliger Mensch

Цитата: Bhudh от марта  6, 2016, 12:56
А что сейчас чаще употребляется, автозаправка или бензоколонка?

И беседы:

— Сейчас заеду тут, подожди.
— А что случилось?
— Да вот.
— А.


Вот так называется сейчас бензоколонка. :yes: ;D
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Mihailov

Цитата: Tibaren от марта  6, 2016, 04:13А если динамики нет, скажем, два эквивалентных термина употребляются эквидистантно?
Если динамики нет, то и расхождение не началось. Только динамику смотрим не по двум терминам, а по всему стословнику.

Mihailov

Цитата: Bhudh от марта  6, 2016, 12:56
А что сейчас чаще употребляется, автозаправка или бензоколонка?
По-моему, чаще употребляется "заправка".

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Wolliger Mensch

Цитата: Bhudh от марта  9, 2016, 14:07
Картриджей?

Буд, не усердствуйте. Выражение заехать на заправку не употребляется в других значениях. Иное вам придётся слушателю специально объяснять, а потом лицезреть вот такое выражение:
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Lodur

Цитата: Mihailov от марта  9, 2016, 12:32
Цитата: Bhudh от марта  6, 2016, 12:56
А что сейчас чаще употребляется, автозаправка или бензоколонка?
По-моему, чаще употребляется "заправка".
Мне кажется, или большинсво людей все же различает автозаправку
и бензоколонку
?
(Не то, чтобы я не слышал, чтобы первое называли вторым, и наоборот, но всё же...)
8-й Девственник Лингвофорума

If the doors of perception were cleansed, everything would appear to man as it is: infinite. (W. Blake)
Какая потребителю разница, какой продукт лучше не работает?.. (Awwal12)

Wolliger Mensch

Цитата: Lodur от марта  9, 2016, 15:02
Мне кажется, или большинсво людей все же различает автозаправку

Различают. Равно как отличают колонку от процесса заправки автомобиля.  :yes: ;D Только практического смысла такие различения не имеют, поэтому оба слова обозначают всё учреждение с колонками, из которых заправляют машины.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Tibaren

Да, бензоколонки, безусловно, относятся к базовой лексике.
Zikiro beltza ona dut bañan obea buztan zuria

yurifromspb

Цитата: Mihailov от февраля 25, 2016, 13:29Я не совсем понял, о чем это вы. Какая величина должна изменяться по экспоненте?
Извиняюсь, что не прореагировал.
Так всё та же величина - доля незаместившихся слов. Данные по литературным языкам говорят, что есть какая-то глобальная неоднородность по времени.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Mihailov

Цитата: yurifromspb от марта 10, 2016, 10:20
[ Данные по литературным языкам говорят, что есть какая-то глобальная неоднородность по времени.
Можно расшифровку этих точек в виде цифровой таблицы? Или ссылку на таблицу. Я хотел бы посмотреть, что это за языки, чьи данные, и как с этими точками согласуется простая функция Сводеша, а не только функции Старостина и Васильева.

yurifromspb

Цитата: Mihailov от марта 10, 2016, 12:36Можно расшифровку этих точек в виде цифровой таблицы? Или ссылку на таблицу. Я хотел бы посмотреть, что это за языки, чьи данные, и как с этими точками согласуется простая функция Сводеша, а не только функции Старостина и Васильева.

Данные из статей Васильева и Старостина. Из Васильева прямо табличку взял, из Старостина выдирал данные из текста (заимствования выбрасывал, процент считал так: "число замен" / (100 - "число заимствований")). Табличку прилагаю.

Картинка воспроизводится на языке R так:

x <- c(0.3,0.5,0.5,0.5,1.1,1.1,1.2,1.2,1.2,1.5,1.5,1.5,2.6,3,3,3,1.2,2.7,1.1,1.2,1.6,1.6,1.6,2.3,2.3,2.3)
y <- c(0.97,0.95,0.94,0.96,0.95,0.87,0.89,0.91,0.94,0.82,0.86,0.89,0.78,0.66,0.69,0.77,0.93,0.77,0.87,0.94,0.89,0.90,0.87,0.77,0.81,0.80)

fitvas = nls(y~c+(1-c)*exp(-l*x)*(1+l*x),start = list(c=0.5,l=0.4))
fitvas0 = nls(y~exp(-l*x)*(1+l*x),start = list(l=0.4))
fitstar = nls(x~sqrt(-log(y)/(l*y)),start = list(l=0.05))

new = data.frame(x = seq(0,max(x),len=200))
xcont = data.frame(y = seq(min(y),1.0,len=200))

plot(x,y,xlim = c(0,3),ylim = c(0.4,1),xlab = "time, ky",ylab = "x")
lines(new$x,predict(fitvas,newdata=new),col="blue")
lines(new$x,predict(fitvas0,newdata=new),col="green")
lines(predict(fitstar,newdata = xcont),xcont$y,col="red")
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Mihailov

Может, есть глобальная неоднородность во времени, а может, и нет. Не могу судить, так как не располагаю достаточным количеством надежных данных. На вашем графике я вижу 24 точки, но реально их меньше, так они отчасти продублированы.  Мне удобнее смотреть неоднородность не на графике, а по табличным данным. Если есть неоднородность, то она должна проявляться в вариации лямбды, которая вычисляется по сохранению лексики.
В табличке я свел данные Васильева и добавил данные Старостина по скандинавским и по латыни. Получил 11 точек. Многие из этих точек представляют среднее по семейству родственных языков или диалектов, но, может быть, так корректнее.



1) Язык;   2) Период, тыс. лет   ; 3) Середина интервала, от н.э.; 4) Сохранение лексики; 5)  λ; 6) Ожидаемое сохранение при λср=0.093

Корейские д-ты   0.5   1750   0.95       0.103   0.95
Белорусский           0.6   1700   0.985   0.025   0.95
Скандинавские   1.0   1500   0.95       0,05   0.91
Немецкий            1.1   1450   0.95       0.047   0.90
Английский           1.1   1450   0.87       0.127   0.90
Японские д-ты   1.2   1400   0.91       0.079   0.89
Романские            1.5   1250   0.86       0.105   0.87
Тюркский (от рунического до караханидского)
                            0.3   800           0.97       0.102   0.97
Греческий           2.6   700           0.78       0.096   0.79
Китайские д-ты   3   500           0.69       0.113   0.76
Латынь                   0.8   100           0.87     0.178   0.93

Вроде бы есть тенденция – чем раньше эпоха, тем выше скорость замен, но не слишком убедительная. Корреляция лямбды с серединой интервала равна -0,70.  Вроде высокая, но при 11 точках ее уровень значимости 0,05. Это значит, что зависимость не доказана, но следует обратить внимание. Можете сравнить ожидаемое сохранение с наблюдаемым – везде различие в пределах случайного отклонения.
Но  если зависимость есть, то не обязательно в старые времена замены случались чаще. Возможны и другие объяснения.
1) На больших интервалах времени генетическое родство может затираться из-за фонетических изменений. Поэтому может отмечаться больше замен, чем на самом деле.
2) На малых интервалах времени (а такие случаи в основном относятся к эпохе, близкой к современной), когда сравниваются близкие состояния языка, возможно завышение числа совпадений. Некоторые замены можно прозевать, например, случившуюся в 19 веке замену слов «худой» и «дурной» на «плохой». Были все эти слова в языке раньше, остались и сейчас, вот и кажется, что замены не было. И не обращают внимание на частоту и характер употребления. По этой же теме процитирую Сводеша:
«Арндт, производя подсчеты в германских языках, сделал следующее заключение относительно предыдущих подсчетов: «В них (в этих подсчетах) ощущается постоянное стремление находить больше родственных элементов, чем это допускает строгий анализ». Приводимый им процент для шведского языка равен 79,7% вместо 85,4%, для немецкого—82,0% вместо 85,4%, для английского—67,8% или 74,8% вместо 76,6%. Поскольку Арндт имел возможность посвятить этому вопросу больше времени и внимания, чем Лиз и его коллеги, и поскольку он подошел к решению своей задачи с самых строгих позиций, есть все основания предполагать, что его данные более точны, чем данные его предшественников.
Однако автор во время подготовки настоящей статьи не располагал записями Арндта и поэтому был вынужден пользоваться старыми подсчетами. Это очень досадно, так как именно с немецким и шведским языками связано значительное отклонение, которое обнаруживается при исследовании.»

Mihailov

Остается еще вопрос о надежности данных. Сравним данные по китайскому языку Старостина и Сводеша (1955).
По Старостину, за последние 2600 лет произошло 23 замены в 100-словном списке, С=0,77. По Сводешу, за 1000 лет (950-1950) в 92-словном списке произошло 17 замен при 3 сомнительных случаях, С=72/89=0,809.
Из 3-х сомнительных случаев Сводеша в 2-х случаях Старостин увидел замену. У обоих авторов совпадает 11 замен. Если верить им обоим, значит, эти замены случились с 950 до 1950 г. У Старостина есть 10 замен, которых нет у Сводеша. Значит, они случились от -600 г. до 950 г., если оба правы. Тут получается обратная ситуация по сравнению с моим предыдущим примером с латынью: в более раннюю эпоху замены случались реже. И, наконец, у Сводеша есть 7 замен там, где у Старостина засчитано совпадение. Тут уже не  могут быть оба правы. Чьи данные надежнее – непонятно.
Теперь сравним их по румынскому языку. Оба сравнивают румынский с классической латынью, только Старостин датирует ее несколько раньше (-300 г.), чем Сводеш (-200 г.).
По Старостину, случилось 24 замены в 100-словнике, включая заимствования (а также и в 92-словнике). По Сводешу, случилось 26 замен в 92-словнике при 2-х неясных случаях. Один из неясных случаев Старостин засчитал как замену. Общих замен у обоих авторов 19, у Старостина 4 замены, которых нет у Сводеша, у Сводеша  7 замен, которых нет у Старостина. Расхождение по 11 словам. В 6-ти этих случаях решение зависит от выбора синонимов, а в 5-ти случаях надо выбирать между случайным совпадением и затертым исконным сходством.
То есть сравнение списков – дело тонкое, тут надо четко следовать четким инструкциям, особенно при выборе между синонимами, а то можно запросто ошибиться на несколько пунктов.

Tibaren

Цитата: Mihailov от марта 17, 2016, 17:55
Из 3-х сомнительных случаев Сводеша в 2-х случаях Старостин увидел замену. У обоих авторов совпадает 11 замен. Если верить им обоим, значит, эти замены случились с 950 до 1950 г.
Погрешность в 1000 лет - не многовато ли для столь точной науки, как глоттохронология?
Zikiro beltza ona dut bañan obea buztan zuria

Mihailov

Цитата: Tibaren от марта 17, 2016, 18:15
Погрешность в 1000 лет - не многовато ли для столь точной науки, как глоттохронология?
Вы не поняли. 1000 лет - это не погрешность, а заранее заданная длина временного интервала.

Tibaren

Цитата: Mihailov от марта 18, 2016, 09:31
Цитата: Tibaren от марта 17, 2016, 18:15
Погрешность в 1000 лет - не многовато ли для столь точной науки, как глоттохронология?
Вы не поняли. 1000 лет - это не погрешность, а заранее заданная длина временного интервала.
То есть, метод Васильева-Старостина априори допускает временные лакуны в 1000 лет? И да, таки кому верить в пракитайских и прасеверокавказских реконструкциях, одному Старостину?
Zikiro beltza ona dut bañan obea buztan zuria

Mihailov

Это не лакуна, а период, в котором подсчитываются замены. Берется современный язык и язык тысячелетней давности, подсчитывают, насколько словари различаются, сколько слов сохранилось и сколько заменилось.

yurifromspb

Про надежность данных.
Я опасался чего-то такого. Если есть такая свобода в определении числа замен, то про вид зависимости говорить нечего. Не говоря уж о том, что автор может сознательно или бессознательно подогнать данные под свои идеи.
Про зависимость лямбды от времени.
Ну, с достоверностью 95% (а разве не с большей, как вы считали?) отвергнуть гипотезу о нулевой корреляции - это не так плохо. Впрочем, да, дело скользкое.
Кстати, посмотрите, у вас лямбды неверно посчитаны.
С правильными лямбдами коэф. Пирсона = -0.7194111
p-value = 0.01257

Код на R для работы с вашими данными:

Про погрешность.
В общем, биномиальное распределение при 100 испытаниях действительно даёт большую дисперсию, тут всё очевидно.
На мой взгляд, имеющиеся данные вообще не позволяют судить о виде зависимости. Я попробовал подогнать прямой, экспонентой, формулой Васильева - по RMSD отличия небольшие. Лучше всего, кстати, подгоняет обычная прямая ( ;up:). Не знаю, о чём тут говорить. Получается, что все эти подгонки ничего не дают. А с формулой Васильева - хохма получается. Она даёт лучшую подгонку, только если добавить праязыки, а так - не лучше других. Здесь было недопонимание с моей стороны. Надо смотреть заново.

В итоге, что получается, чтобы продвинуться дальше, нужно делать ревизию списков Сводеша, самому собирать данные для анализа?

P.S.
Кстати, а зачем вы λср считаете как среднее арифметическое? Имеет смысл её определять или из наименьших квадратов (0.1011, если в обычных координатах, 0.1039 если из линейной регрессии в логарифмических) или методом наибольшего правдоподобия (0.0968, если я правильно это сделал).
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр