Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Закон Ципфа и корпусная лингвистика

Автор ostap.rest, января 12, 2011, 09:53

0 Пользователи и 1 гость просматривают эту тему.

myst

Ты не находишь, что что-то неладно в этой сказке?
100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.

RawonaM

Цитата: myst от января 12, 2011, 13:19
Ты не находишь, что что-то неладно в этой сказке?
100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
Смотри на график, там все видно. Первые 20-30 слов не точно попадают, дальше уже строго ровная линия и все сходится. Например, тысячное слово в десять раз реже сотого.

myst

Цитата: RawonaM от января 12, 2011, 14:28
Смотри на график, там все видно. Первые 20-30 слов не точно попадают, дальше уже строго ровная линия и все сходится. Например, тысячное слово в десять раз реже сотого.
Тогда почему
Цитата: myst от января 12, 2011, 13:19
100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
, ась?

График какой-то мутный, аднака.

Wolliger Mensch

График нормальный, как я понимаю: 10-е слово — 10000, 100-е слово — 1000,  1000-е слово — 100, 10000-е слово — 10. Везде пять нулей.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

myst

Не-не-не, нам обещали:
Цитата: http://ru.wikipedia.org/wiki/Закон_Ципфа
Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.

RawonaM

Цитата: myst от января 12, 2011, 14:38
Тогда почему
Цитировать100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
, ась?
Ты что, филолух? :) Говорят же, усреднно, по графику, тенденция. Да и вообще в любой статистике концы отбрасываются. Убери первые 30 слов, они не совсем точно попадают, хотя и видно, что находятся близко к прямой.

myst

Цитата: RawonaM от января 12, 2011, 14:52
Ты что, филолух? :)
(Прищурив глаз) Так, у нас точная наука или вилы на воде?
В русовике правильно написано? Тогда пачиму сотое не в сто раз реже первого?

myst


RawonaM

Цитата: myst от января 12, 2011, 15:01
В русовике правильно написано? Тогда пачиму сотое не в сто раз реже первого?
Неправильно написано. Закон гласит, что частота в среднем обратно пропорциональна порядковому месту. Что мы и наблюдаем, с некоторыми отклонениями в первой тридцатке.

myst

Цитата: RawonaM от января 12, 2011, 15:05
Неправильно написано. Закон гласит, что частота в среднем обратно пропорциональна порядковому месту. Что мы и наблюдаем, с некоторыми отклонениями в первой тридцатке.
То есть 1, 1/2, 1/3, 1/4,... :)


RawonaM

Цитата: myst от января 12, 2011, 15:10
И что значит в среднем?
Т.е. если пригладить график утюгом :)

Цитата: myst от января 12, 2011, 15:02
Откинул первые 30: 1 — 2551.84; 100 — 666.50. :eat:
Вот смотри, ты взял 30-ое и 130-ое слово.
2552*30=76500
666*130=86580

Какое еще взять? берем 1000-ое:
86*1000=86000
19*5000=95000
9.8*10000=98000

По идее по Ципфу все цифры должны быть равны усредненно, это можно проверить, но не я же буду это делать. :) Может тут еще какой-то дополнительный закон можно открыть. :)
Но очевидно, что график почти прямой. Нет ни единой значительно отклоняющейся точки. Как объяснить?

Wolliger Mensch

«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

RawonaM

По-хорошему нужно делать так: берешь среднее арифметическое от 990-1010, это представляет тысячное слово какбэ и т.п.
Сейчас времени нет, но потом это в НЛТК загоню, когда будет :)


myst

Цитата: RawonaM от января 12, 2011, 15:43
По идее по Ципфу все цифры должны быть равны усредненно, это можно проверить, но не я же буду это делать. :) Может тут еще какой-то дополнительный закон можно открыть. :)
Но очевидно, что график почти прямой. Нет ни единой значительно отклоняющейся точки. Как объяснить?
А ты масштаб ещё уменьши, ровнее будет. ;)

RawonaM

Я еще не математик и даже еще статистику не учил, не могу объяснить, почему "концы" выбиваются из колеи.
Примерно так: первое слово должно быть среднее арифметическое между всеми порядковый номер*частотность. Ты делаешь как филолух: первое слово у тебя не это число, значит весь график неправильный и никакой тенденции тут нет.

Найди язык, в котором 100-ое слово будет в 2 раза частонее тысячного. Можешь? :)


RawonaM


Alone Coder

Не вижу никакого закона Ципфа тут. График отчётливо изгибается вниз. Чистый Ципф вообще невозможен, поскольку натуральный ряд расходится.

RawonaM

Цитата: Alone Coder от января 12, 2011, 16:39
Не вижу никакого закона Ципфа тут. График отчётливо изгибается вниз. Чистый Ципф вообще невозможен, поскольку натуральный ряд расходится.
Значит тут грязный Ципф? :)


RawonaM

График не рандомальный, а имеет определенную форму — это и есть закон Ципфа. Остальное — уточнения.

Alone Coder

Естественно, не рандомальный! Вы же отсортировали слова по убыванию частоты!

RawonaM

Цитата: Alone Coder от января 12, 2011, 16:42
Естественно, не рандомальный! Вы же отсортировали слова по убыванию частоты!
Не понял. Ну отсортировал, и? Это только значает, что значения будут постоянно снижаться.
Но они же снижаются определенным образом, а не любыми скачками.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр