В связи с прогрессом корпусной лингвистики есть ли новые подтверждения/опровержения закона Ципфа в области малых частот?
Цитата: ostap.rest от января 12, 2011, 09:53
В связи с прогрессом корпусной лингвистики есть ли новые подтверждения/опровержения закона Ципфа в области малых частот?
Как понять опровержения? Это ж факт вроде.
Может вы объяснения ищите. Этого пока вроде не открыли. Но судя по тому, что закон Ципфа действует и для случайно сгенерированных "текстов" (просто цепочки символов) и для населений столиц и прочего, то в принципе не удивительно, что он действует и на реальном языке.
Впрочем, я не в курсе, чисто общие сведения имею :)
а чего эт вообще такое?????
Вот первые частотные слова русского языка (словарь Шарова):
Цитировать
37822.42 1 и
28835.46 1 в
22211.50 2 не
17862.57 2 на
13406.71 3 что
12106.62 1 с
7687.66 2 то
7685.77 1 я
7548.01 2 он
7319.20 3 как
6284.76 1 а
6036.88 2 по
5883.97 1 к
5596.25 3 его
5256.53 3 все
5196.11 2 из
5026.35 2 за
4897.08 3 это
4752.27 1 у
4271.53 2 же
3890.60 2 от
Где тут закон Ципфа?
ЦитироватьКак понять опровержения?
Точнее сказать "отклонения". Для нас.пунктов, напр., наблюдается отклонения при малых размерах - т.е. малых сел, хуторов за законом Ципфа должно было бы быть значительно больше, чем есть на самом деле.
Цитата: myst от января 12, 2011, 10:34
Вот первые частотные слова русского языка (словарь Шарова):
Цитировать
37822.42 1 и
28835.46 1 в
22211.50 2 не
17862.57 2 на
13406.71 3 что
12106.62 1 с
7687.66 2 то
7685.77 1 я
7548.01 2 он
7319.20 3 как
6284.76 1 а
6036.88 2 по
5883.97 1 к
5596.25 3 его
5256.53 3 все
5196.11 2 из
5026.35 2 за
4897.08 3 это
4752.27 1 у
4271.53 2 же
3890.60 2 от
Где тут закон Ципфа?
а где "блин"????
Первые частотные слова на гиге с лихой моих рабочих текстов:
Цитировать
774307 1 в
511205 3 для
439198 1 и
270022 1 с
260246 2 на
237231 2 не
184577 3 или
149752 2 по
132186 6 данных
126264 4 если
126206 8 выберите
121707 1 к
120137 2 из
118137 3 имя
114939 5 можно
110095 3 при
83911 8 значение
70304 7 нажмите
66264 5 чтобы
63652 1 о
62129 5 будет
60709 3 как
И в каком месте этот закон выполняется?
ЦитироватьГде тут закон Ципфа?
возьмите пару тысяч слов, постройте график (в логарифм. координатах) "ранг слова" vs "частота слова" и увидите практически прямую линии (с некоторым отклонением в области высоких частот - т.н. поправка Мандельброта)
Цитата: ostap.rest от января 12, 2011, 10:44
возьмите пару тысяч слов, постройте график (в логарифм. координатах) "ранг слова" vs "частота слова" и увидите практически прямую линии (с некоторым отклонением в области высоких частот - т.н. поправка Мандельброта)
Зачем мне эти ваши графики?
Если сказано:
Цитата: http://ru.wikipedia.org/wiki/Закон_Ципфа
Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.
Безо всяких графиков видно, что сабж не выполняется.
Цитата: myst от января 12, 2011, 10:36
Первые частотные слова на гиге с лихой моих рабочих текстов:
Построй логарифмический график на все слова (ну или там, хотя бы сотню). Интересно посмотреть.
log-log по Шарову:
Очевидно, что закон Ципфа выполняется.
Цитата: RawonaM от января 12, 2011, 11:30
Очевидно, что закон Ципфа выполняется.
Ога, 37822.42 в 2 раза больше, чем 28835.46, и в три раза чем 22211.50. :green:
Цитата: RawonaM от января 12, 2011, 11:30
log-log по Шарову:
А чего это ты леммы-то взял, а? Реальный текст, что, из лемм состоит?
Куда у тебя и исчезло?
У тебя вообще список какой-то левый. Ты где его взял?
Цитата: RawonaM от января 12, 2011, 12:23
У тебя вообще список какой-то левый. Ты где его взял?
http://dict.ruslang.ru/freq.php?act=show&dic=freq_freq&title=Частотный список лемм (http://dict.ruslang.ru/freq.php?act=show&dic=freq_freq&title=%D7%E0%F1%F2%EE%F2%ED%FB%E9%20%F1%EF%E8%F1%EE%EA%20%EB%E5%EC%EC)
Леммы — это уже неинтересно. Я брал списки с его сайта, который умер, и в них другие цифры. Где в этом списке и, например?
Цитата: lemma.num
1 36358.94 и misc
2 27792.36 в prep
3 20689.51 не misc
4 18942.62 он pron
5 16588.14 на prep
6 15631.11 я pron
7 12546.08 что misc
8 11398.44 тот adjpron
9 11223.99 быть verb
10 11150.72 с prep
11 9808.61 а misc
12 8604.72 весь adjpron
13 8043.90 это pron
14 7313.35 как misc
15 7110.80 она pron
16 5735.64 по prep
17 5672.65 но misc
18 5592.16 они pron
19 5455.05 к prep
20 5033.86 у prep
21 4863.63 ты pron
22 4787.36 из prep
Чувствуешь разницу?
Дай кошерный список, построим график :)
На. :)
А ты экономно скачиваешь. :)
Просю. По словам.
Цитата: myst от января 12, 2011, 13:06
А ты экономно скачиваешь. :)
А чего мне свой кровный траф тратить :)
Ну и что этот график значит?
Ты не находишь, что что-то неладно в этой сказке?
100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
Цитата: myst от января 12, 2011, 13:19
Ты не находишь, что что-то неладно в этой сказке?
100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
Смотри на график, там все видно. Первые 20-30 слов не точно попадают, дальше уже строго ровная линия и все сходится. Например, тысячное слово в десять раз реже сотого.
Цитата: RawonaM от января 12, 2011, 14:28
Смотри на график, там все видно. Первые 20-30 слов не точно попадают, дальше уже строго ровная линия и все сходится. Например, тысячное слово в десять раз реже сотого.
Тогда почему
Цитата: myst от января 12, 2011, 13:19
100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
, ась?
График какой-то мутный, аднака.
График нормальный, как я понимаю: 10-е слово — 10000, 100-е слово — 1000, 1000-е слово — 100, 10000-е слово — 10. Везде пять нулей.
Не-не-не, нам обещали:
Цитата: http://ru.wikipedia.org/wiki/Закон_Ципфа
Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.
Цитата: myst от января 12, 2011, 14:38
Тогда почему
Цитировать100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
, ась?
Ты что, филолух? :) Говорят же, усреднно, по графику, тенденция. Да и вообще в любой статистике концы отбрасываются. Убери первые 30 слов, они не совсем точно попадают, хотя и видно, что находятся близко к прямой.
Цитата: RawonaM от января 12, 2011, 14:52
Ты что, филолух? :)
(Прищурив глаз) Так, у нас точная наука или вилы на воде?
В русовике правильно написано? Тогда пачиму сотое не в сто раз реже первого?
Откинул первые 30: 1 — 2551.84; 100 — 666.50. :eat:
Цитата: myst от января 12, 2011, 15:01
В русовике правильно написано? Тогда пачиму сотое не в сто раз реже первого?
Неправильно написано. Закон гласит, что частота в среднем обратно пропорциональна порядковому месту. Что мы и наблюдаем, с некоторыми отклонениями в первой тридцатке.
Цитата: RawonaM от января 12, 2011, 15:05
Неправильно написано. Закон гласит, что частота в среднем обратно пропорциональна порядковому месту. Что мы и наблюдаем, с некоторыми отклонениями в первой тридцатке.
То есть 1, 1/2, 1/3, 1/4,... :)
И что значит в среднем?
Цитата: myst от января 12, 2011, 15:10
И что значит в среднем?
Т.е. если пригладить график утюгом :)
Цитата: myst от января 12, 2011, 15:02
Откинул первые 30: 1 — 2551.84; 100 — 666.50. :eat:
Вот смотри, ты взял 30-ое и 130-ое слово.
2552*30=76500
666*130=86580
Какое еще взять? берем 1000-ое:
86*1000=86000
19*5000=95000
9.8*10000=98000
По идее по Ципфу все цифры должны быть равны усредненно, это можно проверить, но не я же буду это делать. :) Может тут еще какой-то дополнительный закон можно открыть. :)
Но очевидно, что график почти прямой. Нет ни единой значительно отклоняющейся точки. Как объяснить?
Цитата: myst от января 12, 2011, 15:10
И что значит в среднем?
Так это всегда так.
По-хорошему нужно делать так: берешь среднее арифметическое от 990-1010, это представляет тысячное слово какбэ и т.п.
Сейчас времени нет, но потом это в НЛТК загоню, когда будет :)
Цитата: RawonaM от января 12, 2011, 15:43
2552*30=76500
666*130=86580
:negozhe: Мы же выкинули первые тридцать.
Цитата: RawonaM от января 12, 2011, 15:43
По идее по Ципфу все цифры должны быть равны усредненно, это можно проверить, но не я же буду это делать. :) Может тут еще какой-то дополнительный закон можно открыть. :)
Но очевидно, что график почти прямой. Нет ни единой значительно отклоняющейся точки. Как объяснить?
А ты масштаб ещё уменьши, ровнее будет. ;)
Я еще не математик и даже еще статистику не учил, не могу объяснить, почему "концы" выбиваются из колеи.
Примерно так: первое слово должно быть среднее арифметическое между всеми порядковый номер*частотность. Ты делаешь как филолух: первое слово у тебя не это число, значит весь график неправильный и никакой тенденции тут нет.
Найди язык, в котором 100-ое слово будет в 2 раза частонее тысячного. Можешь? :)
Ну ладно, и какие выводы? :)
Цитата: myst от января 12, 2011, 16:21
Ну ладно, и какие выводы? :)
А зачем выводы? Мы и так хорошо беседуем :)
Не вижу никакого закона Ципфа тут. График отчётливо изгибается вниз. Чистый Ципф вообще невозможен, поскольку натуральный ряд расходится.
Цитата: Alone Coder от января 12, 2011, 16:39
Не вижу никакого закона Ципфа тут. График отчётливо изгибается вниз. Чистый Ципф вообще невозможен, поскольку натуральный ряд расходится.
Значит тут грязный Ципф? :)
Чумазый. :)
График не рандомальный, а имеет определенную форму — это и есть закон Ципфа. Остальное — уточнения.
Естественно, не рандомальный! Вы же отсортировали слова по убыванию частоты!
Цитата: Alone Coder от января 12, 2011, 16:42
Естественно, не рандомальный! Вы же отсортировали слова по убыванию частоты!
Не понял. Ну отсортировал, и? Это только значает, что значения будут постоянно снижаться.
Но они же снижаются определенным образом, а не любыми скачками.
Цитата: ostap.rest от января 12, 2011, 10:44
ЦитироватьГде тут закон Ципфа?
возьмите пару тысяч слов, постройте график (в логарифм. координатах) "ранг слова" vs "частота слова" и увидите практически прямую линии (с некоторым отклонением в области высоких частот - т.н. поправка Мандельброта)
Myst, ну вот же тут было объяснено, почему нет абсолютной точности. Математика - это абстракция, жизнь полнится аллошками. :)
Цитата: lemma.zip от
. . .
77 1345.29 чем misc
78 1329.93 глаз noun
79 1317.07 жизнь noun
80 1292.77 первый ord
81 1286.04 день noun
82 1262.47 тута adv
83 1236.40 во prep
84 1232.17 ничто pron
85 1216.99 потом adv
86 1214.24 очень adv
87 1195.33 со prep
. . .
:o
Парни, а у кого есть программа, позволяющая считать ???? и как можно воспользоваться ею ????
Что нужно посчитать ????
Насколько я понял, посчитать нужно слова и поставить их в порядке убывания частоты... Желательно, конечно, тут же график ;up: Было бы круто...
Сортировка и график элементарно в экселе делается.
Считать слова это уже сложнее. Незачем их считать, уже посчитано давно.
Спасибо то: Alchemist и RawonaM за ответ
Согласен, что подсчитано, но встречаются специфические тексты со специфическим уклоном, скажем философско-художественное "произведение" или историко-публицистическое. Ну, вообщем, их достаточно. Специфика определяется использованием (простите за тафтологию) специфической терминологией и понятиями (сюжет мы опускаем). Вот и стоит задача посчитать эти самые, их соотношение ко всем остальным ...... и прочее. Тоже задача специфическая ;) Вот и хотелось бы разжиться программкой и конечно же чтобы отображение графиков и регулировка "отсечки".......и прочее
Посему и вопрос - какой программой (если она есть) можно воспользоваться, или какой техникой подсчета и отображения