Цитата: Alone Coder от сентября 1, 2010, 01:30Вероятно, Вы знаете, что в квантовой теории поля расходящиеся ряды - это обычное дело. В конце рассчета две бесконечности вычитаются друг из друга, и получаются разумные числа.
В естественных языках он не выполняется (см. график: (wiki/en) File:Wikipedia-n-zipf.png ). По одной простой причине - натуральный ряд расходится.
Цитата: Demetrius от апреля 30, 2010, 15:54Нет, не так просто.
Это и есть закон Ципфа: частые часты, редкие редки
Цитата: Demetrius от апреля 30, 2010, 15:54Посленяя цифра - это произведение номера слова в списке на его частоту.
Кто все эти цифры вообще? Последнее похоже на накопленную абсолютную частоту, но это не оно (простая сумма показывает)...
Цитата: Demetrius от апреля 30, 2010, 15:54Просто, если я не ошибаюсь, в законе Ципфа были какие-то константы, зависящие от языка. Может, у Вас просто в программе эти константы выставлены неверно?Нет, зависит от текста. Для всех языков одно и то же, но зависит от размера текста.
Цитата: Солохин от апреля 30, 2010, 15:30Кто все эти цифры вообще? Последнее похоже на накопленную абсолютную частоту, но это не оно (простая сумма показывает)...
По закону Ципфа последнее число в каждой строке должно быть одинаковым (ну, по статистике)
И вот что видим:
e -1605 1 -1605
An -1444 2 -2888
dice -1296 3 -3888
a -1264 4 -5056
de -1263 5 -6315
es -1083 6 -6498
Цитата: Солохин от апреля 30, 2010, 15:30Это и есть закон Ципфа: частые часты, редкие редки. Просто, если я не ошибаюсь, в законе Ципфа были какие-то константы, зависящие от языка. Может, у Вас просто в программе эти константы выставлены неверно?
Итак, видно, что наиболее частые слова в глосе аномально часты, а наиболее редкие - аномально редки.
С точки зрения изучения языка, это безусловно хорошо.
Однако тревожно, что закон Ципфа так плохо выполняется.
Это вообще-то некай мера гармонии, естественности языка....
Страница создана за 0.045 сек. Запросов: 20.