Популярность языка и закон Ципфа

Солохин · июня 14, 2009, 21:30

Тем, кто заботится о судьбах русского языка, будет интересно обратить внимание на то обстоятельство, что в обоих помещенных мною таблицах русский язык "выпирает" из распределения Ципфа ВВЕРХ.
То есть, если закон Ципфа - это некий неведомый нам закон природы, то согласно этому закону нас СЛИШКОМ МНОГО.
Слишком много тех, кто умеет говорить по русски (245 млн) - чтобы привести эту цифру в соответствие с Ципфом, надо уменьшить ее на треть!
НО слишком много даже и тех, кто считает русский родным!
Если убрать из расчета тех, для кого русский не родной, мы сразу отодвигаемся в списке дальше от первого места. Но номер в частотном списке от этого возрастает, и произведение опять-таки оказывается слишком большим.
Этот закон Ципфа прямо хочет сжить нас со свету!
...
Меня так весьма расстраивает этот вывод.

Солохин · июня 15, 2009, 02:28

Цитата: myst от июня 14, 2009, 21:11Посмотрите словарь Шарова, на который я дал ссылку. В нём уже всё пронумеровано. Если мне память не изменяет, на странице автора есть информация о использованном корпусе и пр.

Спасибо! Очень хороший материал.
Я его тут же и обработал.
Вот несколько фрагментов из этого колоссального списка. Самые первые слова - аномально редкие с точки зрения Ципфа. Произведение частоты на номер 40-70 тыс.
37822,42   и   1   37822,42
28835,46   в   2   57670,92
22211,5   не   3   66634,5
17862,57   на   4   71450,28
13406,71   что   5   67033,55
12106,62   с   6   72639,72
7687,66   то   7   53813,62
7685,77   я   8   61486,16
7548,01   он   9   67932,09
7319,2   как   10   73192

Вот слова из середины списка. Произведение здесь уже окло 100 тыс.
8,82   обеспечивает   11138   98237,16
8,82   таковой   11139   98245,98
8,82   стон   11140   98254,8
8,82   раздражением   11141   98263,62
8,75   иконы   11142   97492,5
8,75   жесткой   11143   97501,25
8,75   освободиться   11144   97510

И вот конец той части списка, которую "потянул" Exel. альше он сказал crack и не смог считать.
4,7   коммерческих   19987   93938,9
4,7   непонимание   19988   93943,6
4,7   бокса   19989   93948,3
4,7   покидает   19990   93953
4,7   пожевал   19991   93957,7
4,7   террора   19992   93962,4
4,7   жадности   19993   93967,1
4,7   достоинств   19994   93971,8
4,7   молодом   19995   93976,5
4,7   мечтах   19996   93981,2
4,7   революционеров   19997   93985,9
4,7   упрек   19998   93990,6
4,7   создавали   19999   93995,3
4,7   волшебной   20000   94000

Впечатляет, правда? Опять около 100 000...
Что же это такое, люди?
Кто-нибудь когда-нибудь объяснит мне, откуда берется эта странная закономерность?!

myst · июня 15, 2009, 11:41

Меня не очень. Не вижу обещанной константы.

arseniiv · июня 15, 2009, 17:27

Цитата: Солохин от июня 14, 2009, 20:59
Увы, в электронном виде Вики доминирует...

Чого? Вы хотите сказать, что в Википедии собрано более чем половина русских интернетных статей??

Она же сравнительно недавно появилась

Цитата: Солохин от июня 15, 2009, 02:28
Кто-нибудь когда-нибудь объяснит мне, откуда берется эта странная закономерность?!

А существующее объяснение вам не нравится? Оно вполне приличное. Статистическое, как и может быть с языками.

ettaine · июля 5, 2009, 22:27

А мне как-то непонятно изумление автора топика по поводу "загадочной закономерности". Есть целая куча всяких статистических закономерностей, описывающих те или иные явления окружающего мира. Конкретно для частотности слов в языке подходит распределение Ципфа...

Цитата: Солохин от июня 14, 2009, 18:09
Самый сиьлный аргумент в пользу статистической природы Ципфа - тот факт, что "тексты", выдаваемые генератором случайных цепочек символов, тоже имеют распределение Ципфа. Но этот аргумент отнюдь не решающий: все-таки Дрстоевский никак не является генератором случайных цепочек символов... цепочки, выдаваемые генератором, четко распределены по длине "слова" - длинные слова встречаются редко. В естественных языках это совсем не так. Хотя самые частые слова, конечно, как правило короче, но свести к этому обстоятельству закон Ципфа никак не получится...

Ну , в принципе, со статистической точки зрения, Достоевский - ничем не худший генератор случайных цепочек, чем программа-генератор... закон распределения только отличается

А вот если смещать его с Толстым, у которого чуть другой закон, произойдет "усреднение" и текст будет лучше соответствовать закону Ципфа... А Википедия с ее множеством авторов - еще лучшее усреднение... Я ничего удивительного не вижу, и меня вполне устраивает объяснение Википедии, что

ЦитироватьZipf's law does not seem to shed any light on the linguistic structure of language, but is rather an artifact of using letters to spell words

Кстати, согласно той же статье, распределение Ципфа - это дискретный аналог непрерывного распределения Парето, того самого, что иногда упрощенно описывается фразой "20% населения распоряжается 80% доходов".

Цитата: Солохин от июня 14, 2009, 20:59
соответствие закону Ципфа - это некая интуитивно ощущамемая мера цельности и гармонии текста...

откуда такой вывод? скорее наоборот - мера статистической "похожести" текста на бессмысленный набор символов с неким идеальным законом распределения...

Цитата: Солохин от июня 14, 2009, 21:30
если закон Ципфа - это некий неведомый нам закон природы, то согласно этому закону нас СЛИШКОМ МНОГО

Да ладно. Если для слов в языке в начале списка соответствие нарушается, и это нормально, почему не может быть того же феномена для наиболее распространенных языков?

Если какая-то часть данных не согласуется с некой закономерностью, значит, существует еще один влияющий фактор. В данном случае - исторически обусловленный (активная экспансионистская политика носителей соотв. языка в тот или иной исторический период).

Цитата: myst от июня 15, 2009, 11:41
Меня не очень. Не вижу обещанной константы

Да не, константа просматривается, правда она не совсем константа

- плывет малость и шумит по ходу... На графике более убедительно бы выглядело.

RawonaM · июля 6, 2009, 13:28

Цитата: Солохин от июня 14, 2009, 19:58
44356 США 32 1419392
43722 после 33 1442826
43696 россии 34 1485664

Список сам себе соврал.

myst · июля 7, 2009, 19:29

Цитата: RawonaM от июля 6, 2009, 13:28
Список сам себе соврал.

Чего не сделаешь, чтобы потешить самолюбие россиян.

Солохин · мая 4, 2010, 21:18

Цитата: arseniiv от июня 15, 2009, 17:27
А существующее объяснение вам не нравится? Оно вполне приличное. Статистическое, как и может быть с языками.

Цитата: ettaine от июля 5, 2009, 22:27Есть целая куча всяких статистических закономерностей, описывающих те или иные явления окружающего мира. Конкретно для частотности слов в языке подходит распределение Ципфа...

Нет, реальная ситуация совсем иная.
В статистике вообще нет такого распределения как "закон Ципфа". Закон Ципфа - это просто-напросто эмпирический факт.
Он не выводится из каких-либо статистических соображений.

Цитировать
Достоевский - ничем не худший генератор случайных цепочек, чем программа-генератор...

Нет, Достоевский - очень плохой генератор случайных чисел. Именно с точки зрения статистики тексты Достоевского НИЧЕГО ОБЩЕГО не имеют со случайными цепочками знаков.
Никоим образом ниоткуда не выводится, что слова у Достоевского должны быть распределены так же, как цепочки случайных букв. И тот факт, что тем не менее Достоевской пишет по Ципфу, не может не поражать всякого, кто хоть маломальски смыслит в статистике.

Цитата: ettaine от июля 5, 2009, 22:27
А вот если смещать его с Толстым, у которого чуть другой закон, произойдет "усреднение" и текст будет лучше соответствовать закону Ципфа... А Википедия с ее множеством авторов - еще лучшее усреднение..

Наоборот. Отдельно Достоевский и отдельно Толствой дают Ципфа лучше, чем Достоевский+Толстой вперемешку.
А что Вики довольно плохо соотвествует Ципфу - это видно из моего примера выше.
Цельный и закончен
ный высокохудожественный текст как правило лучше соответствует Ципфу, чем бездарный - или просто набор рассказов разных авторов.

Цитата: ettaine от июля 5, 2009, 22:27
скорее наоборот - мера статистической "похожести" текста на бессмысленный набор символов с неким идеальным законом распределения...

Нет, в том-то и дело, что именно так, как я сказал.

Попытки объяснить Ципфа статистикой до сих пор не увенчались успехом.

Цитата: ettaine от июля 5, 2009, 22:27
мне как-то непонятно изумление автора топика по поводу "загадочной закономерности".
Есть целая куча всяких статистических закономерностей, описывающих те или иные явления окружающего мира.

Просто я имею соответствующее образование.
И говорю со всей ответственностью за свои слова: закон Ципфа - одна из вопиющих загадок природы.

arseniiv · мая 6, 2010, 16:23

Цитата: Солохин от мая 4, 2010, 21:18
Цельный и закончен
ный высокохудожественный текст как правило лучше соответствует Ципфу, чем бездарный

Уж это-то точно придумали.

Вадимий · мая 6, 2010, 17:29

Цитата: arseniiv от мая 6, 2010, 16:23
Уж это-то точно придумали.

Надо проанализировать «Евгения Онегина» и повесть моего друга Матвея.

myst · мая 7, 2010, 13:46

Ну, и какие результаты?

arseniiv · мая 7, 2010, 15:00

А какие по вкусу?

Вадимий · мая 7, 2010, 15:15

Нетути текста повести Матвея и программы. которая бы анализировала. Хм. Надо поискать программу для анализа.

myst · мая 7, 2010, 15:49

Цитата: Вадимий от мая 7, 2010, 15:15
программы. которая бы анализировала

Посчитать частоту слов в тексте — это ну очень сложно.

Вадимий · мая 7, 2010, 15:50

Текст-то немалый, вручную не счесть.

myst · мая 7, 2010, 15:56

Цитата: Вадимий от мая 7, 2010, 15:50
Текст-то немалый, вручную не счесть.

Зачем вручную?

Программа тривиальней некуда.

Вадимий · мая 7, 2010, 16:00

Логично. Ну так прошу вас. Самому лень (хотя недавно кое-что похожее делал).

Берусь обеспечить бездуховным текстом.

Вадимий · мая 7, 2010, 16:08

Где этот чёртов отрывок.
Помню только строку: «Игорь уходи я вас прикрою!!!»

myst · мая 7, 2010, 16:21

Цитата: Вадимий от мая 7, 2010, 16:00
Ну так прошу вас.

Код Выделить


#!/bin/lisp
(setq in-stream  (ext:make-stream :input  :external-format charset:cp866))
(setq out-stream (ext:make-stream :output :external-format charset:cp1251))
(setq delimiters  "[ ,.?]")
(setq word-counts (make-hash-table :test #'equal))
(setq word-number 0)

(regexp:with-loop-split (words in-stream delimiters)
   (map nil
      (lambda (word)
         (unless (equal word "")
            (incf word-number)
            (unless (gethash word word-counts)
               (setf (gethash word word-counts) 0))
            (incf (gethash word word-counts))
         )
      )
      words
   )
)

(maphash
   (lambda (word count)
      (format out-stream "~A~50T~,10F~%" word (/ count word-number))
   )
   word-counts
)

Enjoy! (Надо только кодировки и разделители не забыть настроить.)

Вадимий · мая 7, 2010, 16:25

Дякую.

шо за язык-то?
Вы не могли бы выложить уж сразу результаты?
Повесть сейчас найду, ведь был где-то отрывок.
А Евгеий Онегин в интернете есть.

myst · мая 7, 2010, 16:35

Цитата: Вадимий от мая 7, 2010, 16:25
шо за язык-то?

См. первую строчку

Цитата: Вадимий от мая 7, 2010, 16:25
Вы не могли бы выложить уж сразу результаты?
Повесть сейчас найду, ведь был где-то отрывок.
А Евгеий Онегин в интернете есть.

И рыбку съесть и...?

Вадимий · мая 7, 2010, 16:36

что? какую рыбку?

myst · мая 7, 2010, 16:44

Цитата: Вадимий от мая 7, 2010, 16:36
что? какую рыбку?

И программу дай и посчитай. Кому надо-то, мне?

Вадимий · мая 7, 2010, 16:50

Аццки логично.
Но я понятья не имею, в чём это вообще исполнять

myst · мая 7, 2010, 16:54

Цитата: Вадимий от мая 7, 2010, 16:50
Но я понятья не имею, в чём это вообще исполнять

http://clisp.cons.org/
Или переписать на своём любимом языке.

Лингвофорум

Популярность языка и закон Ципфа

Солохин

Солохин

myst

arseniiv

ettaine

RawonaM

myst

Солохин

arseniiv

Вадимий

myst

arseniiv

Вадимий

myst

Вадимий

myst

Вадимий

Вадимий

myst

Вадимий

myst

Вадимий

myst

Вадимий

myst

Быстрый ответ