Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Популярность языка и закон Ципфа

Автор Солохин, июня 14, 2009, 17:54

0 Пользователи и 1 гость просматривают эту тему.

Солохин

Тем, кто заботится о судьбах русского языка, будет интересно обратить внимание на то обстоятельство, что в обоих помещенных мною таблицах русский язык "выпирает" из распределения Ципфа ВВЕРХ.
То есть, если закон Ципфа - это некий неведомый нам закон природы, то согласно этому закону нас СЛИШКОМ МНОГО.
Слишком много тех, кто умеет говорить по русски (245 млн) - чтобы привести эту цифру в соответствие с Ципфом, надо уменьшить ее на треть!
НО слишком много даже и тех, кто считает русский родным!
Если убрать из расчета тех, для кого русский не родной, мы сразу отодвигаемся  в списке дальше от первого места. Но номер в частотном списке от этого возрастает, и произведение опять-таки оказывается слишком большим.
Этот закон Ципфа прямо хочет сжить нас со свету!
...
Меня так весьма расстраивает этот вывод.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Цитата: myst от июня 14, 2009, 21:11Посмотрите словарь Шарова, на который я дал ссылку. В нём уже всё пронумеровано. Если мне память не изменяет, на странице автора есть информация о использованном корпусе и пр.
Спасибо! Очень хороший материал.
Я его тут же и обработал.
Вот несколько фрагментов из этого колоссального списка. Самые первые слова - аномально редкие с точки зрения Ципфа. Произведение частоты на номер 40-70 тыс.
37822,42   и   1   37822,42
28835,46   в   2   57670,92
22211,5   не   3   66634,5
17862,57   на   4   71450,28
13406,71   что   5   67033,55
12106,62   с   6   72639,72
7687,66   то   7   53813,62
7685,77   я   8   61486,16
7548,01   он   9   67932,09
7319,2   как   10   73192

Вот слова из середины списка. Произведение здесь уже окло 100 тыс.
8,82   обеспечивает   11138   98237,16
8,82   таковой   11139   98245,98
8,82   стон   11140   98254,8
8,82   раздражением   11141   98263,62
8,75   иконы   11142   97492,5
8,75   жесткой   11143   97501,25
8,75   освободиться   11144   97510

И вот  конец той части списка, которую "потянул" Exel. альше он сказал crack и не смог считать.
4,7   коммерческих   19987   93938,9
4,7   непонимание   19988   93943,6
4,7   бокса   19989   93948,3
4,7   покидает   19990   93953
4,7   пожевал   19991   93957,7
4,7   террора   19992   93962,4
4,7   жадности   19993   93967,1
4,7   достоинств   19994   93971,8
4,7   молодом   19995   93976,5
4,7   мечтах   19996   93981,2
4,7   революционеров   19997   93985,9
4,7   упрек   19998   93990,6
4,7   создавали   19999   93995,3
4,7   волшебной   20000   94000

Впечатляет, правда? Опять около 100 000...
Что же это такое, люди?
Кто-нибудь когда-нибудь объяснит мне, откуда берется эта странная закономерность?!
Sinjoro Jesuo Kristo purigu min.


Вне форума.

myst


arseniiv

Цитата: Солохин от июня 14, 2009, 20:59
Увы, в электронном виде Вики доминирует...
Чого? Вы хотите сказать, что в Википедии собрано более чем половина русских интернетных статей?? :o Она же сравнительно недавно появилась
Цитата: Солохин от июня 15, 2009, 02:28
Кто-нибудь когда-нибудь объяснит мне, откуда берется эта странная закономерность?!
А существующее объяснение вам не нравится? Оно вполне приличное. Статистическое, как и может быть с языками.

ettaine

А мне как-то непонятно изумление автора топика по поводу "загадочной закономерности". Есть целая куча всяких статистических закономерностей, описывающих те или иные явления окружающего мира. Конкретно для частотности слов в языке подходит распределение Ципфа...

Цитата: Солохин от июня 14, 2009, 18:09
Самый сиьлный аргумент в пользу статистической природы Ципфа - тот факт, что "тексты", выдаваемые генератором случайных цепочек символов, тоже имеют распределение Ципфа. Но этот аргумент отнюдь не решающий: все-таки Дрстоевский никак не является генератором случайных цепочек символов... цепочки, выдаваемые генератором, четко распределены по длине "слова" - длинные слова встречаются редко. В естественных языках это совсем не так. Хотя самые частые слова, конечно, как правило короче, но свести к этому обстоятельству закон Ципфа никак не получится...
Ну , в принципе, со статистической точки зрения, Достоевский - ничем не худший генератор случайных цепочек, чем программа-генератор... закон распределения только отличается :) А вот если смещать его с Толстым, у которого чуть другой закон, произойдет "усреднение" и текст будет лучше соответствовать закону Ципфа... А Википедия с ее множеством авторов - еще лучшее усреднение... Я ничего удивительного не вижу, и меня вполне устраивает объяснение Википедии, что
ЦитироватьZipf's law does not seem to shed any light on the linguistic structure of language, but is rather an artifact of using letters to spell words

Кстати, согласно той же статье, распределение Ципфа - это дискретный аналог непрерывного распределения Парето, того самого, что иногда упрощенно описывается фразой "20% населения распоряжается 80% доходов".

Цитата: Солохин от июня 14, 2009, 20:59
соответствие закону Ципфа - это некая интуитивно ощущамемая мера цельности и гармонии текста...
откуда такой вывод? скорее наоборот - мера статистической "похожести" текста на бессмысленный набор  символов с неким идеальным законом распределения...

Цитата: Солохин от июня 14, 2009, 21:30
если закон Ципфа - это некий неведомый нам закон природы, то согласно этому закону нас СЛИШКОМ МНОГО
Да ладно. Если для слов в языке в начале списка соответствие нарушается, и это нормально, почему не может быть того же феномена для наиболее распространенных языков? :)
Если какая-то часть данных не согласуется с некой закономерностью, значит, существует еще один влияющий фактор. В данном случае - исторически обусловленный (активная экспансионистская политика носителей соотв. языка в тот или иной исторический период).

Цитата: myst от июня 15, 2009, 11:41
Меня не очень. Не вижу обещанной константы
Да не, константа просматривается, правда она не совсем константа :) - плывет малость и шумит по ходу... На графике более убедительно бы выглядело.


RawonaM

Цитата: Солохин от июня 14, 2009, 19:58
44356   США   32   1419392
43722   после   33   1442826
43696   россии   34   1485664
Список сам себе соврал.  :D

myst

Цитата: RawonaM от июля  6, 2009, 13:28
Список сам себе соврал.  :D
Чего не сделаешь, чтобы потешить самолюбие россиян. ;D

Солохин

Цитата: arseniiv от июня 15, 2009, 17:27
А существующее объяснение вам не нравится? Оно вполне приличное. Статистическое, как и может быть с языками.
Цитата: ettaine от июля  5, 2009, 22:27Есть целая куча всяких статистических закономерностей, описывающих те или иные явления окружающего мира. Конкретно для частотности слов в языке подходит распределение Ципфа...
Нет, реальная ситуация совсем иная.
В статистике вообще нет такого распределения как "закон Ципфа". Закон Ципфа - это просто-напросто эмпирический факт.
Он не выводится из каких-либо статистических соображений.
Цитировать
Достоевский - ничем не худший генератор случайных цепочек, чем программа-генератор...
Нет, Достоевский - очень плохой генератор случайных чисел. Именно с точки зрения статистики тексты Достоевского НИЧЕГО ОБЩЕГО не имеют со случайными цепочками знаков.
Никоим образом ниоткуда не выводится, что слова у Достоевского должны быть распределены так же, как цепочки случайных букв. И тот факт, что тем не менее Достоевской пишет по Ципфу, не может не поражать всякого, кто хоть маломальски смыслит в статистике.
Цитата: ettaine от июля  5, 2009, 22:27
А вот если смещать его с Толстым, у которого чуть другой закон, произойдет "усреднение" и текст будет лучше соответствовать закону Ципфа... А Википедия с ее множеством авторов - еще лучшее усреднение..
Наоборот. Отдельно Достоевский и отдельно Толствой дают Ципфа лучше, чем Достоевский+Толстой вперемешку.
А что Вики довольно плохо соотвествует Ципфу - это видно из моего примера выше.
Цельный и закончен
ный высокохудожественный текст как правило лучше соответствует Ципфу, чем бездарный - или просто набор рассказов разных авторов.
Цитата: ettaine от июля  5, 2009, 22:27
скорее наоборот - мера статистической "похожести" текста на бессмысленный набор  символов с неким идеальным законом распределения...
Нет, в том-то и дело, что именно так, как я сказал.

Попытки объяснить Ципфа статистикой до сих пор не увенчались успехом.
Цитата: ettaine от июля  5, 2009, 22:27
мне как-то непонятно изумление автора топика по поводу "загадочной закономерности".
Есть целая куча всяких статистических закономерностей, описывающих те или иные явления окружающего мира.
Просто я имею соответствующее образование.
И говорю со всей ответственностью за свои слова: закон Ципфа - одна из вопиющих загадок природы.




Sinjoro Jesuo Kristo purigu min.


Вне форума.

arseniiv

Цитата: Солохин от мая  4, 2010, 21:18
Цельный и закончен
ный высокохудожественный текст как правило лучше соответствует Ципфу, чем бездарный
Уж это-то точно придумали.

Вадимий

Цитата: arseniiv от мая  6, 2010, 16:23
Уж это-то точно придумали.

Надо проанализировать «Евгения Онегина» и повесть моего друга Матвея.



Вадимий

Нетути текста повести Матвея и программы. которая бы анализировала. Хм. Надо поискать программу для анализа.

myst

Цитата: Вадимий от мая  7, 2010, 15:15
программы. которая бы анализировала
Посчитать частоту слов в тексте — это ну очень сложно.

Вадимий


myst

Цитата: Вадимий от мая  7, 2010, 15:50
Текст-то немалый, вручную не счесть.
Зачем вручную? :o Программа тривиальней некуда.

Вадимий

Логично. Ну так прошу вас. Самому лень (хотя недавно кое-что похожее делал).

Берусь обеспечить бездуховным текстом.

Вадимий

Где этот чёртов отрывок.
Помню только строку: «Игорь уходи я вас прикрою!!!»

myst

Цитата: Вадимий от мая  7, 2010, 16:00
Ну так прошу вас.

#!/bin/lisp
(setq in-stream  (ext:make-stream :input  :external-format charset:cp866))
(setq out-stream (ext:make-stream :output :external-format charset:cp1251))
(setq delimiters  "[ ,.?]")
(setq word-counts (make-hash-table :test #'equal))
(setq word-number 0)

(regexp:with-loop-split (words in-stream delimiters)
   (map nil
      (lambda (word)
         (unless (equal word "")
            (incf word-number)
            (unless (gethash word word-counts)
               (setf (gethash word word-counts) 0))
            (incf (gethash word word-counts))
         )
      )
      words
   )
)

(maphash
   (lambda (word count)
      (format out-stream "~A~50T~,10F~%" word (/ count word-number))
   )
   word-counts
)

Enjoy! (Надо только кодировки и разделители не забыть настроить.)

Вадимий

Дякую. :yes:
шо за язык-то?
Вы не могли бы выложить уж сразу результаты?
Повесть сейчас найду, ведь был где-то отрывок.
А Евгеий Онегин в интернете есть.

myst

Цитата: Вадимий от мая  7, 2010, 16:25
шо за язык-то?
См. первую строчку
Цитата: Вадимий от мая  7, 2010, 16:25
Вы не могли бы выложить уж сразу результаты?
Повесть сейчас найду, ведь был где-то отрывок.
А Евгеий Онегин в интернете есть.
И рыбку съесть и...? :negozhe:


myst


Вадимий

Аццки логично.
Но я понятья не имею, в чём это вообще исполнять :donno:

myst

Цитата: Вадимий от мая  7, 2010, 16:50
Но я понятья не имею, в чём это вообще исполнять :donno:
http://clisp.cons.org/
Или переписать на своём любимом языке. ;)

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр