Популярность языка и закон Ципфа

Солохин · июня 14, 2009, 17:54

Ради интереса глянул информацию о распространенности естественных языков (китайский - рекордсмен, английский - второй). Решил для прикола проверить распределение на соответствие закону Ципфа.
Угадайте, что получилось?
(первое число после названия языка - млн человек говорящих, второе - номер в частотной таблице, третий - произведение одного на другое)

1. Китайский (путунхуа-«мандаринский») (сино-тибетская семья) 1075- 1- 1075
2/1 (?) [112]. Английский (германская ветвь; западногерманская подгруппа)
514- 2- 1028
4/1 (?). [113] Хинди
496- 3- 1488
1/2/3 (?) [111]. Испанский (романский язык; иберо-романская группа)
425- 4- 1700
6. Русский (славянская ветвь; восточнославянская подгруппа) 275- 5- 1375
¾. Бенгальский (восточная подгруппа индоарийской группы внутри индоиранской ветви) 215 6 1290
5. Португальский (романский язык; иберо-романская группа) 194- 7- 1358
7. Немецкий (германская ветвь; западногерманская подгруппа) 129- 8- 1032
8. Французский (романский язык; галло-романская подгруппа) 129- 9- 1161
2. Японский (алтайская семья; корейско-японская группа) 126- 10- 1260
10. Урду (центральная подгруппа индоарийская группы внутри индоиранской ветви, ср. хинди) 109- 11- 1199
3. Яванский (западная ветвь малайско-полинезийской группы австронезийской семьи) 75,5- 12- 906
4. Китайский диалект/вариант у (сино-тибетская семья) 75,2- 13- 977,6
5. Корейский (алтайская семья; корейско-японская группа) 75- 14- 1050
6. Вьетнамский (вьетмыонгская группа аустроазиатских) 67,7- 15- 1015,5
7. Телугу (дравидийская семья) 66,4 16 1062,4
8. Кантонский (юэ) диалект/вариант китайского (сино-тибетская семья) 66- 17- 1122
9. Маратхи (южная подгруппа индоарийской группы внутри индоиранской ветви) 64,8 18 1166,4
9. Тамильский (дравидийская семья) 63,1 19 1198,9
10. Турецкий (алтайская семья; тюрко-монгольская группа) 59- 20- 1180
11. Вариант/диалект китайского языка минь (сино-тибетская семья) 49- 21- 1029
12. Вариант/диалект китайского языка цзяньоу [109] (?) (сино-тибетская семья)
45- 22- 990
11/12. Гуджарати (западная подгруппа индоарийской группы внутри индоиранской ветви) 44- 23- 1012
11/12. Польский (славянская ветвь; лехитская зона внутри западнославянской подгруппы) 44- 24- 1056
13/2-3 (?). Египетский вариант разговорного арабского (семитская семья, южно-центральная группа) [110]
42,5- 25- 1062,5
13. Украинский (славянская ветвь; восточнославянская подгруппа) 41- 26- 1066
14. Итальянский (романский язык; итало-романская подгруппа) 37- 27- 999
14. Вариант/диалект китайского языка сян (сино-тибетская семья) 36- 28- 1008
20/21. Персидский (фарси; западноиранская группа внутри индоиранской ветви) 36- 29- 1044
15. Малаялам (дравидийская семья) 34- 30- 1020
16. Вариант/диалект китайского языка хакка (сино-тибетская семья) 34- 31- 1054
17. Каннада (дравидийская семья) 33,7- 32- 1078,4
15. Ория (восточная подгруппа индоарийской группы внутри индоиранской ветви) 31- 33- 1023
16. Западный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви) 30- 34- 1020
18. Сунда (австронезийская семья) 27- 35- 945
17/18/11 [114]. Восточный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви)
26- 36- 936
17/18. Румынский (романский язык; дако-романская подгруппа) 26- 37- 962
19. Бходжпури (восточная подгруппа индоарийской группы внутри индоиранской ветви); язык близок к хинди 25- 38- 950
19. Южноазербайджанский (алтайская семья, тюрко-монгольская группа) 24,4- 39- 951,6
20/21. Майтхили (восточная подгруппа индоарийской группы внутри индо-иранской ветви) 24,3- 40- 972
20. Хауса (чадская ветвь афроазиатских или семито-хамитских) 24,2- 41- 992,2
21. Алжирский вариант разговорного арабского (семитская семья, южно-центральная группа), ср выше, 13 22,4- 42- 940,8
22. Бирманский (тибето-бирманская группа сино-тибетской семьи) 22- 43- 946
22. Сербохорватский (славянская ветвь; западно-южнославянская подгруппа); по политическим причинам распадается на сербский и хорватский 21- 44- 924
23. Вариант/диалект китайского языка гань (сино-тибетская семья) 20,6- 45- 927
23. Авадхи (центральная подгруппа индоарийской группы внутри индоиранской ветви); иногда рассматривается как вариант хинди 20,5- 46- 943
24. Тайский (тайская группа внутри предполагаемой австро-тайской семьи) 20- 47- 940
25. Йоруба (подсемья ква нигеро-конголезской макросемьи) 20- 48- 960
24/25. Голландский (вместе с фламандским; германская ветвь; западногерманская подгруппа) 20- 49- 980
24/25. Курдский (северо-западноиранская группа внутри индоиранской ветви) 20- 50- 1000
26/27. Синдхи (северо-западная подгруппа индоарийской группы внутри индо-иранской ветви) 19- 51- 969
26/27. Пашту (восточноиранская группа внутри индоиранской ветви) 19- 52- 988
26. Индонезийский/малайский (На индонезийском/малайском языке как общем для Индонезии говорит около 176 (140) млн; западная ветвь малайско-полинезийской группы австронезийской семьи.) 17- 53- 901

Информацию почерпнул из книги
Вяч. Вс. Иванов
ЛИНГВИСТИКА ТРЕТЬЕГО ТЫСЯЧЕЛЕТИЯ: ВОПРОСЫ К БУДУЩЕМУ. II (гл 11)

Картина, как видим, такая.

Распределение неплохо соответствует законц Ципфа, хотя наблюдаеются отклонения за пределами статистики.

(Кстати, это своеобразный аргумент против того, что данный закон - чисто статистический. Если он статистический, то почему наблюдаются уклонения, нарушающие вероятностые статистические уклонения?!)

"Слишком" большая численность наблюдается у следующих языков:
4/1 (?). [113] Хинди
496- 3- 1488
1/2/3 (?) [111]. Испанский (романский язык; иберо-романская группа)
425- 4- 1700
6. Русский (славянская ветвь; восточнославянская подгруппа) 275- 5- 1375
¾. Бенгальский (восточная подгруппа индоарийской группы внутри индоиранской ветви) 215 6 1290
5. Португальский (романский язык; иберо-романская группа) 194- 7- 1358

ПРичину этого уклонения не знаю, однако кое-что для меня очевидно. Скорее всего, число 275 млн для РУССКОГО языка завышено по идеологическим соображениям - вероятно, Иванов включил украинцев в состав русского народа.
Подозреваю, что та же ситуация с ХИНДИ, как государственным языком Индии.
Не знаю, как объяснить аномалию с ИСПАНСКИМ, БЕНГАЛЬСКИМ, ПОРТУГАЛЬСКИМ, но подозреваю что-то в этом же роде, какую-то политику...

И еще - видно, что к концу списка распределение все-таки заваливается... как и положено, чтобы ряд сходился.
Все-таки ТОЧНО соответствовать закону Ципфа ничто материальное не может, так как в материальном мире все конечно.
А закон Ципфа - это ласточка из мира идей...

На нумерацию языков (числа перед названием языка) прошу не обращать внимания. Моя таблица - смесь двух отдельных таблиц, для индоевропейских и для НЕиндоевропейских, в каждой из которых была отдельная нумерация. Я оставил эти цифры, чтобы можно было смотреть на данные и по отдельности, если кому-то захочется...

Солохин · июня 14, 2009, 18:09

Для справки: закон Ципфа - таинственная закономерность, наблюдающаяся в самых разнообразных областях гуманитарных наук.
Например, если составить частотный словарь русского языка (в котором слова расположены в порядке убывания частоты встречаемости), то окажется, что номер слова в частотном списке помножить на частоту этого слова = некоторая константа!
Причем для цельного текста эта закономерность соблюдается лучше, чем для смеси нескольких разрозненных текстов. Для смеси двух романов Достоевского или, скажем, двух романов Толстого, - лучше, чем для смеси романа Достоевского с романом Толстого.

Природу этой закономерности НИКТО ДО СИХ ПОР не объяснил.
Многие пытались объяснить это простой статистикой, но это объяснения недостаточны. Самый сиьлный аргумент в пользу статистической природы Ципфа - тот факт, что "тексты", выдаваемые генератором случайных цепочек символов, тоже имеют распределение Ципфа. Но этот аргумент отнюдь не решающий: все-таки Дрстоевский никак не является генератором случайных цепочек символов... цепочки, выдаваемые генератором, четко распределены по длине "слова" - длинные слова встречаются редко. В естественных языках это совсем не так. Хотя самые частые слова, конечно, как правило короче, но свести к этому обстоятельству закон Ципфа никак не получится...
А уж распределение языков по распространенности к случайным текстам тем более никакого отношения не имеет!

arseniiv · июня 14, 2009, 18:12

Не "уклонения", а отклонения.

RostislaV · июня 14, 2009, 18:20

Насчёт распространения - тут ведь неоднородно.

Одно дело распространение в ареале одного этноса и нации в одном гос-ве (максимально доминирующем), совсем другое распространение - это колонизация.

Китайцев много и почти все живут в КНР - и уровень распространения Мандарина высок, но суть в том что для большой части китайцев, граждан и неграждан КНР (китайцы, живущие вне КНР) - Мандарин и не родной вовсе язык.

Это как и в случае, что русский по-умолчанию родной для всего ВСБ.

Распространение английского чистой воды колонизация и общемировая доминанта данной цивилизации в Мире.

Alone Coder · июня 14, 2009, 18:24

Как вы правильно заметили, закон Ципфа нарушается в конце цепочки. Скажу более, он нарушается и в её начале. А в середине он держится, в частности, за счёт произвольного коэффициента. Как выглядит настоящая кривая распространённости слов, можно увидеть в этой статье: http://en.wikipedia.org/wiki/Zipf's_law . Обратите внимание на излом в районе 10000, где кончается общая лексика.

Солохин · июня 14, 2009, 19:18

А вот что получается, если рассмотреть распространенность языков, которые считают РОДНЫМИ.

1. Китайский (путунхуа-«мандаринский») (сино-тибетская семья) 885- 1- 885
1%2%3 (?) [111]. Испанский (романский язык; иберо-романская группа)
332- 2- 664-
20%21. Персидский (фарси; западноиранская группа внутри индоиранской ветви) 324,3 3 972,9
2%1 (?) [112]. Английский (германская ветвь; западногерманская подгруппа)
322- 4- 1288
3%4. Бенгальский (восточная подгруппа индоарийской группы внутри индоиранской ветви) 210- 5- 1050
4%1 (?). [113] Хинди
182- 6- 1092
5. Португальский (романский язык; иберо-романская группа) 178- 7- 1246
6. Русский (славянская ветвь; восточнославянская подгруппа) 165- 8- 1320
2. Японский (алтайская семья; корейско-японская группа) 125- 9- 1125
7. Немецкий (германская ветвь; западногерманская подгруппа) 98- 10- 980
3. Яванский (западная ветвь малайско-полинезийской группы австронезийской семьи) 75,5 11 830,5
4. Китайский диалект%вариант у (сино-тибетская семья) 75,2- 12- 902,4
5. Корейский (алтайская семья; корейско-японская группа) 75- 13- 975
8. Французский (романский язык; галло-романская подгруппа) 72- 14- 1008
9. Маратхи (южная подгруппа индоарийской группы внутри индоиранской ветви) 71- 15- 1065
6. Вьетнамский (вьетмыонгская группа аустроазиатских) 67,7- 16- 1083,2
7. Телугу (дравидийская семья) 66,4- 17- 1128,8
8. Кантонский (юэ) диалект%вариант китайского (сино-тибетская семья) 66- 18- 1188
9. Тамильский (дравидийская семья) 63,1- 19- 1198,9
10. Турецкий (алтайская семья; тюрко-монгольская группа) 59- 20- 1180
10. Урду (центральная подгруппа индоарийская группы внутри индоиранской ветви, ср. хинди) 58- 21- 1218
11. Вариант-диалект китайского языка минь (сино-тибетская семья) 49- 22- 1078
12. Вариант-диалект китайского языка цзяньоу [109] (?) (сино-тибетская семья)
45- 23- 1035
11%12. Гуджарати (западная подгруппа индоарийской группы внутри индоиранской ветви) 44- 24- 1056
11%12. Польский (славянская ветвь; лехитская зона внутри западнославянской подгруппы) 44- 25- 1100
13%2-3 (?). Египетский вариант разговорного арабского (семитская семья, южно-центральная группа) [110]
42,5- 26- 1105
13. Украинский (славянская ветвь; восточнославянская подгруппа) 41- 27- 1107
14. Итальянский (романский язык; итало-романская подгруппа) 37- 28- 1036
14. Вариант-диалект китайского языка сян (сино-тибетская семья) 36- 29- 1044
15. Малаялам (дравидийская семья) 34 30 1020
16. Вариант-диалект китайского языка хакка (сино-тибетская семья) 34- 31- 1054
17. Каннада (дравидийская семья) 33,7 32 1078,4
15. Ория (восточная подгруппа индоарийской группы внутри индоиранской ветви) 31- 33- 1023
16. Западный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви) 30- 34- 1020
18. Сунда (австронезийская семья) 27- 35- 945
19. Бходжпури (восточная подгруппа индоарийской группы внутри индоиранской ветви); язык близок к хинди 26,3- 36- 946,8
17%18%11 [114]. Восточный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви)
26- 37- 962
17%18. Румынский (романский язык; дако-романская подгруппа) 26- 38- 988
19. Южноазербайджанский (алтайская семья, тюрко-монгольская группа) 24,4- 39- 951,6
20%21. Майтхили (восточная подгруппа индоарийской группы внутри индо-иранской ветви) 24,3- 40- 972
20. Хауса (чадская ветвь афроазиатских или семито-хамитских) 24,2- 41- 992,2
21. Алжирский вариант разговорного арабского (семитская семья, южно-центральная группа), ср выше, 13 22,4- 42- 940,8
22. Бирманский (тибето-бирманская группа сино-тибетской семьи) 22- 43- 946
22. Сербохорватский (славянская ветвь; западно-южнославянская подгруппа); по политическим причинам распадается на сербский и хорватский 21- 44- 924
23. Вариант-диалект китайского языка гань (сино-тибетская семья) 20,6- 45- 927
23. Авадхи (центральная подгруппа индоарийской группы внутри индоиранской ветви); иногда рассматривается как вариант хинди 20,5- 46- 943
24. Тайский (тайская группа внутри предполагаемой австро-тайской семьи) 20- 47- 940
25. Йоруба (подсемья ква нигеро-конголезской макросемьи) 20- 48- 960
24%25. Голландский (вместе с фламандским; германская ветвь; западногерманская подгруппа) 20- 49- 980
24%25. Курдский (северо-западноиранская группа внутри индоиранской ветви) 20- 50- 1000
26%27. Синдхи (северо-западная подгруппа индоарийской группы внутри индо-иранской ветви) 19- 51- 969
26%27. Пашту (восточноиранская группа внутри индоиранской ветви) 19- 52- 988
26. Индонезийский%малайский (На индонезийском%малайском языке как общем для Индонезии говорит около 176 (140) млн; западная ветвь малайско-полинезийской группы австронезийской семьи.) 17- 53- 901
Внимательно глядя на полученный результат, приходишь к неутешительным выводам: если природа и вправду "стремится" соответствовать законц Ципфа, то можно предвидеть, что
1) численность считающих родным языком китайский и испанский должна возрастать
2) численность родным языком русский, португальский, урду, тамильский должна скращаться.
При этом самая большая динамика прироста предвидится для испанского, а самое быстрое убывание, увы, для русского.

Солохин · июня 14, 2009, 19:23

Цитата: arseniiv от июня 14, 2009, 18:12
Не "уклонения", а отклонения.

ПРошу прощения, я - жертва профессионального жаргона.
Я - увлекающийся лингвистикой астрофизик. А у нас говорят: "у-ширение" спектральных линий, "у-клонение" от распределения.
Студенты даже в шутку говорят о "раз-ужении"

myst · июня 14, 2009, 19:26

Цитата: Солохин от июня 14, 2009, 18:09
Например, если составить частотный словарь русского языка (в котором слова расположены в порядке убывания частоты встречаемости), то окажется, что номер слова в частотном списке помножить на частоту этого слова = некоторая константа!

Цитата: http://www.artint.ru/projects/frqlist/words.num.zip
1 37822.42 и
2 28835.46 в
3 22211.50 не
4 17862.57 на
5 13406.71 что
6 12106.62 с
7 7687.66 то

Ҧ закону Ципфа.

Солохин · июня 14, 2009, 19:36

Цитата: Alone Coder от июня 14, 2009, 18:24
Как вы правильно заметили, закон Ципфа нарушается в конце цепочки. Скажу более, он нарушается и в её начале. А в середине он держится, в частности, за счёт произвольного коэффициента.

Засчет чего "держится" закон Ципфа - тайна сия велика есть. Я, как человек, не так уж плохо разбирающийся в математике вообще (без ложной скромности, профессионально) и в статистике в частности, говорю со всей определенностью:
НИ ОДИН учененый на нашей планете не может объяснить природу этой закономерности.
Это одна из самых интригующих загадок науки.
Она настолько безнадежно непонятна, что математикам остается только надувать щеки и говорить: "статистика!".

Цитировать
Как выглядит настоящая кривая распространённости слов, можно увидеть в этой статье: http://en.wikipedia.org/wiki/Zipf's_law . Обратите внимание на излом в районе 10000, где кончается общая лексика.

Думаю, если рассматривать вперемешку слова и словосочетания, то излома в этом месте не будет.
Но где-то он должен быть, так как гармонический рад (1+1/2+1/3+1/4+...) - рядд расходящийся. Строго говоря, закону Ципфа ТОЧНО не может соответствовать ни одна конечная система. Наблюдаемое нами соответсвие закону Ципфа в тех или иных случаях - это ЗАВЕДОМО приблизительное соответствие КОНЕЧНОЙ системы какому-то БЕСКОНЕЧНОМУ по своей природе, неизвестному науке закону.

Солохин · июня 14, 2009, 19:45

Цитата: myst от июня 14, 2009, 19:26
Цитата: Солохин от Сегодня в 19:09
ЦитироватьНапример, если составить частотный словарь русского языка (в котором слова расположены в порядке убывания частоты встречаемости), то окажется, что номер слова в частотном списке помножить на частоту этого слова = некоторая константа!
Цитата: http://www.artint.ru/projects/frqlist/words.num.zip
Цитировать1 37822.42 и
2 28835.46 в
3 22211.50 не
4 17862.57 на
5 13406.71 что
6 12106.62 с
7 7687.66 то
Ҧ закону Ципфа.

НАЧАЛО частотного списка при достаточно большой выборке В ПРИНЦИПЕ не может соответствовать закону Ципфа, так как самые часты слова любого языка - это слова служебные (в широком смысле): артикли, предлоги, местоимения.
Частота этих слов есть некая постоянная величина, определяющаяся граматикой языка (и отчасти стилистикой автора).
Но из Ципфа (в силу логарифмической расходимости ряда) вытекает, что частота ЛЮБОГО слова должна логарифмически убывать с нарастанием выбоки!
Это значит, что если первые слова частотного списка в каком-то языке будут соответствовать Ципфу, то по мере нарастания объема текстов на этом языке служебные слова должны становиться все более и более редкими, что невозможно.
Очевидно, первые слова списка в каком-то смысле не являются поноценными словами, но некими ФОРМАЛЬНЫМИ МАРКЕРАМИ, без которых не может обойтись ни один язык. Как, например, точка в конце предложения! или пробел между словами!
Они не могут соответсвовать Ципфу, так как являются феноменами ИНОГО ПОРЯДКА, чем нормальные слова.

myst · июня 14, 2009, 19:55

Цитата: Солохин от июня 14, 2009, 19:45
Они не могут соответсвовать Ципфу, так как являются феноменами ИНОГО ПОРЯДКА, чем нормальные слова.

Цитата: ibid
17980 5.29 сторонники
17981 5.29 последовали
17982 5.29 перелом
17983 5.29 стыдливо
17984 5.29 кровавой
17985 5.29 страница
17986 5.29 мрамора
17987 5.29 псы
17988 5.29 протокола
17989 5.29 ураган
17990 5.23 культурных
17991 5.23 верхние
17992 5.23 блестяще

Эти подойдут?

Солохин · июня 14, 2009, 19:58

Вот несколько фрагментов частотного списка из Википедии.

331355   на   1   331355
293966   с   2   587932
286039   категория   3   858117
203390   по   4   813560
132624   из   5   663120
131155   не   6   786930
120424   к   7   842968
104721   а   8   837768
103864   для   9   934776
92604   от   10   926040
92051   до   11   1012561
87933   как   12   1055196
86517   его   13   1124721
86486   что   14   1210804
80276   также   15   1204140
77918   фильм   16   1246688
76556   году   17   1301452
72236   был   18   1300248
69997   о   19   1329943
67107   за   20   1342140
66451   года   21   1395471
65573   или   22   1442606
63094   при   23   1451162
62758   он   24   1506192
57887   изображение   25   1447175
54342   н   26   1412892
50139   но   27   1353753
47957   ссылки   28   1342796
47066   м   29   1364914
45813   время   30   1374390
45180   см   31   1400580
44356   США   32   1419392
43722   после   33   1442826
43696   россии   34   1485664
42714   это   35   1494990
41838   во   36   1506168
40614   у   37   1502718
40076   фильмы   38   1522888
39288   э   39   1532232
38010   название   40   1520400
36146   то   41   1481986
34416   было   42   1445472
34234   их   43   1472062
34186   так   44   1504184
33731   были   45   1517895
33567   же   46   1544082
33271   алфавиту   47   1563737
32285   была   48   1549680
31310   под   49   1534190
31229   области   50   1561450
29838   год   51   1521738
29349   е   52   1526148
28391   более   53   1504723
28223   родившиеся   54   1524042
28128   ссср   55   1547040
28003   город   56   1568168
27114   только   57   1545498
26425   т   58   1532650
26364   созвездие   59   1555476
25779   города   60   1546740
24720   все   61   1507920
24687   место   62   1530594
24454   лет   63   1540602
24233   район   64   1550912
24034   является   65   1562210
23558   язык   66   1554828
23260   область   67   1558420
22956   персоналии   68   1561008
22597   они   69   1559193
22087   со   70   1546090
22051   между   71   1565621
21941   новый   72   1579752
21725   д   73   1585925
21617   где   74   1599658
21107   однако   75   1583025
21048   история   76   1599648
20986   этот   77   1615922
20871   есть   78   1627938
20807   игра   79   1643753
20273   когда   80   1621840
19754   который   81   1600074
19449   может   82   1594818
19385   которые   83   1608955
19135   список   84   1607340
19081   км   85   1621885
19053   умершие   86   1638558
19053   того   87   1657611
18858   флаг   88   1659504
18743   том   89   1668127
18654   число   90   1678860
18603   александр   91   1692873
18568   другие   92   1708256
18112   компьютерная   93   1684416
18078   её   94   1699332
17875   этого   95   1698125
17759   п   96   1704864
17723   россия   97   1719131
17606   она   98   1725388
17508   общий   99   1733292
17460   объект   100   1746000

11423   имеет   176   2010448
11357   группы   177   2010189
11349   франции   178   2020122
11270   об   179   2017330
11253   себя   180   2025540
11240   два   181   2034440
11171   сюжет   182   2033122
11128   этой   183   2036424
11111   наиболее   184   2044424
11036   группа   185   2041660
11025   владимир   186   2050650
10963   своей   187   2050081
10948   среди   188   2058224
10929   системы   189   2065581
10886   имя   190   2068340
10812   гг   191   2065092
10787   др   192   2071104
10766   образом   193   2077838
10765   санкт   194   2088410
10699   даже   195   2086305
10678   истории   196   2092888
10648   района   197   2097656
10644   территории   198   2107512
10612   февраля   199   2111788
10514   лишь   200   2102800
10514   вместе   201   2113314
10492   кроме   202   2119384
10436   которая   203   2118508
10353   населения   204   2112012
10349   смерти   205   2121545
10303   де   206   2122418
10218   система   207   2115126
10133   часто   208   2107664
10118   игры   209   2114662
10073   центр   210   2115330
10044   площадь   211   2119284
9969   обычно   212   2113428
9944   второй   213   2118072
9859   автор   214   2109826
9825   могут   215   2112375

7794   жизнь   297   2314818
7780   иногда   298   2318440
7680   людей   299   2296320
7672   германия   300   2301600
7637   настоящее   301   2298737
7619   являются   302   2300938
7590   кинофильм   303   2299770
7589   события   304   2307056
7581   имени   305   2312205
7576   рекомендуется   306   2318256
7564   музыке   307   2322148
7557   одним   308   2327556
7538   альбом   309   2329242
7530   почти   310   2334300
7478   видимые   311   2325658
7443   роль   312   2322216
7437   церкви   313   2327781
7427   литература   314   2332078
7385   стороны   315   2326275
7382   перед   316   2332712
7372   особенно   317   2336924
7367   результате   318   2342706
7359   количество   319   2347521
7354   иван   320   2353280
7301   большой   321   2343621
7256   менее   322   2336432
7232   мир   323   2335936
7212   таким   324   2336688
7186   земли   325   2335450
7184   будет   326   2341984
7177   первая   327   2346879
7146   эта   328   2343888
7071   компании   329   2326359
7061   государственный   330   2330130
7050   ч   331   2333550
7041   первой   332   2337612
7022   николаевич   333   2338326
7015   находится   334   2343010
7014   официальный   335   2349690
6997   поэтому   336   2350992
6974   галактики   337   2350238
6968   котором   338   2355184
6948   тогда   339   2355372
6937   власти   340   2358580
6915   виде   341   2358015
6915   городе   342   2364930
6856   наук   343   2351608
6850   впервые   344   2356400
6847   стали   345   2362215
6847   свои   346   2369062
6802   мм   347   2360294
6787   млн   348   2361876
6767   писатель   349   2361683
6738   армии   350   2358300
6720   типа   351   2358720
6639   яркость   352   2336928

6087   именно   388   2361756
6077   ли   389   2363953
6071   италии   390   2367690
6058   англии   391   2368678
6045   значение   392   2369640
6043   церковь   393   2374899
6012   течение   394   2368728
6007   цвет   395   2372765
6002   партия   396   2376792
6002   великобритания   397   2382794
6000   страна   398   2388000
5990   глава   399   2390010
5979   искать   400   2391600
5970   право   401   2393970
5927   большая   402   2382654
5913   которое   403   2382939
5901   биография   404   2384004
5890   стала   405   2385450
5887   одна   406   2390122
5885   республики   407   2395195
5885   угловое   408   2401080
5884   университета   409   2406556
5867   империи   410   2405470
5864   начала   411   2410104
5846   великобритании   412   2408552
5845   ум   413   2413985
5823   федерации   414   2410722
5819   ряд   415   2414885
5789   чел   416   2408224
5783   основные   417   2411511
5779   ввп   418   2415622
5769   всё   419   2417211
5758   москве   420   2418360
5741   управления   421   2416961
5734   произведения   422   2419748
5719   андрей   423   2419137
5710   права   424   2421040
5704   районе   425   2424200
5703   развития   426   2429478
5693   союза   427   2430911
5679   согласно   428   2430612
5674   первые   429   2434146
5669   уильям   430   2437670
5631   совета   431   2426961
5624   просмотр   432   2429568
5621   общества   433   2433893
5611   го   434   2435174
5607   италия   435   2439045
5590   существует   436   2437240
5590   премии   437   2442830
5589   мире   438   2447982
5567   описание   439   2443913
5564   завод   440   2448160
5554   имеют   441   2449314
5553   метро   442   2454426
5553   данных   443   2459979
5549   теории   444   2463756
5535   сам   445   2463075
5530   карл   446   2466380

4908   степени   508   2493264
4907   ней   509   2497663
4901   позже   510   2499510
4897   генерал   511   2502367
4895   данные   512   2506240
4888   основном   513   2507544
4886   виктор   514   2511404
4882   тот   515   2514230
4874   культуры   516   2514984
4873   действия   517   2519341
4865   частности   518   2520070
4860   люди   519   2522340
4849   статус   520   2521480
4849   дом   521   2526329
4847   деятельность   522   2530134
4845   большинство   523   2533935
4842   украина   524   2537208
4836   советский   525   2538900
4832   вскоре   526   2541632
4829   тысяч   527   2544883
4823   главным   528   2546544
4817   европы   529   2548193
4816   образование   530   2552480
4781   названия   531   2538711
4773   республика   532   2539236
4772   первых   533   2543476
4767   юго   534   2545578
4763   американский   535   2548205
4758   длина   536   2550288
4747   журнал   537   2549139
4734   ныне   538   2546892
4731   французский   539   2550009
4726   кто   540   2552040
4709   первым   541   2547569
4708   борис   542   2551736
4707   годов   543   2555901

4202   главы   604   2538008
4197   правило   605   2539185
4193   момент   606   2540958
4180   компания   607   2537260
4177   начал   608   2539616
4177   каждый   609   2543793
4159   детей   610   2536990
4151   московский   611   2536261
4142   испании   612   2534904
4132   влияние   613   2532916
4132   павел   614   2537048
4117   формы   615   2531955
4116   советского   616   2535456
4115   целью   617   2538955
4108   конца   618   2538744
4087   орден   619   2529853
4068   москвы   620   2522160
4063   другими   621   2523123
4055   св   622   2522210
4055   населённые   623   2526265
4044   кг   624   2523456
4042   плотность   625   2526250
4039   сан   626   2528414
4034   император   627   2529318
4024   разных   628   2527072
4021   путь   629   2529209
4016   числа   630   2530080
4016   отец   631   2534096
4013   писатели   632   2536216

myst · июня 14, 2009, 20:00

Цитата: Солохин от июня 14, 2009, 19:58
Вот несколько фрагментов частотного списка из Википедии.

Что это за список?

P. S. Можно просто ссылку дать. Зачем рулоны-то копировать?

Солохин · июня 14, 2009, 20:09

Цитата: myst от июня 14, 2009, 19:55
Эти подойдут?

Строго говоря, не подойдут.
Что несколько подряд слов чстотного списка, имеющих почти одинковый номер и почти одинаковую частоту, дают одно и то же произведение частоты на номер - это совсем не удивительно.
Удивительно, что это произведение оказывается практически одинаоквым у слова №200, слова № 400, слова № 1000, слова № 3000 - к сожалению, у меня под рукой сейчас нет такого длинного списка, чтобы это продемонстрровать...

Цитата: myst от июня 14, 2009, 20:00
Цитата: Солохин от июня 14, 2009, 19:58
Вот несколько фрагментов частотного списка из Википедии.
Что это за список?

Словник из Википедии. Он очень длинный, и я не сохранил его целиком, только фрагмент.
ССылку сейчас поищу...

ЦитироватьP. S. Можно просто ссылку дать. Зачем рулоны-то копировать?

Виноват.

Солохин · июня 14, 2009, 20:26

Вот пример большого частотного словника

http://rapidshare.com/files/2419971/ruwiki-fr.zip.html

Статья в Википедии, где обсуждается этот материал здесь
http://ru.wikipedia.org/wiki/Википедия:Частотный_словник

А я брал отсюда
http://ru.wikipedia.org/wiki/Участник:Zserghei/Частотный_словарь

Солохин · июня 14, 2009, 20:30

Опс!
Виноват, отсюда. Но там то же самое по идее.
http://ru.wiktionary.org/wiki/Конкорданс:Русскоязычная_Википедия

arseniiv · июня 14, 2009, 20:32

Это неправильный словарь, что слово категория - третье. Скорее всего, он по материалам самой вики.

А последний - правильный.
Хотя нет, тоже из вики.

Xico · июня 14, 2009, 20:37

Цитата: Солохин от июня 14, 2009, 17:54
Не знаю, как объяснить аномалию с ИСПАНСКИМ, БЕНГАЛЬСКИМ, ПОРТУГАЛЬСКИМ, но подозреваю что-то в этом же роде, какую-то политику...

Никакой политики. Просто количество носителей, а также тех, для кого язык является вторым. Для русского цифра получена так:

Цитировать165 million native, 110 million second language = 275 million total
http://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers

Это всего лишь одна из оценок.

Солохин · июня 14, 2009, 20:59

Впрочем, думаю, я не зря поместил здесь фрагменты своей таблицы.
Я же не просто скопировал информацию из Вики, а предварительно обработал ее, пронумеровав слова и вычислив произведение номера слова на его частоту для каждого слова (а их в списке более 3000!). Конечно, каждому, кто умеет пользоваться Exel-ем, это нетрудно проделать самому - на это нужно каких-то пятнадцать минут.
Но зачем делать одну и ту же работу дважды?!
Я, кстати, сейчас обработал "хвост" списка.
Вот несколько фрагментов.

Начало списка:
92604   от   12   1111248
92051   до   13   1196663
87933   как   14   1231062
86517   его   15   1297755
86486   что   16   1383776
83811   г   17   1424787
80276   также   18   1444968
77918   фильм   19   1480442
76556   году   20   1531120
72236   был   21   1516956
69997   о   22   1539934
67107   за   23   1543461
66451   года   24   1594824
65573   или   25   1639325
63094   при   26   1640444

Ближе к началу, но уже не начало
5067   член   491   2487897
5061   английский   492   2490012
5051   петербург   493   2490143
5043   расположен   494   2491242
5043   дней   495   2496285
5029   всегда   496   2494384
5014   веке   497   2491958
4992   мировой   498   2486016
4992   линии   499   2491008

Середина списка:
2514   америки   1095   2752830
2510   сценарист   1096   2750960
2507   совершенно   1097   2750179
2506   источники   1098   2751588
2504   вследствие   1099   2751896
2501   использования   1100   2751100
2501   провинция   1101   2753601
2501   записи   1102   2756102
2499   имеется   1103   2756397
2498   вильгельм   1104   2757792
Ближе к концу
1381   нефти   2165   2989865
1380   народной   2166   2989080
1379   рима   2167   2988293
1379   залив   2168   2989672
1378   печати   2169   2988882
1378   появилась   2170   2990260
1378   агломерация   2171   2991638
1377   птицы   2172   2990844
1376   причиной   2173   2990048
1373   северного   2174   2984902

Конец списка
1004   успеха   3098   3110392
1003   форум   3099   3108297
1003   японский   3100   3109300
1003   медали   3101   3110303
1002   фотокамера   3102   3108204
1002   целях   3103   3109206
1002   британской   3104   3110208
1002   бывает   3105   3111210
1002   нашего   3106   3112212
1001   фантастические   3107   3110107
1001   физические   3108   3111108
1001   предметов   3109   3112109
1001   обратно   3110   3113110
1000   брюс   3111   3111000
1000   виталий   3112   3112000
1000   контроля   3113   3113000

Впечатляет, правда?

Причем прошу учесть: Википедия с точки зрения закона Ципфа - это настоящий АД! Какая уж там "цельность текста" в Энциклопедии, составленной притом РАЗНЫМИ АВТОРАМИ!?
Тот факт, что слово "категория" в этом словнике оказалось таким же частым, как
предлоги "с" и "по" - красноречиво говорит о том, как плохо Ципфу в Википедии, ведь соответствие закону Ципфа - это некая интуитивно ощущамемая мера цельности и гармонии текста...

Цитата: arseniiv от июня 14, 2009, 20:32Хотя нет, тоже из вики.

Увы, в электронном виде Вики доминирует...

Rōmānus · июня 14, 2009, 21:00

Цитата: Солохин от июня 14, 2009, 17:54
Русский (славянская ветвь; восточнославянская подгруппа) 275

Это каким образом подсчитано?

Rōmānus · июня 14, 2009, 21:07

Цитата: Xico от июня 14, 2009, 20:37
Это всего лишь одна из оценок.

Оценка высоссаная из пальца. Население бывшего СССР - не есть "носители русского языка", так как прошло 20 лет и выросло уже одно поколение, которое не изучало русский язык.

Xico · июня 14, 2009, 21:10

Цитата: Roman от июня 14, 2009, 21:07
выросло уже одно поколение, которое не изучало русский язык.

Не изучало, но активно учит, точнее учило до начала кризиса на рынках и стройках.

myst · июня 14, 2009, 21:11

Цитата: Солохин от июня 14, 2009, 20:59
Я же не просто скопировал информацию из Вики, а предварительно обработал ее, пронумеровав слова и вычислив произведение номера слова на его частоту для каждого слова (а их в списке более 3000!).

Посмотрите словарь Шарова, на который я дал ссылку. В нём уже всё пронумеровано. Если мне память не изменяет, на странице автора есть информация о использованном корпусе и пр.

myst · июня 14, 2009, 21:13

Цитата: Xico от июня 14, 2009, 21:10
Не изучало, но активно учит, точнее учило до начала кризиса на рынках и стройках.

Их тоже посчитали за носителей?

Xico · июня 14, 2009, 21:15

Цитата: myst от июня 14, 2009, 21:13
Их тоже посчитали за носителей?

Иначе откуда взять 110 000 человек. Сюда же, видимо, включили русскоязычных эмигрантов.
Население СССР в 1989 году составляло 286 миллионов человек.

Лингвофорум

Популярность языка и закон Ципфа

Солохин

Солохин

arseniiv

RostislaV

Alone Coder

Солохин

Солохин

myst

Солохин

Солохин

myst

Солохин

myst

Солохин

Солохин

Солохин

arseniiv

Xico

Солохин

Rōmānus

Rōmānus

Xico

myst

myst

Xico

Быстрый ответ