Ради интереса глянул информацию о распространенности естественных языков (китайский - рекордсмен, английский - второй). Решил для прикола проверить распределение на соответствие закону Ципфа.
Угадайте, что получилось?
(первое число после названия языка - млн человек говорящих, второе - номер в частотной таблице, третий - произведение одного на другое)
1. Китайский (путунхуа-«мандаринский») (сино-тибетская семья) 1075- 1- 1075
2/1 (?) [112]. Английский (германская ветвь; западногерманская подгруппа)
514- 2- 1028
4/1 (?). [113] Хинди
496- 3- 1488
1/2/3 (?) [111]. Испанский (романский язык; иберо-романская группа)
425- 4- 1700
6. Русский (славянская ветвь; восточнославянская подгруппа) 275- 5- 1375
¾. Бенгальский (восточная подгруппа индоарийской группы внутри индоиранской ветви) 215 6 1290
5. Португальский (романский язык; иберо-романская группа) 194- 7- 1358
7. Немецкий (германская ветвь; западногерманская подгруппа) 129- 8- 1032
8. Французский (романский язык; галло-романская подгруппа) 129- 9- 1161
2. Японский (алтайская семья; корейско-японская группа) 126- 10- 1260
10. Урду (центральная подгруппа индоарийская группы внутри индоиранской ветви, ср. хинди) 109- 11- 1199
3. Яванский (западная ветвь малайско-полинезийской группы австронезийской семьи) 75,5- 12- 906
4. Китайский диалект/вариант у (сино-тибетская семья) 75,2- 13- 977,6
5. Корейский (алтайская семья; корейско-японская группа) 75- 14- 1050
6. Вьетнамский (вьетмыонгская группа аустроазиатских) 67,7- 15- 1015,5
7. Телугу (дравидийская семья) 66,4 16 1062,4
8. Кантонский (юэ) диалект/вариант китайского (сино-тибетская семья) 66- 17- 1122
9. Маратхи (южная подгруппа индоарийской группы внутри индоиранской ветви) 64,8 18 1166,4
9. Тамильский (дравидийская семья) 63,1 19 1198,9
10. Турецкий (алтайская семья; тюрко-монгольская группа) 59- 20- 1180
11. Вариант/диалект китайского языка минь (сино-тибетская семья) 49- 21- 1029
12. Вариант/диалект китайского языка цзяньоу [109] (?) (сино-тибетская семья)
45- 22- 990
11/12. Гуджарати (западная подгруппа индоарийской группы внутри индоиранской ветви) 44- 23- 1012
11/12. Польский (славянская ветвь; лехитская зона внутри западнославянской подгруппы) 44- 24- 1056
13/2-3 (?). Египетский вариант разговорного арабского (семитская семья, южно-центральная группа) [110]
42,5- 25- 1062,5
13. Украинский (славянская ветвь; восточнославянская подгруппа) 41- 26- 1066
14. Итальянский (романский язык; итало-романская подгруппа) 37- 27- 999
14. Вариант/диалект китайского языка сян (сино-тибетская семья) 36- 28- 1008
20/21. Персидский (фарси; западноиранская группа внутри индоиранской ветви) 36- 29- 1044
15. Малаялам (дравидийская семья) 34- 30- 1020
16. Вариант/диалект китайского языка хакка (сино-тибетская семья) 34- 31- 1054
17. Каннада (дравидийская семья) 33,7- 32- 1078,4
15. Ория (восточная подгруппа индоарийской группы внутри индоиранской ветви) 31- 33- 1023
16. Западный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви) 30- 34- 1020
18. Сунда (австронезийская семья) 27- 35- 945
17/18/11 [114]. Восточный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви)
26- 36- 936
17/18. Румынский (романский язык; дако-романская подгруппа) 26- 37- 962
19. Бходжпури (восточная подгруппа индоарийской группы внутри индоиранской ветви); язык близок к хинди 25- 38- 950
19. Южноазербайджанский (алтайская семья, тюрко-монгольская группа) 24,4- 39- 951,6
20/21. Майтхили (восточная подгруппа индоарийской группы внутри индо-иранской ветви) 24,3- 40- 972
20. Хауса (чадская ветвь афроазиатских или семито-хамитских) 24,2- 41- 992,2
21. Алжирский вариант разговорного арабского (семитская семья, южно-центральная группа), ср выше, 13 22,4- 42- 940,8
22. Бирманский (тибето-бирманская группа сино-тибетской семьи) 22- 43- 946
22. Сербохорватский (славянская ветвь; западно-южнославянская подгруппа); по политическим причинам распадается на сербский и хорватский 21- 44- 924
23. Вариант/диалект китайского языка гань (сино-тибетская семья) 20,6- 45- 927
23. Авадхи (центральная подгруппа индоарийской группы внутри индоиранской ветви); иногда рассматривается как вариант хинди 20,5- 46- 943
24. Тайский (тайская группа внутри предполагаемой австро-тайской семьи) 20- 47- 940
25. Йоруба (подсемья ква нигеро-конголезской макросемьи) 20- 48- 960
24/25. Голландский (вместе с фламандским; германская ветвь; западногерманская подгруппа) 20- 49- 980
24/25. Курдский (северо-западноиранская группа внутри индоиранской ветви) 20- 50- 1000
26/27. Синдхи (северо-западная подгруппа индоарийской группы внутри индо-иранской ветви) 19- 51- 969
26/27. Пашту (восточноиранская группа внутри индоиранской ветви) 19- 52- 988
26. Индонезийский/малайский (На индонезийском/малайском языке как общем для Индонезии говорит около 176 (140) млн; западная ветвь малайско-полинезийской группы австронезийской семьи.) 17- 53- 901
Информацию почерпнул из книги
Вяч. Вс. Иванов
ЛИНГВИСТИКА ТРЕТЬЕГО ТЫСЯЧЕЛЕТИЯ: ВОПРОСЫ К БУДУЩЕМУ. II (гл 11)
Картина, как видим, такая.
Распределение неплохо соответствует законц Ципфа, хотя наблюдаеются отклонения за пределами статистики.
(Кстати, это своеобразный аргумент против того, что данный закон - чисто статистический. Если он статистический, то почему наблюдаются уклонения, нарушающие вероятностые статистические уклонения?!)
"Слишком" большая численность наблюдается у следующих языков:
4/1 (?). [113] Хинди
496- 3- 1488
1/2/3 (?) [111]. Испанский (романский язык; иберо-романская группа)
425- 4- 1700
6. Русский (славянская ветвь; восточнославянская подгруппа) 275- 5- 1375
¾. Бенгальский (восточная подгруппа индоарийской группы внутри индоиранской ветви) 215 6 1290
5. Португальский (романский язык; иберо-романская группа) 194- 7- 1358
ПРичину этого уклонения не знаю, однако кое-что для меня очевидно. Скорее всего, число 275 млн для РУССКОГО языка завышено по идеологическим соображениям - вероятно, Иванов включил украинцев в состав русского народа.
Подозреваю, что та же ситуация с ХИНДИ, как государственным языком Индии.
Не знаю, как объяснить аномалию с ИСПАНСКИМ, БЕНГАЛЬСКИМ, ПОРТУГАЛЬСКИМ, но подозреваю что-то в этом же роде, какую-то политику...
И еще - видно, что к концу списка распределение все-таки заваливается... как и положено, чтобы ряд сходился.
Все-таки ТОЧНО соответствовать закону Ципфа ничто материальное не может, так как в материальном мире все конечно.
А закон Ципфа - это ласточка из мира идей...
На нумерацию языков (числа перед названием языка) прошу не обращать внимания. Моя таблица - смесь двух отдельных таблиц, для индоевропейских и для НЕиндоевропейских, в каждой из которых была отдельная нумерация. Я оставил эти цифры, чтобы можно было смотреть на данные и по отдельности, если кому-то захочется...
Для справки: закон Ципфа - таинственная закономерность, наблюдающаяся в самых разнообразных областях гуманитарных наук.
Например, если составить частотный словарь русского языка (в котором слова расположены в порядке убывания частоты встречаемости), то окажется, что номер слова в частотном списке помножить на частоту этого слова = некоторая константа!
Причем для цельного текста эта закономерность соблюдается лучше, чем для смеси нескольких разрозненных текстов. Для смеси двух романов Достоевского или, скажем, двух романов Толстого, - лучше, чем для смеси романа Достоевского с романом Толстого.
Природу этой закономерности НИКТО ДО СИХ ПОР не объяснил.
Многие пытались объяснить это простой статистикой, но это объяснения недостаточны. Самый сиьлный аргумент в пользу статистической природы Ципфа - тот факт, что "тексты", выдаваемые генератором случайных цепочек символов, тоже имеют распределение Ципфа. Но этот аргумент отнюдь не решающий: все-таки Дрстоевский никак не является генератором случайных цепочек символов... цепочки, выдаваемые генератором, четко распределены по длине "слова" - длинные слова встречаются редко. В естественных языках это совсем не так. Хотя самые частые слова, конечно, как правило короче, но свести к этому обстоятельству закон Ципфа никак не получится...
А уж распределение языков по распространенности к случайным текстам тем более никакого отношения не имеет!
Не "уклонения", а отклонения.
Насчёт распространения - тут ведь неоднородно.
Одно дело распространение в ареале одного этноса и нации в одном гос-ве (максимально доминирующем), совсем другое распространение - это колонизация.
Китайцев много и почти все живут в КНР - и уровень распространения Мандарина высок, но суть в том что для большой части китайцев, граждан и неграждан КНР (китайцы, живущие вне КНР) - Мандарин и не родной вовсе язык.
Это как и в случае, что русский по-умолчанию родной для всего ВСБ.
Распространение английского чистой воды колонизация и общемировая доминанта данной цивилизации в Мире.
Как вы правильно заметили, закон Ципфа нарушается в конце цепочки. Скажу более, он нарушается и в её начале. А в середине он держится, в частности, за счёт произвольного коэффициента. Как выглядит настоящая кривая распространённости слов, можно увидеть в этой статье: http://en.wikipedia.org/wiki/Zipf's_law . Обратите внимание на излом в районе 10000, где кончается общая лексика.
А вот что получается, если рассмотреть распространенность языков, которые считают РОДНЫМИ.
1. Китайский (путунхуа-«мандаринский») (сино-тибетская семья) 885- 1- 885
1%2%3 (?) [111]. Испанский (романский язык; иберо-романская группа)
332- 2- 664-
20%21. Персидский (фарси; западноиранская группа внутри индоиранской ветви) 324,3 3 972,9
2%1 (?) [112]. Английский (германская ветвь; западногерманская подгруппа)
322- 4- 1288
3%4. Бенгальский (восточная подгруппа индоарийской группы внутри индоиранской ветви) 210- 5- 1050
4%1 (?). [113] Хинди
182- 6- 1092
5. Португальский (романский язык; иберо-романская группа) 178- 7- 1246
6. Русский (славянская ветвь; восточнославянская подгруппа) 165- 8- 1320
2. Японский (алтайская семья; корейско-японская группа) 125- 9- 1125
7. Немецкий (германская ветвь; западногерманская подгруппа) 98- 10- 980
3. Яванский (западная ветвь малайско-полинезийской группы австронезийской семьи) 75,5 11 830,5
4. Китайский диалект%вариант у (сино-тибетская семья) 75,2- 12- 902,4
5. Корейский (алтайская семья; корейско-японская группа) 75- 13- 975
8. Французский (романский язык; галло-романская подгруппа) 72- 14- 1008
9. Маратхи (южная подгруппа индоарийской группы внутри индоиранской ветви) 71- 15- 1065
6. Вьетнамский (вьетмыонгская группа аустроазиатских) 67,7- 16- 1083,2
7. Телугу (дравидийская семья) 66,4- 17- 1128,8
8. Кантонский (юэ) диалект%вариант китайского (сино-тибетская семья) 66- 18- 1188
9. Тамильский (дравидийская семья) 63,1- 19- 1198,9
10. Турецкий (алтайская семья; тюрко-монгольская группа) 59- 20- 1180
10. Урду (центральная подгруппа индоарийская группы внутри индоиранской ветви, ср. хинди) 58- 21- 1218
11. Вариант-диалект китайского языка минь (сино-тибетская семья) 49- 22- 1078
12. Вариант-диалект китайского языка цзяньоу [109] (?) (сино-тибетская семья)
45- 23- 1035
11%12. Гуджарати (западная подгруппа индоарийской группы внутри индоиранской ветви) 44- 24- 1056
11%12. Польский (славянская ветвь; лехитская зона внутри западнославянской подгруппы) 44- 25- 1100
13%2-3 (?). Египетский вариант разговорного арабского (семитская семья, южно-центральная группа) [110]
42,5- 26- 1105
13. Украинский (славянская ветвь; восточнославянская подгруппа) 41- 27- 1107
14. Итальянский (романский язык; итало-романская подгруппа) 37- 28- 1036
14. Вариант-диалект китайского языка сян (сино-тибетская семья) 36- 29- 1044
15. Малаялам (дравидийская семья) 34 30 1020
16. Вариант-диалект китайского языка хакка (сино-тибетская семья) 34- 31- 1054
17. Каннада (дравидийская семья) 33,7 32 1078,4
15. Ория (восточная подгруппа индоарийской группы внутри индоиранской ветви) 31- 33- 1023
16. Западный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви) 30- 34- 1020
18. Сунда (австронезийская семья) 27- 35- 945
19. Бходжпури (восточная подгруппа индоарийской группы внутри индоиранской ветви); язык близок к хинди 26,3- 36- 946,8
17%18%11 [114]. Восточный панджаби (северо-западная подгруппа индоарийской группы внутри индоиранской ветви)
26- 37- 962
17%18. Румынский (романский язык; дако-романская подгруппа) 26- 38- 988
19. Южноазербайджанский (алтайская семья, тюрко-монгольская группа) 24,4- 39- 951,6
20%21. Майтхили (восточная подгруппа индоарийской группы внутри индо-иранской ветви) 24,3- 40- 972
20. Хауса (чадская ветвь афроазиатских или семито-хамитских) 24,2- 41- 992,2
21. Алжирский вариант разговорного арабского (семитская семья, южно-центральная группа), ср выше, 13 22,4- 42- 940,8
22. Бирманский (тибето-бирманская группа сино-тибетской семьи) 22- 43- 946
22. Сербохорватский (славянская ветвь; западно-южнославянская подгруппа); по политическим причинам распадается на сербский и хорватский 21- 44- 924
23. Вариант-диалект китайского языка гань (сино-тибетская семья) 20,6- 45- 927
23. Авадхи (центральная подгруппа индоарийской группы внутри индоиранской ветви); иногда рассматривается как вариант хинди 20,5- 46- 943
24. Тайский (тайская группа внутри предполагаемой австро-тайской семьи) 20- 47- 940
25. Йоруба (подсемья ква нигеро-конголезской макросемьи) 20- 48- 960
24%25. Голландский (вместе с фламандским; германская ветвь; западногерманская подгруппа) 20- 49- 980
24%25. Курдский (северо-западноиранская группа внутри индоиранской ветви) 20- 50- 1000
26%27. Синдхи (северо-западная подгруппа индоарийской группы внутри индо-иранской ветви) 19- 51- 969
26%27. Пашту (восточноиранская группа внутри индоиранской ветви) 19- 52- 988
26. Индонезийский%малайский (На индонезийском%малайском языке как общем для Индонезии говорит около 176 (140) млн; западная ветвь малайско-полинезийской группы австронезийской семьи.) 17- 53- 901
Внимательно глядя на полученный результат, приходишь к неутешительным выводам: если природа и вправду "стремится" соответствовать законц Ципфа, то можно предвидеть, что
1) численность считающих родным языком китайский и испанский должна возрастать
2) численность родным языком русский, португальский, урду, тамильский должна скращаться.
При этом самая большая динамика прироста предвидится для испанского, а самое быстрое убывание, увы, для русского.
Цитата: arseniiv от июня 14, 2009, 18:12
Не "уклонения", а отклонения.
ПРошу прощения, я - жертва профессионального жаргона.
Я - увлекающийся лингвистикой астрофизик. А у нас говорят: "у-ширение" спектральных линий, "у-клонение" от распределения.
Студенты даже в шутку говорят о "раз-ужении" :-)
Цитата: Солохин от июня 14, 2009, 18:09
Например, если составить частотный словарь русского языка (в котором слова расположены в порядке убывания частоты встречаемости), то окажется, что номер слова в частотном списке помножить на частоту этого слова = некоторая константа!
Цитата: http://www.artint.ru/projects/frqlist/words.num.zip
1 37822.42 и
2 28835.46 в
3 22211.50 не
4 17862.57 на
5 13406.71 что
6 12106.62 с
7 7687.66 то
Ҧ закону Ципфа. :eat:
Цитата: Alone Coder от июня 14, 2009, 18:24
Как вы правильно заметили, закон Ципфа нарушается в конце цепочки. Скажу более, он нарушается и в её начале. А в середине он держится, в частности, за счёт произвольного коэффициента.
Засчет чего "держится" закон Ципфа - тайна сия велика есть. Я, как человек, не так уж плохо разбирающийся в математике вообще (без ложной скромности, профессионально) и в статистике в частности, говорю со всей определенностью:
НИ ОДИН учененый на нашей планете не может объяснить природу этой закономерности.
Это одна из самых интригующих загадок науки.
Она настолько безнадежно непонятна, что математикам остается только надувать щеки и говорить: "статистика!".
Цитировать
Как выглядит настоящая кривая распространённости слов, можно увидеть в этой статье: http://en.wikipedia.org/wiki/Zipf's_law . Обратите внимание на излом в районе 10000, где кончается общая лексика.
Думаю, если рассматривать вперемешку слова и словосочетания, то излома в этом месте не будет.
Но где-то он должен быть, так как гармонический рад (1+1/2+1/3+1/4+...) - рядд расходящийся. Строго говоря, закону Ципфа ТОЧНО не может соответствовать ни одна конечная система. Наблюдаемое нами соответсвие закону Ципфа в тех или иных случаях - это ЗАВЕДОМО приблизительное соответствие КОНЕЧНОЙ системы какому-то БЕСКОНЕЧНОМУ по своей природе, неизвестному науке закону.
Цитата: myst от июня 14, 2009, 19:26
Цитата: Солохин от Сегодня в 19:09ЦитироватьНапример, если составить частотный словарь русского языка (в котором слова расположены в порядке убывания частоты встречаемости), то окажется, что номер слова в частотном списке помножить на частоту этого слова = некоторая константа!
Цитата: http://www.artint.ru/projects/frqlist/words.num.zipЦитировать1 37822.42 и
2 28835.46 в
3 22211.50 не
4 17862.57 на
5 13406.71 что
6 12106.62 с
7 7687.66 то
Ҧ закону Ципфа. :eat:
НАЧАЛО частотного списка при достаточно большой выборке В ПРИНЦИПЕ не может соответствовать закону Ципфа, так как самые часты слова любого языка - это слова служебные (в широком смысле): артикли, предлоги, местоимения.
Частота этих слов есть некая постоянная величина, определяющаяся граматикой языка (и отчасти стилистикой автора).
Но из Ципфа (в силу логарифмической расходимости ряда) вытекает, что частота ЛЮБОГО слова должна логарифмически убывать с нарастанием выбоки!
Это значит, что если первые слова частотного списка в каком-то языке будут соответствовать Ципфу, то по мере нарастания объема текстов на этом языке служебные слова должны становиться все более и более редкими, что невозможно.
Очевидно, первые слова списка в каком-то смысле не являются поноценными словами, но некими ФОРМАЛЬНЫМИ МАРКЕРАМИ, без которых не может обойтись ни один язык. Как, например, точка в конце предложения! или пробел между словами!
Они не могут соответсвовать Ципфу, так как являются феноменами ИНОГО ПОРЯДКА, чем нормальные слова.
Цитата: Солохин от июня 14, 2009, 19:45
Они не могут соответсвовать Ципфу, так как являются феноменами ИНОГО ПОРЯДКА, чем нормальные слова.
Цитата: ibid
17980 5.29 сторонники
17981 5.29 последовали
17982 5.29 перелом
17983 5.29 стыдливо
17984 5.29 кровавой
17985 5.29 страница
17986 5.29 мрамора
17987 5.29 псы
17988 5.29 протокола
17989 5.29 ураган
17990 5.23 культурных
17991 5.23 верхние
17992 5.23 блестяще
Эти подойдут?
Вот несколько фрагментов частотного списка из Википедии.
331355 на 1 331355
293966 с 2 587932
286039 категория 3 858117
203390 по 4 813560
132624 из 5 663120
131155 не 6 786930
120424 к 7 842968
104721 а 8 837768
103864 для 9 934776
92604 от 10 926040
92051 до 11 1012561
87933 как 12 1055196
86517 его 13 1124721
86486 что 14 1210804
80276 также 15 1204140
77918 фильм 16 1246688
76556 году 17 1301452
72236 был 18 1300248
69997 о 19 1329943
67107 за 20 1342140
66451 года 21 1395471
65573 или 22 1442606
63094 при 23 1451162
62758 он 24 1506192
57887 изображение 25 1447175
54342 н 26 1412892
50139 но 27 1353753
47957 ссылки 28 1342796
47066 м 29 1364914
45813 время 30 1374390
45180 см 31 1400580
44356 США 32 1419392
43722 после 33 1442826
43696 россии 34 1485664
42714 это 35 1494990
41838 во 36 1506168
40614 у 37 1502718
40076 фильмы 38 1522888
39288 э 39 1532232
38010 название 40 1520400
36146 то 41 1481986
34416 было 42 1445472
34234 их 43 1472062
34186 так 44 1504184
33731 были 45 1517895
33567 же 46 1544082
33271 алфавиту 47 1563737
32285 была 48 1549680
31310 под 49 1534190
31229 области 50 1561450
29838 год 51 1521738
29349 е 52 1526148
28391 более 53 1504723
28223 родившиеся 54 1524042
28128 ссср 55 1547040
28003 город 56 1568168
27114 только 57 1545498
26425 т 58 1532650
26364 созвездие 59 1555476
25779 города 60 1546740
24720 все 61 1507920
24687 место 62 1530594
24454 лет 63 1540602
24233 район 64 1550912
24034 является 65 1562210
23558 язык 66 1554828
23260 область 67 1558420
22956 персоналии 68 1561008
22597 они 69 1559193
22087 со 70 1546090
22051 между 71 1565621
21941 новый 72 1579752
21725 д 73 1585925
21617 где 74 1599658
21107 однако 75 1583025
21048 история 76 1599648
20986 этот 77 1615922
20871 есть 78 1627938
20807 игра 79 1643753
20273 когда 80 1621840
19754 который 81 1600074
19449 может 82 1594818
19385 которые 83 1608955
19135 список 84 1607340
19081 км 85 1621885
19053 умершие 86 1638558
19053 того 87 1657611
18858 флаг 88 1659504
18743 том 89 1668127
18654 число 90 1678860
18603 александр 91 1692873
18568 другие 92 1708256
18112 компьютерная 93 1684416
18078 её 94 1699332
17875 этого 95 1698125
17759 п 96 1704864
17723 россия 97 1719131
17606 она 98 1725388
17508 общий 99 1733292
17460 объект 100 1746000
11423 имеет 176 2010448
11357 группы 177 2010189
11349 франции 178 2020122
11270 об 179 2017330
11253 себя 180 2025540
11240 два 181 2034440
11171 сюжет 182 2033122
11128 этой 183 2036424
11111 наиболее 184 2044424
11036 группа 185 2041660
11025 владимир 186 2050650
10963 своей 187 2050081
10948 среди 188 2058224
10929 системы 189 2065581
10886 имя 190 2068340
10812 гг 191 2065092
10787 др 192 2071104
10766 образом 193 2077838
10765 санкт 194 2088410
10699 даже 195 2086305
10678 истории 196 2092888
10648 района 197 2097656
10644 территории 198 2107512
10612 февраля 199 2111788
10514 лишь 200 2102800
10514 вместе 201 2113314
10492 кроме 202 2119384
10436 которая 203 2118508
10353 населения 204 2112012
10349 смерти 205 2121545
10303 де 206 2122418
10218 система 207 2115126
10133 часто 208 2107664
10118 игры 209 2114662
10073 центр 210 2115330
10044 площадь 211 2119284
9969 обычно 212 2113428
9944 второй 213 2118072
9859 автор 214 2109826
9825 могут 215 2112375
7794 жизнь 297 2314818
7780 иногда 298 2318440
7680 людей 299 2296320
7672 германия 300 2301600
7637 настоящее 301 2298737
7619 являются 302 2300938
7590 кинофильм 303 2299770
7589 события 304 2307056
7581 имени 305 2312205
7576 рекомендуется 306 2318256
7564 музыке 307 2322148
7557 одним 308 2327556
7538 альбом 309 2329242
7530 почти 310 2334300
7478 видимые 311 2325658
7443 роль 312 2322216
7437 церкви 313 2327781
7427 литература 314 2332078
7385 стороны 315 2326275
7382 перед 316 2332712
7372 особенно 317 2336924
7367 результате 318 2342706
7359 количество 319 2347521
7354 иван 320 2353280
7301 большой 321 2343621
7256 менее 322 2336432
7232 мир 323 2335936
7212 таким 324 2336688
7186 земли 325 2335450
7184 будет 326 2341984
7177 первая 327 2346879
7146 эта 328 2343888
7071 компании 329 2326359
7061 государственный 330 2330130
7050 ч 331 2333550
7041 первой 332 2337612
7022 николаевич 333 2338326
7015 находится 334 2343010
7014 официальный 335 2349690
6997 поэтому 336 2350992
6974 галактики 337 2350238
6968 котором 338 2355184
6948 тогда 339 2355372
6937 власти 340 2358580
6915 виде 341 2358015
6915 городе 342 2364930
6856 наук 343 2351608
6850 впервые 344 2356400
6847 стали 345 2362215
6847 свои 346 2369062
6802 мм 347 2360294
6787 млн 348 2361876
6767 писатель 349 2361683
6738 армии 350 2358300
6720 типа 351 2358720
6639 яркость 352 2336928
6087 именно 388 2361756
6077 ли 389 2363953
6071 италии 390 2367690
6058 англии 391 2368678
6045 значение 392 2369640
6043 церковь 393 2374899
6012 течение 394 2368728
6007 цвет 395 2372765
6002 партия 396 2376792
6002 великобритания 397 2382794
6000 страна 398 2388000
5990 глава 399 2390010
5979 искать 400 2391600
5970 право 401 2393970
5927 большая 402 2382654
5913 которое 403 2382939
5901 биография 404 2384004
5890 стала 405 2385450
5887 одна 406 2390122
5885 республики 407 2395195
5885 угловое 408 2401080
5884 университета 409 2406556
5867 империи 410 2405470
5864 начала 411 2410104
5846 великобритании 412 2408552
5845 ум 413 2413985
5823 федерации 414 2410722
5819 ряд 415 2414885
5789 чел 416 2408224
5783 основные 417 2411511
5779 ввп 418 2415622
5769 всё 419 2417211
5758 москве 420 2418360
5741 управления 421 2416961
5734 произведения 422 2419748
5719 андрей 423 2419137
5710 права 424 2421040
5704 районе 425 2424200
5703 развития 426 2429478
5693 союза 427 2430911
5679 согласно 428 2430612
5674 первые 429 2434146
5669 уильям 430 2437670
5631 совета 431 2426961
5624 просмотр 432 2429568
5621 общества 433 2433893
5611 го 434 2435174
5607 италия 435 2439045
5590 существует 436 2437240
5590 премии 437 2442830
5589 мире 438 2447982
5567 описание 439 2443913
5564 завод 440 2448160
5554 имеют 441 2449314
5553 метро 442 2454426
5553 данных 443 2459979
5549 теории 444 2463756
5535 сам 445 2463075
5530 карл 446 2466380
4908 степени 508 2493264
4907 ней 509 2497663
4901 позже 510 2499510
4897 генерал 511 2502367
4895 данные 512 2506240
4888 основном 513 2507544
4886 виктор 514 2511404
4882 тот 515 2514230
4874 культуры 516 2514984
4873 действия 517 2519341
4865 частности 518 2520070
4860 люди 519 2522340
4849 статус 520 2521480
4849 дом 521 2526329
4847 деятельность 522 2530134
4845 большинство 523 2533935
4842 украина 524 2537208
4836 советский 525 2538900
4832 вскоре 526 2541632
4829 тысяч 527 2544883
4823 главным 528 2546544
4817 европы 529 2548193
4816 образование 530 2552480
4781 названия 531 2538711
4773 республика 532 2539236
4772 первых 533 2543476
4767 юго 534 2545578
4763 американский 535 2548205
4758 длина 536 2550288
4747 журнал 537 2549139
4734 ныне 538 2546892
4731 французский 539 2550009
4726 кто 540 2552040
4709 первым 541 2547569
4708 борис 542 2551736
4707 годов 543 2555901
4202 главы 604 2538008
4197 правило 605 2539185
4193 момент 606 2540958
4180 компания 607 2537260
4177 начал 608 2539616
4177 каждый 609 2543793
4159 детей 610 2536990
4151 московский 611 2536261
4142 испании 612 2534904
4132 влияние 613 2532916
4132 павел 614 2537048
4117 формы 615 2531955
4116 советского 616 2535456
4115 целью 617 2538955
4108 конца 618 2538744
4087 орден 619 2529853
4068 москвы 620 2522160
4063 другими 621 2523123
4055 св 622 2522210
4055 населённые 623 2526265
4044 кг 624 2523456
4042 плотность 625 2526250
4039 сан 626 2528414
4034 император 627 2529318
4024 разных 628 2527072
4021 путь 629 2529209
4016 числа 630 2530080
4016 отец 631 2534096
4013 писатели 632 2536216
Цитата: Солохин от июня 14, 2009, 19:58
Вот несколько фрагментов частотного списка из Википедии.
Что это за список?
P. S. Можно просто ссылку дать. Зачем рулоны-то копировать?
Цитата: myst от июня 14, 2009, 19:55
Эти подойдут?
Строго говоря, не подойдут.
Что несколько подряд слов чстотного списка, имеющих почти одинковый номер и почти одинаковую частоту, дают одно и то же произведение частоты на номер - это совсем не удивительно.
Удивительно, что это произведение оказывается практически одинаоквым у слова №200, слова № 400, слова № 1000, слова № 3000 - к сожалению, у меня под рукой сейчас нет такого длинного списка, чтобы это продемонстрровать...
Цитата: myst от июня 14, 2009, 20:00
Цитата: Солохин от июня 14, 2009, 19:58
Вот несколько фрагментов частотного списка из Википедии.
Что это за список?
Словник из Википедии. Он очень длинный, и я не сохранил его целиком, только фрагмент.
ССылку сейчас поищу...
ЦитироватьP. S. Можно просто ссылку дать. Зачем рулоны-то копировать?
Виноват.
Вот пример большого частотного словника
http://rapidshare.com/files/2419971/ruwiki-fr.zip.html
Статья в Википедии, где обсуждается этот материал здесь
http://ru.wikipedia.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F:%D0%A7%D0%B0%D1%81%D1%82%D0%BE%D1%82%D0%BD%D1%8B%D0%B9_%D1%81%D0%BB%D0%BE%D0%B2%D0%BD%D0%B8%D0%BA
А я брал отсюда
http://ru.wikipedia.org/wiki/%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Zserghei/%D0%A7%D0%B0%D1%81%D1%82%D0%BE%D1%82%D0%BD%D1%8B%D0%B9_%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C
Опс!
Виноват, отсюда. Но там то же самое по идее.
http://ru.wiktionary.org/wiki/%D0%9A%D0%BE%D0%BD%D0%BA%D0%BE%D1%80%D0%B4%D0%B0%D0%BD%D1%81:%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%BE%D1%8F%D0%B7%D1%8B%D1%87%D0%BD%D0%B0%D1%8F_%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F
Это неправильный словарь, что слово категория - третье. Скорее всего, он по материалам самой вики.
А последний - правильный.
Хотя нет, тоже из вики.
Цитата: Солохин от июня 14, 2009, 17:54
Не знаю, как объяснить аномалию с ИСПАНСКИМ, БЕНГАЛЬСКИМ, ПОРТУГАЛЬСКИМ, но подозреваю что-то в этом же роде, какую-то политику...
Никакой политики. Просто количество носителей, а также тех, для кого язык является вторым. Для русского цифра получена так:
Цитировать165 million native, 110 million second language = 275 million total
http://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers
Это всего лишь одна из оценок.
Впрочем, думаю, я не зря поместил здесь фрагменты своей таблицы.
Я же не просто скопировал информацию из Вики, а предварительно обработал ее, пронумеровав слова и вычислив произведение номера слова на его частоту для каждого слова (а их в списке более 3000!). Конечно, каждому, кто умеет пользоваться Exel-ем, это нетрудно проделать самому - на это нужно каких-то пятнадцать минут.
Но зачем делать одну и ту же работу дважды?!
Я, кстати, сейчас обработал "хвост" списка.
Вот несколько фрагментов.
Начало списка:
92604 от 12 1111248
92051 до 13 1196663
87933 как 14 1231062
86517 его 15 1297755
86486 что 16 1383776
83811 г 17 1424787
80276 также 18 1444968
77918 фильм 19 1480442
76556 году 20 1531120
72236 был 21 1516956
69997 о 22 1539934
67107 за 23 1543461
66451 года 24 1594824
65573 или 25 1639325
63094 при 26 1640444
Ближе к началу, но уже не начало
5067 член 491 2487897
5061 английский 492 2490012
5051 петербург 493 2490143
5043 расположен 494 2491242
5043 дней 495 2496285
5029 всегда 496 2494384
5014 веке 497 2491958
4992 мировой 498 2486016
4992 линии 499 2491008
Середина списка:
2514 америки 1095 2752830
2510 сценарист 1096 2750960
2507 совершенно 1097 2750179
2506 источники 1098 2751588
2504 вследствие 1099 2751896
2501 использования 1100 2751100
2501 провинция 1101 2753601
2501 записи 1102 2756102
2499 имеется 1103 2756397
2498 вильгельм 1104 2757792
Ближе к концу
1381 нефти 2165 2989865
1380 народной 2166 2989080
1379 рима 2167 2988293
1379 залив 2168 2989672
1378 печати 2169 2988882
1378 появилась 2170 2990260
1378 агломерация 2171 2991638
1377 птицы 2172 2990844
1376 причиной 2173 2990048
1373 северного 2174 2984902
Конец списка
1004 успеха 3098 3110392
1003 форум 3099 3108297
1003 японский 3100 3109300
1003 медали 3101 3110303
1002 фотокамера 3102 3108204
1002 целях 3103 3109206
1002 британской 3104 3110208
1002 бывает 3105 3111210
1002 нашего 3106 3112212
1001 фантастические 3107 3110107
1001 физические 3108 3111108
1001 предметов 3109 3112109
1001 обратно 3110 3113110
1000 брюс 3111 3111000
1000 виталий 3112 3112000
1000 контроля 3113 3113000
Впечатляет, правда?
Причем прошу учесть: Википедия с точки зрения закона Ципфа - это настоящий АД! Какая уж там "цельность текста" в Энциклопедии, составленной притом РАЗНЫМИ АВТОРАМИ!?
Тот факт, что слово "категория" в этом словнике оказалось таким же частым, как
предлоги "с" и "по" - красноречиво говорит о том, как плохо Ципфу в Википедии, ведь соответствие закону Ципфа - это некая интуитивно ощущамемая мера цельности и гармонии текста...
Цитата: arseniiv от июня 14, 2009, 20:32Хотя нет, тоже из вики.
Увы, в электронном виде Вики доминирует...
Цитата: Солохин от июня 14, 2009, 17:54
Русский (славянская ветвь; восточнославянская подгруппа) 275
Это каким образом подсчитано? :o
Цитата: Xico от июня 14, 2009, 20:37
Это всего лишь одна из оценок.
Оценка высоссаная из пальца. Население бывшего СССР - не есть "носители русского языка", так как прошло 20 лет и выросло уже одно поколение, которое не изучало русский язык.
Цитата: Roman от июня 14, 2009, 21:07
выросло уже одно поколение, которое не изучало русский язык.
Не изучало, но активно учит, точнее учило до начала кризиса на рынках и стройках.
Цитата: Солохин от июня 14, 2009, 20:59
Я же не просто скопировал информацию из Вики, а предварительно обработал ее, пронумеровав слова и вычислив произведение номера слова на его частоту для каждого слова (а их в списке более 3000!).
Посмотрите словарь Шарова, на который я дал ссылку. В нём уже всё пронумеровано. Если мне память не изменяет, на странице автора есть информация о использованном корпусе и пр.
Цитата: Xico от июня 14, 2009, 21:10
Не изучало, но активно учит, точнее учило до начала кризиса на рынках и стройках.
Их тоже посчитали за носителей? :o
Цитата: myst от июня 14, 2009, 21:13
Их тоже посчитали за носителей?
Иначе откуда взять 110 000 человек. Сюда же, видимо, включили русскоязычных эмигрантов.
Население СССР в 1989 году составляло 286 миллионов человек.
Тем, кто заботится о судьбах русского языка, будет интересно обратить внимание на то обстоятельство, что в обоих помещенных мною таблицах русский язык "выпирает" из распределения Ципфа ВВЕРХ.
То есть, если закон Ципфа - это некий неведомый нам закон природы, то согласно этому закону нас СЛИШКОМ МНОГО.
Слишком много тех, кто умеет говорить по русски (245 млн) - чтобы привести эту цифру в соответствие с Ципфом, надо уменьшить ее на треть!
НО слишком много даже и тех, кто считает русский родным!
Если убрать из расчета тех, для кого русский не родной, мы сразу отодвигаемся в списке дальше от первого места. Но номер в частотном списке от этого возрастает, и произведение опять-таки оказывается слишком большим.
Этот закон Ципфа прямо хочет сжить нас со свету!
...
Меня так весьма расстраивает этот вывод.
Цитата: myst от июня 14, 2009, 21:11Посмотрите словарь Шарова, на который я дал ссылку. В нём уже всё пронумеровано. Если мне память не изменяет, на странице автора есть информация о использованном корпусе и пр.
Спасибо! Очень хороший материал.
Я его тут же и обработал.
Вот несколько фрагментов из этого колоссального списка. Самые первые слова - аномально редкие с точки зрения Ципфа. Произведение частоты на номер 40-70 тыс.
37822,42 и 1 37822,42
28835,46 в 2 57670,92
22211,5 не 3 66634,5
17862,57 на 4 71450,28
13406,71 что 5 67033,55
12106,62 с 6 72639,72
7687,66 то 7 53813,62
7685,77 я 8 61486,16
7548,01 он 9 67932,09
7319,2 как 10 73192
Вот слова из середины списка. Произведение здесь уже окло 100 тыс.
8,82 обеспечивает 11138 98237,16
8,82 таковой 11139 98245,98
8,82 стон 11140 98254,8
8,82 раздражением 11141 98263,62
8,75 иконы 11142 97492,5
8,75 жесткой 11143 97501,25
8,75 освободиться 11144 97510
И вот конец той части списка, которую "потянул" Exel. альше он сказал crack и не смог считать.
4,7 коммерческих 19987 93938,9
4,7 непонимание 19988 93943,6
4,7 бокса 19989 93948,3
4,7 покидает 19990 93953
4,7 пожевал 19991 93957,7
4,7 террора 19992 93962,4
4,7 жадности 19993 93967,1
4,7 достоинств 19994 93971,8
4,7 молодом 19995 93976,5
4,7 мечтах 19996 93981,2
4,7 революционеров 19997 93985,9
4,7 упрек 19998 93990,6
4,7 создавали 19999 93995,3
4,7 волшебной 20000 94000
Впечатляет, правда? Опять около 100 000...
Что же это такое, люди?
Кто-нибудь когда-нибудь объяснит мне, откуда берется эта странная закономерность?!
Меня не очень. Не вижу обещанной константы. :donno:
Цитата: Солохин от июня 14, 2009, 20:59
Увы, в электронном виде Вики доминирует...
Чого? Вы хотите сказать, что в Википедии собрано более чем половина русских интернетных статей?? :o Она же сравнительно недавно появилась
Цитата: Солохин от июня 15, 2009, 02:28
Кто-нибудь когда-нибудь объяснит мне, откуда берется эта странная закономерность?!
А существующее объяснение вам не нравится? Оно вполне приличное. Статистическое, как и может быть с языками.
А мне как-то непонятно изумление автора топика по поводу "загадочной закономерности". Есть целая куча всяких статистических закономерностей, описывающих те или иные явления окружающего мира. Конкретно для частотности слов в языке подходит распределение Ципфа...
Цитата: Солохин от июня 14, 2009, 18:09
Самый сиьлный аргумент в пользу статистической природы Ципфа - тот факт, что "тексты", выдаваемые генератором случайных цепочек символов, тоже имеют распределение Ципфа. Но этот аргумент отнюдь не решающий: все-таки Дрстоевский никак не является генератором случайных цепочек символов... цепочки, выдаваемые генератором, четко распределены по длине "слова" - длинные слова встречаются редко. В естественных языках это совсем не так. Хотя самые частые слова, конечно, как правило короче, но свести к этому обстоятельству закон Ципфа никак не получится...
Ну , в принципе, со статистической точки зрения, Достоевский - ничем не худший генератор случайных цепочек, чем программа-генератор... закон распределения только отличается :) А вот если смещать его с Толстым, у которого чуть другой закон, произойдет "усреднение" и текст будет лучше соответствовать закону Ципфа... А Википедия с ее множеством авторов - еще лучшее усреднение... Я ничего удивительного не вижу, и меня вполне устраивает объяснение Википедии, что
ЦитироватьZipf's law does not seem to shed any light on the linguistic structure of language, but is rather an artifact of using letters to spell words
Кстати, согласно той же статье, распределение Ципфа - это дискретный аналог непрерывного распределения Парето, того самого, что иногда упрощенно описывается фразой "20% населения распоряжается 80% доходов".
Цитата: Солохин от июня 14, 2009, 20:59
соответствие закону Ципфа - это некая интуитивно ощущамемая мера цельности и гармонии текста...
откуда такой вывод? скорее наоборот - мера статистической "похожести" текста на бессмысленный набор символов с неким идеальным законом распределения...
Цитата: Солохин от июня 14, 2009, 21:30
если закон Ципфа - это некий неведомый нам закон природы, то согласно этому закону нас СЛИШКОМ МНОГО
Да ладно. Если для слов в языке в начале списка соответствие нарушается, и это нормально, почему не может быть того же феномена для наиболее распространенных языков? :)
Если какая-то часть данных не согласуется с некой закономерностью, значит, существует еще один влияющий фактор. В данном случае - исторически обусловленный (активная экспансионистская политика носителей соотв. языка в тот или иной исторический период).
Цитата: myst от июня 15, 2009, 11:41
Меня не очень. Не вижу обещанной константы
Да не, константа просматривается, правда она не совсем константа :) - плывет малость и шумит по ходу... На графике более убедительно бы выглядело.
Цитата: Солохин от июня 14, 2009, 19:58
44356 США 32 1419392
43722 после 33 1442826
43696 россии 34 1485664
Список сам себе соврал. :D
Цитата: RawonaM от июля 6, 2009, 13:28
Список сам себе соврал. :D
Чего не сделаешь, чтобы потешить самолюбие россиян. ;D
Цитата: arseniiv от июня 15, 2009, 17:27
А существующее объяснение вам не нравится? Оно вполне приличное. Статистическое, как и может быть с языками.
Цитата: ettaine от июля 5, 2009, 22:27Есть целая куча всяких статистических закономерностей, описывающих те или иные явления окружающего мира. Конкретно для частотности слов в языке подходит распределение Ципфа...
Нет, реальная ситуация совсем иная.
В статистике вообще нет такого распределения как "закон Ципфа". Закон Ципфа - это просто-напросто эмпирический факт.
Он не выводится из каких-либо статистических соображений.
Цитировать
Достоевский - ничем не худший генератор случайных цепочек, чем программа-генератор...
Нет, Достоевский - очень плохой генератор случайных чисел. Именно с точки зрения статистики тексты Достоевского НИЧЕГО ОБЩЕГО не имеют со случайными цепочками знаков.
Никоим образом ниоткуда не выводится, что слова у Достоевского должны быть распределены так же, как цепочки случайных букв. И тот факт, что тем не менее Достоевской пишет по Ципфу, не может не поражать всякого, кто хоть маломальски смыслит в статистике.
Цитата: ettaine от июля 5, 2009, 22:27
А вот если смещать его с Толстым, у которого чуть другой закон, произойдет "усреднение" и текст будет лучше соответствовать закону Ципфа... А Википедия с ее множеством авторов - еще лучшее усреднение..
Наоборот. Отдельно Достоевский и отдельно Толствой дают Ципфа лучше, чем Достоевский+Толстой вперемешку.
А что Вики довольно плохо соотвествует Ципфу - это видно из моего примера выше.
Цельный и закончен
ный высокохудожественный текст как правило лучше соответствует Ципфу, чем бездарный - или просто набор рассказов разных авторов.
Цитата: ettaine от июля 5, 2009, 22:27
скорее наоборот - мера статистической "похожести" текста на бессмысленный набор символов с неким идеальным законом распределения...
Нет, в том-то и дело, что именно так, как я сказал.
Попытки объяснить Ципфа статистикой до сих пор не увенчались успехом.
Цитата: ettaine от июля 5, 2009, 22:27
мне как-то непонятно изумление автора топика по поводу "загадочной закономерности".
Есть целая куча всяких статистических закономерностей, описывающих те или иные явления окружающего мира.
Просто я имею соответствующее образование.
И говорю со всей ответственностью за свои слова: закон Ципфа - одна из вопиющих загадок природы.
Цитата: Солохин от мая 4, 2010, 21:18
Цельный и закончен
ный высокохудожественный текст как правило лучше соответствует Ципфу, чем бездарный
Уж это-то точно придумали.
Цитата: arseniiv от мая 6, 2010, 16:23
Уж это-то точно придумали.
Надо проанализировать «Евгения Онегина» и повесть моего друга Матвея.
Ну, и какие результаты?
А какие по вкусу?
Нетути текста повести Матвея и программы. которая бы анализировала. Хм. Надо поискать программу для анализа.
Цитата: Вадимий от мая 7, 2010, 15:15
программы. которая бы анализировала
Посчитать частоту слов в тексте — это ну очень сложно.
Текст-то немалый, вручную не счесть.
Цитата: Вадимий от мая 7, 2010, 15:50
Текст-то немалый, вручную не счесть.
Зачем вручную? :o Программа тривиальней некуда.
Логично. Ну так прошу вас. Самому лень (хотя недавно кое-что похожее делал).
Берусь обеспечить бездуховным текстом.
Где этот чёртов отрывок.
Помню только строку: «Игорь уходи я вас прикрою!!!»
Цитата: Вадимий от мая 7, 2010, 16:00
Ну так прошу вас.
#!/bin/lisp
(setq in-stream (ext:make-stream :input :external-format charset:cp866))
(setq out-stream (ext:make-stream :output :external-format charset:cp1251))
(setq delimiters "[ ,.?]")
(setq word-counts (make-hash-table :test #'equal))
(setq word-number 0)
(regexp:with-loop-split (words in-stream delimiters)
(map nil
(lambda (word)
(unless (equal word "")
(incf word-number)
(unless (gethash word word-counts)
(setf (gethash word word-counts) 0))
(incf (gethash word word-counts))
)
)
words
)
)
(maphash
(lambda (word count)
(format out-stream "~A~50T~,10F~%" word (/ count word-number))
)
word-counts
)
Enjoy! (Надо только кодировки и разделители не забыть настроить.)
Дякую. :yes:
шо за язык-то?
Вы не могли бы выложить уж сразу результаты?
Повесть сейчас найду, ведь был где-то отрывок.
А Евгеий Онегин в интернете есть.
Цитата: Вадимий от мая 7, 2010, 16:25
шо за язык-то?
См. первую строчку
Цитата: Вадимий от мая 7, 2010, 16:25
Вы не могли бы выложить уж сразу результаты?
Повесть сейчас найду, ведь был где-то отрывок.
А Евгеий Онегин в интернете есть.
И рыбку съесть и...? :negozhe:
что? какую рыбку?
Цитата: Вадимий от мая 7, 2010, 16:36
что? какую рыбку?
И программу дай и посчитай. Кому надо-то, мне?
Аццки логично.
Но я понятья не имею, в чём это вообще исполнять :donno:
Цитата: Вадимий от мая 7, 2010, 16:50
Но я понятья не имею, в чём это вообще исполнять :donno:
http://clisp.cons.org/
Или переписать на своём любимом языке. ;)
спасибо
Как должны соотноситься количества слов?
А?
Цитата: myst от мая 7, 2010, 18:44
А?
Нет уж, явно ведь не так. :???
Вот получу я, допустим, связанные значения длины слова и количества таких слов, что делать-то с ними?
Цитата: arseniiv от мая 7, 2010, 20:41
Вот получу я, допустим, связанные значения длины слова и количества таких слов, что делать-то с ними?
Какой ещё длины слова, Вы о чём? :what:
Тогда я запутался. Что надо сделать со словами?
Цитата: arseniiv от мая 10, 2010, 10:33
Тогда я запутался. Что надо сделать со словами?
Упорядочить по частоте употребления вроде. :donno:
Дальше не знаю, но формула где-то должна быть...