Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Закон Ципфа и корпусная лингвистика

Автор ostap.rest, января 12, 2011, 09:53

0 Пользователи и 1 гость просматривают эту тему.

ostap.rest

В связи с прогрессом корпусной лингвистики есть ли новые подтверждения/опровержения закона Ципфа в области малых частот?

RawonaM

Цитата: ostap.rest от января 12, 2011, 09:53
В связи с прогрессом корпусной лингвистики есть ли новые подтверждения/опровержения закона Ципфа в области малых частот?
Как понять опровержения? Это ж факт вроде.

Может вы объяснения ищите. Этого пока вроде не открыли. Но судя по тому, что закон Ципфа действует и для случайно сгенерированных "текстов" (просто цепочки символов) и для населений столиц и прочего, то в принципе не удивительно, что он действует и на реальном языке.

Впрочем, я не в курсе, чисто общие сведения имею :)

smith371

Alii! Ke ua ngerang? Ak outkeu er kau el me er a bliongel el kirel a tekoi er a Belau! Sulang.

Подвергал, подвергаю и буду подвергать сомнению классификацию любых языков, описания которых нет в свободном доступе!

Злостный оверквотер, оверкиллер и... просто злостный.

myst

Вот первые частотные слова русского языка (словарь Шарова):
Цитировать
37822.42  1 и
28835.46  1 в
22211.50  2 не
17862.57  2 на
13406.71  3 что
12106.62  1 с
7687.66  2 то
7685.77  1 я
7548.01  2 он
7319.20  3 как
6284.76  1 а
6036.88  2 по
5883.97  1 к
5596.25  3 его
5256.53  3 все
5196.11  2 из
5026.35  2 за
4897.08  3 это
4752.27  1 у
4271.53  2 же
3890.60  2 от
Где тут закон Ципфа?

ostap.rest

ЦитироватьКак понять опровержения?
Точнее сказать "отклонения". Для нас.пунктов, напр., наблюдается отклонения при малых размерах - т.е. малых сел, хуторов за законом Ципфа должно было бы быть значительно больше, чем есть на самом деле.

smith371

Цитата: myst от января 12, 2011, 10:34
Вот первые частотные слова русского языка (словарь Шарова):
Цитировать
37822.42  1 и
28835.46  1 в
22211.50  2 не
17862.57  2 на
13406.71  3 что
12106.62  1 с
7687.66  2 то
7685.77  1 я
7548.01  2 он
7319.20  3 как
6284.76  1 а
6036.88  2 по
5883.97  1 к
5596.25  3 его
5256.53  3 все
5196.11  2 из
5026.35  2 за
4897.08  3 это
4752.27  1 у
4271.53  2 же
3890.60  2 от
Где тут закон Ципфа?

а где "блин"????
Alii! Ke ua ngerang? Ak outkeu er kau el me er a bliongel el kirel a tekoi er a Belau! Sulang.

Подвергал, подвергаю и буду подвергать сомнению классификацию любых языков, описания которых нет в свободном доступе!

Злостный оверквотер, оверкиллер и... просто злостный.

myst

Первые частотные слова на гиге с лихой моих рабочих текстов:
Цитировать
774307  1 в
511205  3 для
439198  1 и
270022  1 с
260246  2 на
237231  2 не
184577  3 или
149752  2 по
132186  6 данных
126264  4 если
126206  8 выберите
121707  1 к
120137  2 из
118137  3 имя
114939  5 можно
110095  3 при
  83911  8 значение
  70304  7 нажмите
  66264  5 чтобы
  63652  1 о
  62129  5 будет
  60709  3 как
И в каком месте этот закон выполняется?

ostap.rest

ЦитироватьГде тут закон Ципфа?
возьмите пару тысяч слов, постройте график (в логарифм. координатах) "ранг слова" vs "частота слова" и увидите практически прямую линии (с некоторым отклонением в области высоких частот - т.н. поправка Мандельброта)

myst

Цитата: ostap.rest от января 12, 2011, 10:44
возьмите пару тысяч слов, постройте график (в логарифм. координатах) "ранг слова" vs "частота слова" и увидите практически прямую линии (с некоторым отклонением в области высоких частот - т.н. поправка Мандельброта)
Зачем мне эти ваши графики?
Если сказано:
Цитата: http://ru.wikipedia.org/wiki/Закон_Ципфа
Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.
Безо всяких графиков видно, что сабж не выполняется.

RawonaM

Цитата: myst от января 12, 2011, 10:36
Первые частотные слова на гиге с лихой моих рабочих текстов:
Построй логарифмический график на все слова (ну или там, хотя бы сотню). Интересно посмотреть.


RawonaM


myst

Цитата: RawonaM от января 12, 2011, 11:30
Очевидно, что закон Ципфа выполняется.
Ога, 37822.42 в 2 раза больше, чем 28835.46, и в три раза чем 22211.50. :green:

myst

Цитата: RawonaM от января 12, 2011, 11:30
log-log по Шарову:
А чего это ты леммы-то взял, а? Реальный текст, что, из лемм состоит?


myst



myst

Леммы — это уже неинтересно. Я брал списки с его сайта, который умер, и в них другие цифры. Где в этом списке и, например?

myst

Цитата: lemma.num
1 36358.94 и misc
2 27792.36 в prep
3 20689.51 не misc
4 18942.62 он pron
5 16588.14 на prep
6 15631.11 я pron
7 12546.08 что misc
8 11398.44 тот adjpron
9 11223.99 быть verb
10 11150.72 с prep
11 9808.61 а misc
12 8604.72 весь adjpron
13 8043.90 это pron
14 7313.35 как misc
15 7110.80 она pron
16 5735.64 по prep
17 5672.65 но misc
18 5592.16 они pron
19 5455.05 к prep
20 5033.86 у prep
21 4863.63 ты pron
22 4787.36 из prep
Чувствуешь разницу?

RawonaM





RawonaM



Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр