Лингвофорум

Теоретический раздел => Прикладная лингвистика => Компьютерная лингвистика => Тема начата: ostap.rest от января 12, 2011, 09:53

Название: Закон Ципфа и корпусная лингвистика
Отправлено: ostap.rest от января 12, 2011, 09:53
В связи с прогрессом корпусной лингвистики есть ли новые подтверждения/опровержения закона Ципфа в области малых частот?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 10:20
Цитата: ostap.rest от января 12, 2011, 09:53
В связи с прогрессом корпусной лингвистики есть ли новые подтверждения/опровержения закона Ципфа в области малых частот?
Как понять опровержения? Это ж факт вроде.

Может вы объяснения ищите. Этого пока вроде не открыли. Но судя по тому, что закон Ципфа действует и для случайно сгенерированных "текстов" (просто цепочки символов) и для населений столиц и прочего, то в принципе не удивительно, что он действует и на реальном языке.

Впрочем, я не в курсе, чисто общие сведения имею :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: smith371 от января 12, 2011, 10:22
а чего эт вообще такое?????
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 10:34
Вот первые частотные слова русского языка (словарь Шарова):
Цитировать
37822.42  1 и
28835.46  1 в
22211.50  2 не
17862.57  2 на
13406.71  3 что
12106.62  1 с
7687.66  2 то
7685.77  1 я
7548.01  2 он
7319.20  3 как
6284.76  1 а
6036.88  2 по
5883.97  1 к
5596.25  3 его
5256.53  3 все
5196.11  2 из
5026.35  2 за
4897.08  3 это
4752.27  1 у
4271.53  2 же
3890.60  2 от
Где тут закон Ципфа?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: ostap.rest от января 12, 2011, 10:35
ЦитироватьКак понять опровержения?
Точнее сказать "отклонения". Для нас.пунктов, напр., наблюдается отклонения при малых размерах - т.е. малых сел, хуторов за законом Ципфа должно было бы быть значительно больше, чем есть на самом деле.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: smith371 от января 12, 2011, 10:36
Цитата: myst от января 12, 2011, 10:34
Вот первые частотные слова русского языка (словарь Шарова):
Цитировать
37822.42  1 и
28835.46  1 в
22211.50  2 не
17862.57  2 на
13406.71  3 что
12106.62  1 с
7687.66  2 то
7685.77  1 я
7548.01  2 он
7319.20  3 как
6284.76  1 а
6036.88  2 по
5883.97  1 к
5596.25  3 его
5256.53  3 все
5196.11  2 из
5026.35  2 за
4897.08  3 это
4752.27  1 у
4271.53  2 же
3890.60  2 от
Где тут закон Ципфа?

а где "блин"????
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 10:36
Первые частотные слова на гиге с лихой моих рабочих текстов:
Цитировать
774307  1 в
511205  3 для
439198  1 и
270022  1 с
260246  2 на
237231  2 не
184577  3 или
149752  2 по
132186  6 данных
126264  4 если
126206  8 выберите
121707  1 к
120137  2 из
118137  3 имя
114939  5 можно
110095  3 при
  83911  8 значение
  70304  7 нажмите
  66264  5 чтобы
  63652  1 о
  62129  5 будет
  60709  3 как
И в каком месте этот закон выполняется?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: ostap.rest от января 12, 2011, 10:44
ЦитироватьГде тут закон Ципфа?
возьмите пару тысяч слов, постройте график (в логарифм. координатах) "ранг слова" vs "частота слова" и увидите практически прямую линии (с некоторым отклонением в области высоких частот - т.н. поправка Мандельброта)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 10:56
Цитата: ostap.rest от января 12, 2011, 10:44
возьмите пару тысяч слов, постройте график (в логарифм. координатах) "ранг слова" vs "частота слова" и увидите практически прямую линии (с некоторым отклонением в области высоких частот - т.н. поправка Мандельброта)
Зачем мне эти ваши графики?
Если сказано:
Цитата: http://ru.wikipedia.org/wiki/Закон_Ципфа
Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.
Безо всяких графиков видно, что сабж не выполняется.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 11:09
Цитата: myst от января 12, 2011, 10:36
Первые частотные слова на гиге с лихой моих рабочих текстов:
Построй логарифмический график на все слова (ну или там, хотя бы сотню). Интересно посмотреть.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 11:30
log-log по Шарову:
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 11:30
Очевидно, что закон Ципфа выполняется.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 11:50
Цитата: RawonaM от января 12, 2011, 11:30
Очевидно, что закон Ципфа выполняется.
Ога, 37822.42 в 2 раза больше, чем 28835.46, и в три раза чем 22211.50. :green:
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 11:51
Цитата: RawonaM от января 12, 2011, 11:30
log-log по Шарову:
А чего это ты леммы-то взял, а? Реальный текст, что, из лемм состоит?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 11:53
Куда у тебя и исчезло?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 11:55
У тебя вообще список какой-то левый. Ты где его взял?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 12:23
Цитата: RawonaM от января 12, 2011, 12:23
У тебя вообще список какой-то левый. Ты где его взял?
http://dict.ruslang.ru/freq.php?act=show&dic=freq_freq&title=Частотный список лемм (http://dict.ruslang.ru/freq.php?act=show&dic=freq_freq&title=%D7%E0%F1%F2%EE%F2%ED%FB%E9%20%F1%EF%E8%F1%EE%EA%20%EB%E5%EC%EC)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 12:42
Леммы — это уже неинтересно. Я брал списки с его сайта, который умер, и в них другие цифры. Где в этом списке и, например?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 12:44
Цитата: lemma.num
1 36358.94 и misc
2 27792.36 в prep
3 20689.51 не misc
4 18942.62 он pron
5 16588.14 на prep
6 15631.11 я pron
7 12546.08 что misc
8 11398.44 тот adjpron
9 11223.99 быть verb
10 11150.72 с prep
11 9808.61 а misc
12 8604.72 весь adjpron
13 8043.90 это pron
14 7313.35 как misc
15 7110.80 она pron
16 5735.64 по prep
17 5672.65 но misc
18 5592.16 они pron
19 5455.05 к prep
20 5033.86 у prep
21 4863.63 ты pron
22 4787.36 из prep
Чувствуешь разницу?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 12:48
Дай кошерный список, построим график :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 12:58
На. :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 13:06
А ты экономно скачиваешь. :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 13:08
Просю. По словам.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 13:09
Цитата: myst от января 12, 2011, 13:06
А ты экономно скачиваешь. :)
А чего мне свой кровный траф тратить :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 13:17
Ну и что этот график значит?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 13:19
Ты не находишь, что что-то неладно в этой сказке?
100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 14:28
Цитата: myst от января 12, 2011, 13:19
Ты не находишь, что что-то неладно в этой сказке?
100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
Смотри на график, там все видно. Первые 20-30 слов не точно попадают, дальше уже строго ровная линия и все сходится. Например, тысячное слово в десять раз реже сотого.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 14:38
Цитата: RawonaM от января 12, 2011, 14:28
Смотри на график, там все видно. Первые 20-30 слов не точно попадают, дальше уже строго ровная линия и все сходится. Например, тысячное слово в десять раз реже сотого.
Тогда почему
Цитата: myst от января 12, 2011, 13:19
100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
, ась?

График какой-то мутный, аднака.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: Wolliger Mensch от января 12, 2011, 14:46
График нормальный, как я понимаю: 10-е слово — 10000, 100-е слово — 1000,  1000-е слово — 100, 10000-е слово — 10. Везде пять нулей.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 14:50
Не-не-не, нам обещали:
Цитата: http://ru.wikipedia.org/wiki/Закон_Ципфа
Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 14:52
Цитата: myst от января 12, 2011, 14:38
Тогда почему
Цитировать100 должно быть в сто раз реже первого , 1000 в тысячу, а это не так.
, ась?
Ты что, филолух? :) Говорят же, усреднно, по графику, тенденция. Да и вообще в любой статистике концы отбрасываются. Убери первые 30 слов, они не совсем точно попадают, хотя и видно, что находятся близко к прямой.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 15:01
Цитата: RawonaM от января 12, 2011, 14:52
Ты что, филолух? :)
(Прищурив глаз) Так, у нас точная наука или вилы на воде?
В русовике правильно написано? Тогда пачиму сотое не в сто раз реже первого?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 15:02
Откинул первые 30: 1 — 2551.84; 100 — 666.50. :eat:
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 15:05
Цитата: myst от января 12, 2011, 15:01
В русовике правильно написано? Тогда пачиму сотое не в сто раз реже первого?
Неправильно написано. Закон гласит, что частота в среднем обратно пропорциональна порядковому месту. Что мы и наблюдаем, с некоторыми отклонениями в первой тридцатке.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 15:09
Цитата: RawonaM от января 12, 2011, 15:05
Неправильно написано. Закон гласит, что частота в среднем обратно пропорциональна порядковому месту. Что мы и наблюдаем, с некоторыми отклонениями в первой тридцатке.
То есть 1, 1/2, 1/3, 1/4,... :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 15:10
И что значит в среднем?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 15:43
Цитата: myst от января 12, 2011, 15:10
И что значит в среднем?
Т.е. если пригладить график утюгом :)

Цитата: myst от января 12, 2011, 15:02
Откинул первые 30: 1 — 2551.84; 100 — 666.50. :eat:
Вот смотри, ты взял 30-ое и 130-ое слово.
2552*30=76500
666*130=86580

Какое еще взять? берем 1000-ое:
86*1000=86000
19*5000=95000
9.8*10000=98000

По идее по Ципфу все цифры должны быть равны усредненно, это можно проверить, но не я же буду это делать. :) Может тут еще какой-то дополнительный закон можно открыть. :)
Но очевидно, что график почти прямой. Нет ни единой значительно отклоняющейся точки. Как объяснить?
Название: Закон Ципфа и корпусная лингвистика
Отправлено: Wolliger Mensch от января 12, 2011, 15:45
Цитата: myst от января 12, 2011, 15:10
И что значит в среднем?

Так это всегда так.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 15:47
По-хорошему нужно делать так: берешь среднее арифметическое от 990-1010, это представляет тысячное слово какбэ и т.п.
Сейчас времени нет, но потом это в НЛТК загоню, когда будет :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 15:50
Цитата: RawonaM от января 12, 2011, 15:43
2552*30=76500
666*130=86580
:negozhe: Мы же выкинули первые тридцать.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 15:51
Цитата: RawonaM от января 12, 2011, 15:43
По идее по Ципфу все цифры должны быть равны усредненно, это можно проверить, но не я же буду это делать. :) Может тут еще какой-то дополнительный закон можно открыть. :)
Но очевидно, что график почти прямой. Нет ни единой значительно отклоняющейся точки. Как объяснить?
А ты масштаб ещё уменьши, ровнее будет. ;)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 15:58
Я еще не математик и даже еще статистику не учил, не могу объяснить, почему "концы" выбиваются из колеи.
Примерно так: первое слово должно быть среднее арифметическое между всеми порядковый номер*частотность. Ты делаешь как филолух: первое слово у тебя не это число, значит весь график неправильный и никакой тенденции тут нет.

Найди язык, в котором 100-ое слово будет в 2 раза частонее тысячного. Можешь? :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 16:21
Ну ладно, и какие выводы? :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 16:31
Цитата: myst от января 12, 2011, 16:21
Ну ладно, и какие выводы? :)
А зачем выводы? Мы и так хорошо беседуем :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: Alone Coder от января 12, 2011, 16:39
Не вижу никакого закона Ципфа тут. График отчётливо изгибается вниз. Чистый Ципф вообще невозможен, поскольку натуральный ряд расходится.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 16:40
Цитата: Alone Coder от января 12, 2011, 16:39
Не вижу никакого закона Ципфа тут. График отчётливо изгибается вниз. Чистый Ципф вообще невозможен, поскольку натуральный ряд расходится.
Значит тут грязный Ципф? :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: myst от января 12, 2011, 16:41
Чумазый. :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 16:41
График не рандомальный, а имеет определенную форму — это и есть закон Ципфа. Остальное — уточнения.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: Alone Coder от января 12, 2011, 16:42
Естественно, не рандомальный! Вы же отсортировали слова по убыванию частоты!
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от января 12, 2011, 16:46
Цитата: Alone Coder от января 12, 2011, 16:42
Естественно, не рандомальный! Вы же отсортировали слова по убыванию частоты!
Не понял. Ну отсортировал, и? Это только значает, что значения будут постоянно снижаться.
Но они же снижаются определенным образом, а не любыми скачками.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: Artemon от января 15, 2011, 02:22
Цитата: ostap.rest от января 12, 2011, 10:44
ЦитироватьГде тут закон Ципфа?
возьмите пару тысяч слов, постройте график (в логарифм. координатах) "ранг слова" vs "частота слова" и увидите практически прямую линии (с некоторым отклонением в области высоких частот - т.н. поправка Мандельброта)
Myst, ну вот же тут было объяснено, почему нет абсолютной точности. Математика - это абстракция, жизнь полнится аллошками. :)
Название: Закон Ципфа и корпусная лингвистика
Отправлено: Тайльнемер от февраля 4, 2011, 13:00
Цитата: lemma.zip от
. . .
77 1345.29 чем misc
78 1329.93 глаз noun
79 1317.07 жизнь noun
80 1292.77 первый ord
81 1286.04 день noun
82 1262.47 тута adv
83 1236.40 во prep
84 1232.17 ничто pron
85 1216.99 потом adv
86 1214.24 очень adv
87 1195.33 со prep
. . .
:o
Название: Закон Ципфа и корпусная лингвистика
Отправлено: Chilly от марта 24, 2011, 21:15
Парни, а у кого есть программа, позволяющая считать ???? и как можно воспользоваться ею ????
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от марта 24, 2011, 21:34
Что нужно посчитать ????
Название: Закон Ципфа и корпусная лингвистика
Отправлено: Alchemist от марта 24, 2011, 21:43
Насколько я понял, посчитать нужно слова и поставить их в порядке убывания частоты... Желательно, конечно, тут же график  ;up: Было бы круто...
Название: Закон Ципфа и корпусная лингвистика
Отправлено: RawonaM от марта 24, 2011, 22:08
Сортировка и график элементарно в экселе делается.
Считать слова это уже сложнее. Незачем их считать, уже посчитано давно.
Название: Закон Ципфа и корпусная лингвистика
Отправлено: Chilly от марта 29, 2011, 10:12
Спасибо то: Alchemist и RawonaM за ответ
Согласен, что подсчитано, но встречаются специфические тексты со специфическим уклоном, скажем философско-художественное "произведение" или историко-публицистическое. Ну, вообщем, их достаточно. Специфика определяется использованием (простите за тафтологию) специфической терминологией и понятиями (сюжет мы опускаем). Вот и стоит задача посчитать эти самые, их соотношение ко всем остальным ...... и прочее. Тоже задача специфическая ;) Вот и хотелось бы разжиться программкой и конечно же чтобы отображение графиков и регулировка "отсечки".......и прочее
Посему и вопрос - какой программой (если она есть) можно  воспользоваться, или какой техникой подсчета и отображения