Печать страницы - Частотность словосочетаний и закон Ципфа

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 21:31

Взявшись изучать английский язык, я с немалым удивлением обнаружил наличие отсутствия частотного словаря словосочетаний для этого наиболее изученного из всех языков.
Из чего я сделал предварительный вывод, что частотного словаря словосочетаний не найти, вероятно, ни для какого языка. Если уж нет для английского...
Я решился проделать эту небольшую научную работу самостоятельно и быстро понял, почему никто до меня этим делом всерьез не занимался. Прежде всего, для составления такого словаря необходима программа, способная осуществлять синтаксический анализ текста - то есть, выделять эти самые словосочетания. Такие программы либо дорого стоят, либо вообще засекречены - по-видимому, потому, что это напрямую связано с проблемой машинного перевода, где крутятся сейчас большие бабки.
Но все-таки я нашел бесплатную программу - синатксический анализатор для русского и английского языков, причем весьма неплохую по тактико-техническим характеристкам - как ни странно, русского производства. Мы таки в этом оказались почему-то впереди планеты всей.
ООО «Когнитивные технологии»
Россия, Москва, 117312, Проспект 60-летия Октября, 9, офис 709.
Тел. +7(495)135-5510
Факс +7(495)135-5088
e-mail info@cognitive.ru
WWW http://www.cognitive.ru
Условия пользования очень разумные:

Spoiler ⇓⇓⇓

a. Получатель может без взимания оплаты в любой форме распространять копии Программы в неизмененной форме всем, кто согласен с условиями этого лицензионного соглашения.
b. Получатель может распространять результаты, полученные с помощью Программы, третьим лицам без взимания оплаты в любой форме. С третьими лицами Получатель должен заключить лицензионное соглашение о не использовании этих результатов для коммерческих целей. Соглашение с третьими лицами должно содержать сроки и условия, по крайней мере, столь же защищающие права и интересы Изготовителя, как это Соглашение...
ДЛЯ ИСПОЛЬЗОВАНИЯ ПРОГРАММЫ В НЕКОММЕРЧЕСКИХ ЦЕЛЯХ В ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЯХ И ИССЛЕДОВАТЕЛЬСКИХ ЦЕНТРАХ СОГЛАШЕНИЕ ДОПОЛНЯЕТСЯ ПЕРЕЧИСЛЕННЫМИ НИЖЕ ПУНКТАМИ.

1. Права Получателя. Получатель, его студенты, или члены исследовательской группы могут использовать Программу для обучения и исследований.

2. Ограничения Получателя. Получатель, его студенты или члены исследовательской группы не должны никоим образом использовать Программу для любых коммерческих целей. Получатель полностью ответственен за любое запрещенное использование Программы им самим, его студентами или членами исследовательской группы. Получатель обязуется не предоставлять данные тестирования Программы для публикации без разрешения Изготовителя.

Недостаток - не совсем удобный для моей конкретной цели формат выдачи результатов анализа. Мне пришлось обрабатывать сравнительно небольшой объем текста, так как в противном случая я увязал в огромных выходных файлах, не имея сил и средств их обработать.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 21:40

Итак, я взял сравнительно небольшой текст на хорошем английском языке: 20 000 слов, 100 000 знаков.
И обработал его.
Вот что я получил.
Данный текст содержит 3170 различных слов. Программа выявила в нем 10 000 различных словосочетаний, из которых только 1400 словосочетаний встречаются 2 и более раз.
Я отбросил "хвост" из словосочетаний, которые встречаются лишь один раз и получил следующую картину:
номер | словосочетание | частота | квадрат частоты | произведение номера на квадрат частоты

Spoiler ⇓⇓⇓

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 21:41

Spoiler ⇓⇓⇓

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 21:43

Spoiler ⇓⇓⇓

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 21:44

Spoiler ⇓⇓⇓

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 21:44

Spoiler ⇓⇓⇓

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 21:56

Частотный словарь данного текста (как уже сказано, 3170 слов) имеет стандартное распределение Ципфа, так что частота слова
F ~ 1/N
где N - номер слова в частотном списке.
Это удивительное распределение, открытое в прошлом веке Ципфом, до сих пор не получило удовлетворительного объяснения. По-видимому, оно не сводится к известным законам математической статистики и не выводится из них.
Будучи физиком, я отношусь к этому спокойно. Не важно, почему планеты притягиваются по закону обратных квадратов - важно, что они это всегда делают. Это красиво и удобно для расчетов. Для меня закон Ципфа - это наблюдаемый факт, из которого надо исходить.

Я был уверен, что мои словосочетания окажутся распределенными по тому же самому закону Ципфа, ведь он кажется совершенно универсальным и ему подчиняются самые разные вещи: например, если расположить языки в список в порядке убывания числа говорящих на данном языке, то мы получим тот же самый закон Ципфа:
(число говорящих) ~ 1 / (номер языка в списке)
То же самое с футболистами по числу забитых голов, с городами по числу жителей и т.д и т.п. Закон Ципфа - это поистине удивительная и универсальная структура, постоянно "всплывающая" при статистических исследованиях окружающего мира.

Так вот, к моему удивлению оказалось, что мои словосочетания распределены НЕ по закону Ципфа!

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 22:05

Я, в натуре, тут же бросился искать закономерность, которой подчиняется построенная мною статистка.

И без труда нашел.
Оказывается, это ПОЧТИ закон Ципфа. Нечто очень близкое, похожее и явно родственное, но все-таки не то.

А именно.

КВАДРАТ частоты словосочетания оказался обратно пропорционален номеру словосочетания в частотном списке.

Скромно назовем это квадратичным законом Ципфа, оставляя мою фамилию в тени.
Напрашивается гипотеза.

Если закон Ципфа для одиночных слов 1/N,
а для ПАР слов - 1/N^1/2,
не окажется ли, что словосочетания из трех слов распределены по кубическому принципу 1/N^1/3,
а сочетания из k слов - 1/N^1/k
???????????

К сожалению, я любитель не имею достаточных технических мощностей, чтобы проверить эту гипотезу, не вылезая из своей деревни.

Может, кто из профессионалов загорится идеей и соблаговолит проделать эту работу?

Название: Частотность словосочетаний и закон Ципфа
Отправлено: ostapenkovr от июля 7, 2012, 22:25

Это ещё зависит от добросовестности автора текста.
Однажды я встретил в одном боевике фразу "Сидит, как мышь под веником" три раза.(Источник не помню).
В другой раз (конкретно, автор Влодавец) попалась одна и та же глава, дважды вмонтированная в текст.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 22:29

Это понятно. К примеру, текст, состоящий из одного предложения, многократно повторенного, может разрушить и закон Ципфа, и мой "квадратичный закон Ципфа". И что угодно.

Но суть в том, что когда люди ПРОСТО говорят и пишут, как им удобно, у них выходят эти таинственные закономерности. Сами собой.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: vfaronov от июля 7, 2012, 22:44

Цитата: Солохин от июля 7, 2012, 21:40
Программа выявила в нем 10 000 различных словосочетаний, из которых только 1400 словосочетаний встречаются 2 и более раз.

Что это значит? Как определяется словосочетание?

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 22:49

Чисто по-школьному. Пара слов.

Я бы предпочел программу, которая разбивала бы предложение на синтаксические группы - грубо говоря, расставляла бы скобки.
Но такой программы нет.

Создатели анализатора, которым я пользовался, хотели сделать для русского и английского языка ОДНОВРЕМЕННО, но русский с его свободным порядком слов не совсем удобен для теории синтаксических групп (слишком часто можно наблюдать непроективные струтуры предложения, особенно в разговорной речи!) И они сделали по-простому, по-рабочекрестьянски.
Но зато добротно.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: wangjhenbai от июля 7, 2012, 22:51

Цитата: Солохин от июля 7, 2012, 22:49
Чисто по-школьному. Пара слов.

:o

Тогда говорите биграммы, а не словосочетания, что ли... :donno:

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 22:58

Зачем говорить мудреными терминами? И так понятно, что я называю словосочетанием. В школе все учились.
Там словосочетанием называли именно пару.
Я не стремлюсь выглядеть умным или оригинальным.
Мне кажется, мой результат интересен сам по себе, без красивой обертки.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: wangjhenbai от июля 7, 2012, 23:02

Цитата: Солохин от июля 7, 2012, 22:58
Зачем говорить мудреными терминами? И так понятно, что я называю словосочетанием. В школе все учились.
Там словосочетанием называли именно пару.

:uzhos:
Не знаю, как Вас, а меня в школе учили, что подлежащее+сказуемое не является словосочетанием. Как и подлежащее+предлог, etc.

Честно говоря, слабо верится, что Вас в школе учили иначе. Подозреваю, что Вы просто подзабыли... Я, конечно, не знаю, может школьная программа настолько поменялась — всякое бывает...

Цитата: Солохин от июля 7, 2012, 22:58
Я не стремлюсь выглядеть умным или оригинальным.
Мне кажется, мой результат интересен сам по себе, без красивой обертки.

Да тут не в обёртке дело, тут «на клетке со слоном написано буйвол».

Вообще говоря, то, что Вы тут сделали, называется биграммная модель языка. Словарём словосочетаний тут и не пахло.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: vfaronov от июля 7, 2012, 23:02

Не знаю, как Вы искали — наверное, по-русски, раз английский только начали учить? Но при гуглении «english three-word frequency» по первой же ссылке вылезает wordfrequency.info (http://www.wordfrequency.info/), а там w3_.zip (http://www.ngrams.info/coca/download/w3_.zip) (5,4 М) на 1 020 009 сочетаний (правда, n't они считают как отдельное слово). Если отсортировать, то вот первые 20:

Код Выделить


199110	i	do	n't
167285	one	of	the
143368	a	lot	of
125280	the	united	states
81097	do	n't	know
78526	out	of	the
75459	as	well	as
73736	going	to	be
68687	some	of	the
67941	you	do	n't
61930	to	be	a
61519	i	did	n't
60849	part	of	the
58462	the	end	of
57015	it	was	a
51446	do	n't	think
49051	be	able	to
47566	i	think	that
47357	the	fact	that
47260	n't	want	to

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 23:08

Цитата: wangjhenbai от июля 7, 2012, 23:02Вообще говоря, то, что Вы тут сделали, называется биграммная модель языка. Словарём словосочетаний тут и не пахло.

Да хоть горшком назовите.
Дело не в названиях.
Я полагаю, что подлежащее+сказуемое - это тоже словосочетание. И я не одинок.
Тестелец тоже так полагает. А его, я думаю, Вы профаном не назовете.

Для меня словосочетание - это группа слов, синтаксически связанных между собой.
Я составил словарь ПАР просто потому, что у меня не было мощностей, чтобы сделать для ТРОЕК и прочее. Были бы - сделал бы.
Так что БИ - это вовсе не суть дела.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: wangjhenbai от июля 7, 2012, 23:21

Цитата: Солохин от июля 7, 2012, 23:08
Тестелец тоже так полагает. А его, я думаю, Вы профаном не назовете.

Тут не в подлежащем и сказуемом дело (хотя если считать их словосочетаниями, то это уже никак не по-школьному), а в целом в подходе. Словосочетание предполагает синтаксическую связь, биграмма предполагает два элемента, идущих подряд.

Цитата: Солохин от июля 7, 2012, 23:08
Так что БИ - это вовсе не суть дела.

Тогда можно сказать n-граммы.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 23:23

Да нет же!
Не подряд, а именно синтаксически связанных!

Я говорю именно о словосочетаниях, а не просто о парах слов, стоящих рядом!

Иначе зачем бы мне был синтаксический анализатор?!

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 23:25

Цитата: vfaronov от июля 7, 2012, 23:02Не знаю, как Вы искали — наверное, по-русски, раз английский только начали учить? Но при гуглении «english three-word frequency» по первой же ссылке вылезает wordfrequency.info (http://www.wordfrequency.info/), а там w3_.zip (http://www.ngrams.info/coca/download/w3_.zip) (5,4 М) на 1 020 009 сочетаний (правда, n't они считают как отдельное слово). Если отсортировать, то вот первые 20:

Код Выделить Развернуть
199110 i do n't 167285 one of the 143368 a lot of 125280 the united states 81097 do n't know 78526 out of the 75459 as well as 73736 going to be 68687 some of the 67941 you do n't 61930 to be a 61519 i did n't 60849 part of the 58462 the end of 57015 it was a 51446 do n't think 49051 be able to 47566 i think that 47357 the fact that 47260 n't want to

Огромное спасибо!
Да, я плохо искал. Теперь я могу воспользоваться этим материалом для дальнейшей работы.
Вы мне очень помогли. Я благодарен Вам!

Название: Частотность словосочетаний и закон Ципфа
Отправлено: vfaronov от июля 7, 2012, 23:28

Цитата: Солохин от июля 7, 2012, 23:23
Я говорю именно о словосочетаниях, а не просто о парах слов, стоящих рядом!

Цитата: Солохин от июля 7, 2012, 22:49
Чисто по-школьному. Пара слов.

Цитата: Солохин от июля 7, 2012, 23:23
Иначе зачем бы мне был синтаксический анализатор?!

Цитата: Солохин от июля 7, 2012, 22:49
Я бы предпочел программу, которая разбивала бы предложение на синтаксические группы - грубо говоря, расставляла бы скобки.
Но такой программы нет.

Вы меня теряете...

Название: Частотность словосочетаний и закон Ципфа
Отправлено: wangjhenbai от июля 7, 2012, 23:30

Что-то я совсем запутался. Где можно посмотреть сам этот анализатор? Сайт большой, я не сориентировался.

Цитата: Солохин от июля 7, 2012, 21:41
304 | s | 4 | 16 | 4864

Цитата: Солохин от июля 7, 2012, 21:44
1266 | the + u | 2 | 4 | 5064

Цитата: Солохин от июля 7, 2012, 21:44
1252 | the + s | 2 | 4 | 5008

А это что такое? :what:

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 23:54

Цитата: wangjhenbai от июля 7, 2012, 23:30
Где можно посмотреть сам этот анализатор? Сайт большой, я не сориентировался.

http://cs.isa.ru:10000/dwarf/download.html

http://cs.isa.ru:10000/dwarf/doc.htm - а это к ней документация

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 7, 2012, 23:57

Цитата: wangjhenbai от июля 7, 2012, 23:30А это что такое? :what:

Это глюки. Лес рубят - щепки летят.
Синатксический анализатор - он таки тупой. Притом в процессе обработки могли быть глюки.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 8, 2012, 07:05

Итак, я взял список http://www.ngrams.info/coca/download/w3_.zip и после сортировки проверил, выполняется ли на нем моя гипотеза насчет куба частоты.
Я обрезал длинный хвост списка, оставив первые 16 000. На большее прото не хватило мощностей.
Оказалось - не выполняется.
Зато, как ни странно, почти выполняется все тот же квадратный закон Ципфа!
Там есть какой-то систематический дрейф - частота к концу обработанного списка раза в полтора меньше, чем надо.
Соответственно, квадрат частоты - раза в три.

Однако эта тройка - согласитесь! - ничтожна в масштабе обрабатываемых значений. Ведь речь идет о числах порядка десятка миллиардов. То есть, закономерность явно прослеживается, хотя и с явным намеком, что я чего-то не учитываю.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 8, 2012, 07:27

Вот фрагменты из списка:
(частота) (тройка) (номер тройки в списке) (произведение квадрата частоты на номер в списке)

Spoiler ⇓⇓⇓

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 8, 2012, 07:31

Меня как физика поражает в этом, почему распределение для ПАР слов и для ТРОЕК слов подчинено одному и тому же закону?!

Не означает ли это, что обнаруженный мною квадратный Ципф - это универсальное статистическое распределение для словосочетаний любого ранга?

Если так, то почему словосочетания подчинены иному закону, чем слова? Не одного ли порядка эти явления?

Название: Частотность словосочетаний и закон Ципфа
Отправлено: maristo от июля 8, 2012, 08:42

По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.

Заключение интересное.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Hellerick от июля 8, 2012, 09:50

По-моим прикидкам получилось, что для пар слов их частотность нужно возводить в степень 1,69, а для троек — в 1,76. Действительно, неожиданно близко.

Цитата: maristo от июля 8, 2012, 08:42
По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.

Заключение интересное.

А как иначе-то могло быть? Слова суть слова. На что их не меняй, какой грамматике не переподчиняй, статистика будет та же. Сравнение с Си выглядит бредом.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: maristo от июля 8, 2012, 10:26

Цитата: Hellerick от июля 8, 2012, 09:50
По-моим прикидкам получилось, что для пар слов их частотность нужно возводить в степень 1,69, а для троек — в 1,76. Действительно, неожиданно близко.

Цитата: maristo от июля 8, 2012, 08:42
По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.

Заключение интересное.

А как иначе-то могло быть? Слова суть слова. На что их не меняй, какой грамматике не переподчиняй, статистика будет та же. Сравнение с Си выглядит бредом.

Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается. :o

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Hellerick от июля 8, 2012, 10:30

Цитата: maristo от июля 8, 2012, 10:26
Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается. :o

Кстати, вот вам задание на дом: придумайте язык, в котором бы подобная статистика не соблюдалась.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: maristo от июля 8, 2012, 10:41

Цитата: Hellerick от июля 8, 2012, 10:30
Цитата: maristo от июля 8, 2012, 10:26
Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается. :o

Кстати, вот вам задание на дом: придумайте язык, в котором бы подобная статистика не соблюдалась.

Ну, Си, формально - язык. Что тут такого? На нём не соблюдается. Тут даже важно не то что язык, а просто множество знаков. Я не спец, но у меня ощущение, что любители Ципфа заблудились в трёх соснах статистики.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Hellerick от июля 8, 2012, 10:53

Цитата: maristo от июля 8, 2012, 10:41
Си, формально - язык.

Формально следовало бы сравнивать переводы одного и того же текста.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 8, 2012, 15:17

Ага, вот умные люди проводили исследования в том же направлении.

http://aclweb.org/anthology-new/O/O03/O03-4004.pdf

Но до квадрата они не дошли.
Увы, чересчур большие вычислительные мощности расслабляюще действуют на моск.

Они долго считали и пришли к тому, что степень где-то 0.59

Но в природе не бывает 0.59
В природе либо 0, либо 1, либо 1/2, либо еще что-то красивое. "Пи" там или "е".

Природа устроена красиво.
Я думаю, там просто 0.5 - а остальное - погрешность эксперимента.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Hellerick от июля 8, 2012, 15:20

Цитата: Солохин от июля 8, 2012, 15:17
Природа устроена красиво.

А эвристические законы, описывающие сложные системы — нет.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 8, 2012, 16:00

Закон Ньютона - красив. Уравнения Эйнштейна - ослепительно красивы. Потому что они больше, чем эвристические законы, выведенные из опыта.
Физика на самом деле не выводится из опыта.
Если бы закон всемирного тяготения выдумывали сегодняшние ребята, вооруженные суперкомпьютерами, но небогатые научной интуицией, они бы бесконечно спорили о том, какая там степень в законе всемирного тяготения - 1,92 или 1, 96.
И наука на этом бы остановилась.

Нужен был Ньютон, чтобы сказать: ребята, не майтесь дурью. Там ровно 2 (закон обратных квадратов), а все остальное - от неточности эксперимента и от приливных сил Солнца, Юпитера и проч.

Ципф был мужик умный. Он сказал то, что видно каждому невооруженным глазом: 1/r
Потом пришли ребята не столь умные и сказали: нет, там 1/r^x, где х мы будем уточнять пока нам платят гранты, то есть, всю жизнь.
Это не наука, а наукообразие.
Настоящая наука смела; она не боится чуть-чуть не соответствовать эксперименту, потому что любой реальный эксперимент бывает "грязным", в нем действует множество второстепенных факторов, которые учесть невозможно.
Нужна смелость, чтобы сказать: там просто 0.5
Я говорю это и уверен, что не прогадаю.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: maristo от июля 8, 2012, 19:19

Хоть и не согласен с Солохиным по мировоззренческим вопросам - соглашусь; излишняя точность подкашивает принципиальность, а всё фундаментальное - принципиально. В вышеприведённом примере точность ухудшает ситуацию. :(

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 10, 2012, 21:54

Вот что странно.
Почему все-таки СЛОВА распределены по одному закону, а СЛОВОСОЧЕТАНИЯ - по другому?
Я понимаю, что слова - это нечто особенное, предел синтаксиса, терминальные символы. В то время как словосочетания могут включать в себя другие словосочетания и так до бесконечности (в принципе).
То есть, это разного порядка явления.
Типа как бозоны и фермионы в физике. В одном состоянии не может быть два фермиона, но может быть сколько угодно бозонов.
Слова - типа фермионы, а словосочетания - типа бозоны.
Потому и статистика разная.

Но все-таки как-то странно это и противоречит интуиции....

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Alone Coder от июля 12, 2012, 07:40

Цитата: Солохин от июля 8, 2012, 16:00
Ципф был мужик умный. Он сказал то, что видно каждому невооруженным глазом: 1/r

Каждому видно невооружённым глазом, что сумма всех 1/r равна бесконечности. Поэтому Ципф - это даже не наукообразие, а лженаука.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: okruzhor от июля 12, 2012, 09:39

> сумма всех 1/r равна бесконечности.

Чем это плохо в заведомо конечных множествах ?

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Alone Coder от июля 12, 2012, 12:10

Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: okruzhor от июля 12, 2012, 12:13

Цитата: Alone Coder от июля 12, 2012, 12:10
Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.

Почему сумма конечного числа конечных слагаемых бесконечна ?

Название: Частотность словосочетаний и закон Ципфа
Отправлено: fujhi от июля 12, 2012, 13:18

Цитата: Alone Coder от июля 12, 2012, 12:10
Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.

Кодер-Кодер, Вы даже язык и речь не различаете.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Alone Coder от июля 12, 2012, 20:26

Цитата: okruzhor от июля 12, 2012, 12:13
Почему сумма конечного числа конечных слагаемых бесконечна ?

Конечное число - это сколько? И где этот параметр в формуле?

Цитата: fujhi от июля 12, 2012, 13:18
Кодер-Кодер, Вы даже язык и речь не различаете.

Чего спорить с гуманитариями, они даже ряды не проходили.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: fujhi от июля 12, 2012, 21:01

Цитата: Alone Coder от июля 12, 2012, 20:26
Цитата: okruzhor от июля 12, 2012, 12:13
Почему сумма конечного числа конечных слагаемых бесконечна ?
Конечное число - это сколько? И где этот параметр в формуле?

Число вхождений слов в рассматриваемом словаре, построенном по конкретному конечному тексту. Это если рассматривать случай конечного текста.

Цитата: Alone Coder от июля 12, 2012, 20:26
Чего спорить с гуманитариями, они даже ряды не проходили.

А что, в России ряды не проходят в школе?

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Alone Coder от июля 13, 2012, 10:44

Цитата: fujhi от июля 12, 2012, 21:01
Число вхождений слов в рассматриваемом словаре, построенном по конкретному конечному тексту. Это если рассматривать случай конечного текста.

Ципф не работает на конечном тексте, это предельное соотношение.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 13, 2012, 13:34

Любой фундаментальный закон природы является предельным случаем, не более того.
Например, ни один закон Ньютона заведомо не может соблюдаться со всей точностью, так как не существует "материальных точек". Любой материальный объект имеет какие-то конечные размеры.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 13, 2012, 13:47

Так же и лингвистика, если она хочет стать точной наукой, должна в какой-то момент начать рассматривать идеализированные объекты, "идеальные языки", как физика рассматривает идеальный газ или сферически симметричные поля.

Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
А реальные языки не точно соответствуют, так как помимо Ципфа есть и какие-то другие факторы, которые надо учитывать отдельно.

Мухи отдельно, котлеты отдельно - вот основная методология точной науки.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 13, 2012, 13:52

Цитата: Солохин от июля 13, 2012, 13:47Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.

Отсюда, вероятно, вытекает, что в идеальном языке должно быть бесконечно много слов.
Если так, то конечность словаря реальных языков - это осложнение, которое должно быть учитываемо на втором этапе построения теории.
Закон Ципфа для реальных языков соблюдается приблизительно в силу их неидеальности, конечности.
Но поскольку число слов в реальном языке все-таки достаточно велико, постольку закон Ципфа все-таки наблюдается, хотя и приближенно.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: RawonaM от июля 13, 2012, 13:54

Цитата: Солохин от июля 13, 2012, 13:47
Так же и лингвистика, если она хочет стать точной наукой, должна в какой-то момент начать рассматривать идеализированные объекты, "идеальные языки", как физика рассматривает идеальный газ или сферически симметричные поля.

(wiki/en) Langue_and_parole (http://en.wikipedia.org/wiki/Langue_and_parole)

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Alone Coder от июля 13, 2012, 13:56

Цитата: Солохин от июля 13, 2012, 13:47
Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.

В принципе не может. Курите математику.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: okruzhor от июля 13, 2012, 14:00

Цитата: Alone Coder от июля 13, 2012, 13:56
Цитата: Солохин от июля 13, 2012, 13:47
Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
В принципе не может. Курите математику.

(http://lingvoforum.net/Smileys/default/sm_yes.gif)

P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 13, 2012, 14:10

Нет, я полагаю, что ни Langue, ни parole не соответствуют закону Ципфа.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 13, 2012, 14:16

Цитата: Alone Coder от июля 13, 2012, 13:56В принципе не может. Курите математику.

Бесконечный текст - не может.
А язык, состоящий из бесконечного числа конечных текстов - почему нет?

Название: Частотность словосочетаний и закон Ципфа
Отправлено: fujhi от июля 13, 2012, 14:27

Цитата: okruzhor от июля 13, 2012, 14:00
(http://lingvoforum.net/Smileys/default/sm_yes.gif)

P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...

Если Ваш браузер поддерживает JavaScript, просто щёлкните по ним — в текстовом поле появится их код. Например, ;D пишется кодом ;D.

Впрочем, это не поможет, если вы их отключили. Щёлкните по ссылочке «Вложения и другие параметры» под полем ввода и проверьте, не установлен ли у Вас пункт «Не использовать смайлы».

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Bhudh от июля 13, 2012, 14:38

Цитата: okruzhor от июля 13, 2012, 14:00P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ??

Название: Частотность словосочетаний и закон Ципфа
Отправлено: oort от июля 13, 2012, 14:38

Цитата: Alone Coder от июля 13, 2012, 13:56
В принципе не может. Курите математику.

Ципф гласит, что частоты вхождений пропорциональны 1/r. Берем сумму вхождений: 10. Количества 5, 3 и 2 примерно пропорциональны 1/1, 1/2 и 1/3 соответственно. Где принцип, в котором не может?

Название: Частотность словосочетаний и закон Ципфа
Отправлено: okruzhor от июля 13, 2012, 14:39

Цитата: fujhi от июля 13, 2012, 14:27
Цитата: okruzhor от июля 13, 2012, 14:00
(http://lingvoforum.net/Smileys/default/sm_yes.gif)

P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...
Если Ваш браузер поддерживает JavaScript, просто щёлкните по ним — в текстовом поле появится их код. Например, ;D пишется кодом ;D.

Впрочем, это не поможет, если вы их отключили. Щёлкните по ссылочке «Вложения и другие параметры» под полем ввода и проверьте, не установлен ли у Вас пункт «Не использовать смайлы».

:= := Спасибо большое ! Просто шлёпнуть я не догадался , только перетаскивал :-[ :what:

Название: Частотность словосочетаний и закон Ципфа
Отправлено: okruzhor от июля 13, 2012, 14:46

Цитата: oort от июля 13, 2012, 14:38
Цитата: Alone Coder от июля 13, 2012, 13:56
В принципе не может. Курите математику.
Ципф гласит, что частоты вхождений пропорциональны 1/r. Берем сумму вхождений: 10. Количества 5, 3 и 2 примерно пропорциональны 1/1, 1/2 и 1/3 соответственно. Где принцип, в котором не может?

Чтобы (при законе Ципфа) получить правильные частоты (дающие в сумме 1) , нужно поделить (1/r) каждого слова на сумму (1/r) всех слов . Знаменатель будет бесконечным при бесконечном числе конечных текстов . Однако при конечном числе текстов -- никаких проблем .

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 13, 2012, 15:19

Цитата: okruzhor от июля 13, 2012, 14:46Чтобы (при законе Ципфа) получить правильные частоты (дающие в сумме 1) , нужно поделить (1/r) каждого слова на сумму (1/r) всех слов .

Это означает только, что коэфициент этот не является какой-либо константой для языка с бесконечным числом слов, но определяется в зависимости от объема исследуемого текста.
Если текст бесконечен - коэффициент неопределен, вот и все.

Закон Ципфа - это закон для каждого отдельного текста данного языка, а не для всего корпуса текстов (который бесконечен в случае бесконечного языка).

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 13, 2012, 15:50

По сути, чтобы исследовать закон Ципфа, надо брать один, достаточно длинный текст.
Но поскольку в реальном языке тексты имеют небольшую длину, длинный текст заменяют суррогатом - набором множества текстов. Отсюда, наверное, и возникают систематические отклонения от закона Ципфа при больших статистических исследованиях.

В идеальном же языке имеются тексты любой длины, и для любого из них закон Ципфа выполняется с любой, наперед заданной точностью - чем длиннее, тем точнее.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 14, 2012, 22:54

Да, по n-граммам народ все уже исследовал.
А есть ли статистика по фразовым группам для английского?

Существует ли частотный список для фразовых групп?

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Alone Coder от июля 15, 2012, 18:55

Цитата: Солохин от июля 13, 2012, 15:19
Это означает только, что коэфициент этот не является какой-либо константой для языка с бесконечным числом слов, но определяется в зависимости от объема исследуемого текста.

Как вы себе представляете механизм зависимости коэффициента от длины текста? Может, и формулу этой зависимости напишете?

Цитата: Солохин от июля 13, 2012, 15:50
В идеальном же языке имеются тексты любой длины, и для любого из них закон Ципфа выполняется с любой, наперед заданной точностью - чем длиннее, тем точнее.

Ни для какого не выполняется. В начале рандом, в конце завал. Смотрите хотя бы статистику по Википедии.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Солохин от июля 16, 2012, 23:02

Цитата: Alone Coder от июля 15, 2012, 18:55Как вы себе представляете механизм зависимости коэффициента от длины текста? Может, и формулу этой зависимости напишете?

Конечно.
Единица, поделенная на логарифм длины словаря для данного текста. Ну, плюс там (в знаменателе) постоянная Эйлера, если быть педантом.

Цитата: Alone Coder от июля 15, 2012, 18:55Ни для какого не выполняется. В начале рандом, в конце завал. Смотрите хотя бы статистику по Википедии.

Для реальных языков - не выполняется, так как
1) в них конечное количество слов.
2) нет больших текстов, и потому статистика больших текстов заменяется статистикой по механической сумме текстов

То и другое дает систематические уклонения от закона Ципфа.

Ну, а рандом - это законно. Ведь речь идет о статистическом законе.
Чем длиннее текст - тем более точно он должен был бы давать закон Ципфа. Но у нас просто нет по-настоящему длинных текстов, скажем, мегабайт на 100.
Ибо жизнь коротка.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: Hellerick от июля 17, 2012, 05:14

Число букв в среднем русском слове стремится к трем. Отклонения — погрешности эксперимента.

Название: Частотность словосочетаний и закон Ципфа
Отправлено: RawonaM от июля 18, 2012, 08:38

Цитата: Hellerick от июля 17, 2012, 05:14
Число букв в среднем русском слове стремится к трем.

Et sans mots de fonction?

Название: Частотность словосочетаний и закон Ципфа
Отправлено: SviZ от марта 31, 2014, 15:25

Мало чего понял в вашей проблеме, но мне интересна работа с лингвистами. Если ваша задача ещё актуальна и сумеете мне объяснить алгоритм решения, я могу попробовать написать программу для составления словаря.

Лингвофорум

Теоретический раздел => Общая лингвистика => Структура языков => Тема начата: Солохин от июля 7, 2012, 21:31