Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Частотность словосочетаний и закон Ципфа

Автор Солохин, июля 7, 2012, 21:31

0 Пользователи и 1 гость просматривают эту тему.

Alone Coder

Цитата: Солохин от июля 13, 2012, 13:47
Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
В принципе не может. Курите математику.

okruzhor

Цитата: Alone Coder от июля 13, 2012, 13:56
Цитата: Солохин от июля 13, 2012, 13:47
Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
В принципе не может. Курите математику.


P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...

Солохин

Нет, я полагаю, что ни Langue, ни parole не соответствуют закону Ципфа.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Цитата: Alone Coder от июля 13, 2012, 13:56В принципе не может. Курите математику.
Бесконечный текст - не может.
А язык, состоящий из бесконечного числа конечных текстов - почему нет?
Sinjoro Jesuo Kristo purigu min.


Вне форума.

fujhi

Цитата: okruzhor от июля 13, 2012, 14:00


P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...
Если Ваш браузер поддерживает JavaScript, просто щёлкните по ним — в текстовом поле появится их код. Например, ;D пишется кодом ;D.

Впрочем, это не поможет, если вы их отключили. Щёлкните по ссылочке «Вложения и другие параметры» под полем ввода и проверьте, не установлен ли у Вас пункт «Не использовать смайлы».
Этот аккаунт официально заброшен. Связаться со мной можно по всё тому же адресу, [email]dmymd@yandex.ru[/email]. Всем пока!

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

oort

Цитата: Alone Coder от июля 13, 2012, 13:56
В принципе не может. Курите математику.
Ципф гласит, что частоты вхождений пропорциональны 1/r. Берем сумму вхождений: 10. Количества 5, 3 и 2 примерно пропорциональны 1/1, 1/2 и 1/3 соответственно. Где принцип, в котором не может?

okruzhor

Цитата: fujhi от июля 13, 2012, 14:27
Цитата: okruzhor от июля 13, 2012, 14:00


P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...
Если Ваш браузер поддерживает JavaScript, просто щёлкните по ним — в текстовом поле появится их код. Например, ;D пишется кодом ;D.

Впрочем, это не поможет, если вы их отключили. Щёлкните по ссылочке «Вложения и другие параметры» под полем ввода и проверьте, не установлен ли у Вас пункт «Не использовать смайлы».
:=  :=  Спасибо большое ! Просто шлёпнуть я не догадался , только перетаскивал  :-[ :what:

okruzhor

Цитата: oort от июля 13, 2012, 14:38
Цитата: Alone Coder от июля 13, 2012, 13:56
В принципе не может. Курите математику.
Ципф гласит, что частоты вхождений пропорциональны 1/r. Берем сумму вхождений: 10. Количества 5, 3 и 2 примерно пропорциональны 1/1, 1/2 и 1/3 соответственно. Где принцип, в котором не может?
Чтобы (при законе Ципфа) получить правильные частоты (дающие в сумме 1) , нужно поделить (1/r) каждого слова на сумму (1/r) всех слов . Знаменатель будет бесконечным при бесконечном числе конечных текстов . Однако при конечном числе текстов -- никаких проблем .

Солохин

Цитата: okruzhor от июля 13, 2012, 14:46Чтобы (при законе Ципфа) получить правильные частоты (дающие в сумме 1) , нужно поделить (1/r) каждого слова на сумму (1/r) всех слов .
Это означает только, что коэфициент этот не является какой-либо константой для языка с бесконечным числом слов, но определяется в зависимости от объема исследуемого текста.
Если текст бесконечен - коэффициент неопределен, вот и все.

Закон Ципфа - это закон для каждого отдельного текста данного языка, а не для всего корпуса текстов (который бесконечен в случае бесконечного языка).
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

По сути, чтобы исследовать закон Ципфа, надо брать один, достаточно длинный текст.
Но поскольку в реальном языке тексты имеют небольшую длину, длинный текст заменяют суррогатом - набором множества текстов. Отсюда, наверное, и возникают систематические отклонения от закона Ципфа при больших статистических исследованиях.

В идеальном же языке имеются тексты любой длины, и для любого из них закон Ципфа выполняется с любой, наперед заданной точностью - чем длиннее, тем точнее.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Да, по n-граммам народ все уже исследовал.
А есть ли статистика по фразовым группам для английского?

Существует ли частотный список для фразовых групп?
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Alone Coder

Цитата: Солохин от июля 13, 2012, 15:19
Это означает только, что коэфициент этот не является какой-либо константой для языка с бесконечным числом слов, но определяется в зависимости от объема исследуемого текста.
Как вы себе представляете механизм зависимости коэффициента от длины текста? Может, и формулу этой зависимости напишете?

Цитата: Солохин от июля 13, 2012, 15:50
В идеальном же языке имеются тексты любой длины, и для любого из них закон Ципфа выполняется с любой, наперед заданной точностью - чем длиннее, тем точнее.
Ни для какого не выполняется. В начале рандом, в конце завал. Смотрите хотя бы статистику по Википедии.

Солохин

Цитата: Alone Coder от июля 15, 2012, 18:55Как вы себе представляете механизм зависимости коэффициента от длины текста? Может, и формулу этой зависимости напишете?
Конечно.
Единица, поделенная на логарифм длины словаря для данного текста. Ну, плюс там (в знаменателе) постоянная Эйлера, если быть педантом.

Цитата: Alone Coder от июля 15, 2012, 18:55Ни для какого не выполняется. В начале рандом, в конце завал. Смотрите хотя бы статистику по Википедии.
Для реальных языков - не выполняется, так как
1) в них конечное количество слов.
2) нет больших текстов, и потому статистика больших текстов заменяется статистикой по механической сумме текстов

То и другое дает систематические уклонения от закона Ципфа.

Ну, а рандом - это законно. Ведь речь идет о статистическом законе.
Чем длиннее текст - тем более точно он должен был бы давать закон Ципфа. Но у нас просто нет по-настоящему длинных текстов, скажем, мегабайт на 100.
Ибо жизнь коротка.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Hellerick

Число букв в среднем русском слове стремится к трем. Отклонения — погрешности эксперимента.

RawonaM


SviZ

Мало чего понял в вашей проблеме, но мне интересна работа с лингвистами. Если ваша задача ещё актуальна и сумеете мне объяснить алгоритм решения, я могу попробовать написать программу для составления словаря.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр