Author Topic: Частотность словосочетаний и закон Ципфа  (Read 11175 times)

0 Members and 1 Guest are viewing this topic.

Offline Alone Coder

  • Posts: 22711
  • Gender: Male
    • Орфовики
Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
В принципе не может. Курите математику.

Offline okruzhor

  • Posts: 1570
  • Форум по игре Го forum.kido.com.ru
Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
В принципе не может. Курите математику.


P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...

Offline Солохин

  • Posts: 17347
  • Gender: Male
Нет, я полагаю, что ни Langue, ни parole не соответствуют закону Ципфа.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

В принципе не может. Курите математику.
Бесконечный текст - не может.
А язык, состоящий из бесконечного числа конечных текстов - почему нет?
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Offline fujhi

  • Posts: 866


P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...
Если Ваш браузер поддерживает JavaScript, просто щёлкните по ним — в текстовом поле появится их код. Например, ;D пишется кодом ;D.

Впрочем, это не поможет, если вы их отключили. Щёлкните по ссылочке «Вложения и другие параметры» под полем ввода и проверьте, не установлен ли у Вас пункт «Не использовать смайлы».
Этот аккаунт официально заброшен. Связаться со мной можно по всё тому же адресу, dmymd@yandex.ru. Всем пока!

Offline Bhudh

  • Posts: 49027
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ??
:o
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline oort

  • Posts: 343
  • Gender: Male
    • LJ
В принципе не может. Курите математику.
Ципф гласит, что частоты вхождений пропорциональны 1/r. Берем сумму вхождений: 10. Количества 5, 3 и 2 примерно пропорциональны 1/1, 1/2 и 1/3 соответственно. Где принцип, в котором не может?

Offline okruzhor

  • Posts: 1570
  • Форум по игре Го forum.kido.com.ru


P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...
Если Ваш браузер поддерживает JavaScript, просто щёлкните по ним — в текстовом поле появится их код. Например, ;D пишется кодом ;D.

Впрочем, это не поможет, если вы их отключили. Щёлкните по ссылочке «Вложения и другие параметры» под полем ввода и проверьте, не установлен ли у Вас пункт «Не использовать смайлы».
:=  :=  Спасибо большое ! Просто шлёпнуть я не догадался , только перетаскивал  :-[ :what:

В принципе не может. Курите математику.
Ципф гласит, что частоты вхождений пропорциональны 1/r. Берем сумму вхождений: 10. Количества 5, 3 и 2 примерно пропорциональны 1/1, 1/2 и 1/3 соответственно. Где принцип, в котором не может?
Чтобы (при законе Ципфа) получить правильные частоты (дающие в сумме 1) , нужно поделить (1/r) каждого слова на сумму (1/r) всех слов . Знаменатель будет бесконечным при бесконечном числе конечных текстов . Однако при конечном числе текстов -- никаких проблем .

Offline Солохин

  • Posts: 17347
  • Gender: Male
Чтобы (при законе Ципфа) получить правильные частоты (дающие в сумме 1) , нужно поделить (1/r) каждого слова на сумму (1/r) всех слов .
Это означает только, что коэфициент этот не является какой-либо константой для языка с бесконечным числом слов, но определяется в зависимости от объема исследуемого текста.
Если текст бесконечен - коэффициент неопределен, вот и все.

Закон Ципфа - это закон для каждого отдельного текста данного языка, а не для всего корпуса текстов (который бесконечен в случае бесконечного языка).
Sinjoro Jesuo Kristo purigu min.


Вне форума.

По сути, чтобы исследовать закон Ципфа, надо брать один, достаточно длинный текст.
Но поскольку в реальном языке тексты имеют небольшую длину, длинный текст заменяют суррогатом - набором множества текстов. Отсюда, наверное, и возникают систематические отклонения от закона Ципфа при больших статистических исследованиях.

В идеальном же языке имеются тексты любой длины, и для любого из них закон Ципфа выполняется с любой, наперед заданной точностью - чем длиннее, тем точнее.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Да, по n-граммам народ все уже исследовал.
А есть ли статистика по фразовым группам для английского?

Существует ли частотный список для фразовых групп?
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Offline Alone Coder

  • Posts: 22711
  • Gender: Male
    • Орфовики
Это означает только, что коэфициент этот не является какой-либо константой для языка с бесконечным числом слов, но определяется в зависимости от объема исследуемого текста.
Как вы себе представляете механизм зависимости коэффициента от длины текста? Может, и формулу этой зависимости напишете?

В идеальном же языке имеются тексты любой длины, и для любого из них закон Ципфа выполняется с любой, наперед заданной точностью - чем длиннее, тем точнее.
Ни для какого не выполняется. В начале рандом, в конце завал. Смотрите хотя бы статистику по Википедии.

Offline Солохин

  • Posts: 17347
  • Gender: Male
Как вы себе представляете механизм зависимости коэффициента от длины текста? Может, и формулу этой зависимости напишете?
Конечно.
Единица, поделенная на логарифм длины словаря для данного текста. Ну, плюс там (в знаменателе) постоянная Эйлера, если быть педантом.

Ни для какого не выполняется. В начале рандом, в конце завал. Смотрите хотя бы статистику по Википедии.
Для реальных языков - не выполняется, так как
1) в них конечное количество слов.
2) нет больших текстов, и потому статистика больших текстов заменяется статистикой по механической сумме текстов

То и другое дает систематические уклонения от закона Ципфа.

Ну, а рандом - это законно. Ведь речь идет о статистическом законе.
Чем длиннее текст - тем более точно он должен был бы давать закон Ципфа. Но у нас просто нет по-настоящему длинных текстов, скажем, мегабайт на 100.
Ибо жизнь коротка.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Online Hellerick

  • Posts: 24642
  • Gender: Male
Число букв в среднем русском слове стремится к трем. Отклонения — погрешности эксперимента.

Offline RawonaM

  • Posts: 42275
Число букв в среднем русском слове стремится к трем.
Et sans mots de fonction?

Offline SviZ

  • Newbie
  • Posts: 4
    • Дизайн сайта-визитки
Мало чего понял в вашей проблеме, но мне интересна работа с лингвистами. Если ваша задача ещё актуальна и сумеете мне объяснить алгоритм решения, я могу попробовать написать программу для составления словаря.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: