Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.
Ограничения: максимум вложений в сообщении — 3 (3 осталось), максимальный размер всех файлов — 300 КБ, максимальный размер одного файла — 100 КБ
Снимите пометку с вложений, которые необходимо удалить
Перетащите файлы сюда или используйте кнопку для добавления файлов
Вложения и другие параметры
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр

Сообщения в этой теме

Автор SviZ
 - марта 31, 2014, 15:25
Мало чего понял в вашей проблеме, но мне интересна работа с лингвистами. Если ваша задача ещё актуальна и сумеете мне объяснить алгоритм решения, я могу попробовать написать программу для составления словаря.
Автор RawonaM
 - июля 18, 2012, 08:38
Цитата: Hellerick от июля 17, 2012, 05:14
Число букв в среднем русском слове стремится к трем.
Et sans mots de fonction?
Автор Hellerick
 - июля 17, 2012, 05:14
Число букв в среднем русском слове стремится к трем. Отклонения — погрешности эксперимента.
Автор Солохин
 - июля 16, 2012, 23:02
Цитата: Alone Coder от июля 15, 2012, 18:55Как вы себе представляете механизм зависимости коэффициента от длины текста? Может, и формулу этой зависимости напишете?
Конечно.
Единица, поделенная на логарифм длины словаря для данного текста. Ну, плюс там (в знаменателе) постоянная Эйлера, если быть педантом.

Цитата: Alone Coder от июля 15, 2012, 18:55Ни для какого не выполняется. В начале рандом, в конце завал. Смотрите хотя бы статистику по Википедии.
Для реальных языков - не выполняется, так как
1) в них конечное количество слов.
2) нет больших текстов, и потому статистика больших текстов заменяется статистикой по механической сумме текстов

То и другое дает систематические уклонения от закона Ципфа.

Ну, а рандом - это законно. Ведь речь идет о статистическом законе.
Чем длиннее текст - тем более точно он должен был бы давать закон Ципфа. Но у нас просто нет по-настоящему длинных текстов, скажем, мегабайт на 100.
Ибо жизнь коротка.
Автор Alone Coder
 - июля 15, 2012, 18:55
Цитата: Солохин от июля 13, 2012, 15:19
Это означает только, что коэфициент этот не является какой-либо константой для языка с бесконечным числом слов, но определяется в зависимости от объема исследуемого текста.
Как вы себе представляете механизм зависимости коэффициента от длины текста? Может, и формулу этой зависимости напишете?

Цитата: Солохин от июля 13, 2012, 15:50
В идеальном же языке имеются тексты любой длины, и для любого из них закон Ципфа выполняется с любой, наперед заданной точностью - чем длиннее, тем точнее.
Ни для какого не выполняется. В начале рандом, в конце завал. Смотрите хотя бы статистику по Википедии.
Автор Солохин
 - июля 14, 2012, 22:54
Да, по n-граммам народ все уже исследовал.
А есть ли статистика по фразовым группам для английского?

Существует ли частотный список для фразовых групп?
Автор Солохин
 - июля 13, 2012, 15:50
По сути, чтобы исследовать закон Ципфа, надо брать один, достаточно длинный текст.
Но поскольку в реальном языке тексты имеют небольшую длину, длинный текст заменяют суррогатом - набором множества текстов. Отсюда, наверное, и возникают систематические отклонения от закона Ципфа при больших статистических исследованиях.

В идеальном же языке имеются тексты любой длины, и для любого из них закон Ципфа выполняется с любой, наперед заданной точностью - чем длиннее, тем точнее.
Автор Солохин
 - июля 13, 2012, 15:19
Цитата: okruzhor от июля 13, 2012, 14:46Чтобы (при законе Ципфа) получить правильные частоты (дающие в сумме 1) , нужно поделить (1/r) каждого слова на сумму (1/r) всех слов .
Это означает только, что коэфициент этот не является какой-либо константой для языка с бесконечным числом слов, но определяется в зависимости от объема исследуемого текста.
Если текст бесконечен - коэффициент неопределен, вот и все.

Закон Ципфа - это закон для каждого отдельного текста данного языка, а не для всего корпуса текстов (который бесконечен в случае бесконечного языка).
Автор okruzhor
 - июля 13, 2012, 14:46
Цитата: oort от июля 13, 2012, 14:38
Цитата: Alone Coder от июля 13, 2012, 13:56
В принципе не может. Курите математику.
Ципф гласит, что частоты вхождений пропорциональны 1/r. Берем сумму вхождений: 10. Количества 5, 3 и 2 примерно пропорциональны 1/1, 1/2 и 1/3 соответственно. Где принцип, в котором не может?
Чтобы (при законе Ципфа) получить правильные частоты (дающие в сумме 1) , нужно поделить (1/r) каждого слова на сумму (1/r) всех слов . Знаменатель будет бесконечным при бесконечном числе конечных текстов . Однако при конечном числе текстов -- никаких проблем .
Автор okruzhor
 - июля 13, 2012, 14:39
Цитата: fujhi от июля 13, 2012, 14:27
Цитата: okruzhor от июля 13, 2012, 14:00


P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...
Если Ваш браузер поддерживает JavaScript, просто щёлкните по ним — в текстовом поле появится их код. Например, ;D пишется кодом ;D.

Впрочем, это не поможет, если вы их отключили. Щёлкните по ссылочке «Вложения и другие параметры» под полем ввода и проверьте, не установлен ли у Вас пункт «Не использовать смайлы».
:=  :=  Спасибо большое ! Просто шлёпнуть я не догадался , только перетаскивал  :-[ :what: