Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

ололо, закон Ципфа для текстов на ложбане

Автор Вадимий, января 20, 2012, 10:28

0 Пользователи и 1 гость просматривают эту тему.

Вадимий

Интеерсно.
Сейчас сделал график, в которой учитывается любое слово, и преодолел тупость программы, которая слово с апострофом принимала за два слова.
На оси абсцисс (горизонтально) отложил номер в списке частотных слов, на оси ординат — сколько ра встречается.
В общем, всё ожидаемо: чем больше текст (взял Библию, кстати, разные отрывки), тем больше график поход на гиперболу. Для сравнения там же нарисовал гиперболу.



Интересно другое. Когда  убрал галочку из программы, которая исключала из поиска любое слово короче трёх букву, и слова типа la'e, do'i воспринимались как два слова, то график одной главы был больше похож на гиперболу, чем график двух, график двух глав — лшче, чем график нескольких книг.

Если щё что-нибудь интересное найду, сообщу.

RawonaM



Вадимий

Вот для большого текста, где исключены слова из 3 букв и меньше:

Вооще никакая не гипербола. напоминает график функции y=90-x



Вадимий

тоже хѣрня какая-то, где тут гипербольцо? я не понял, что это значит и чем оличается, кроме вида

RawonaM

На шкалу смотреть надо!
Гипербола на логарифмической шкале отображается как прямая!

Вадимий


Вадимий



Вадимий



RawonaM

Цитата: Вадимий от января 20, 2012, 11:36
уже нашёл,  дякую, и хѣровая получается прямая
Тем не менее, почти прямая. Вот и закон Ципфа.


Вадимий

Нет, сначала получилась хрень из-за того, что я напортаил. Щас да.


А утром я пытался с рандомным текстом из латиницы, кириллицелатиницы, кириллицы, цифр. По очереди. Не прокатило. К чему бы это.

Alone Coder

Прямая там не получается. Явный загиб вниз, как во всех экспериментах на "закон Ципфа". Что естественно как с математической точки зрения (натуральный ряд расходится), так и с лингвистической (за пределами общей лексики частоты падают).

Вадимий

Какая прямая не поучается? Вот у Равонама получилась. или Вы имеете в виду какую-то с особым угловым коэффициентом?

RawonaM

Цитата: Вадимий от января 20, 2012, 11:47
А утром я пытался с рандомным текстом из латиницы, кириллицелатиницы, кириллицы, цифр. По очереди. Не прокатило. К чему бы это.
Покажите эксперименты.

Alone Coder


Вадимий

Цитата: RawonaM от января 20, 2012, 11:53
Покажите эксперименты.
Я потерял ужо, могу заново попробовать, но потом, когда я наемся, сделаю уроки и буду не ленив
В общем, в другой жизни ;D

Вадимий

Кстати, есть веь и как-то называется такое соотношение: между количеством слов в тексте и количеством морфем (или наоборот). Так вот, это соотношение как-нибудь влияет на то, насколько точно и хорошо выполняется в нём закон Ципа? и вообщще, выполнение разнится от языка к языку?

RawonaM

Цитата: Alone Coder от января 20, 2012, 11:55
Цитата: Вадимий от января 20, 2012, 11:52Вот у Равонама получилась.
Линейку приставьте.
Да кривая-кривая, верим. Я так и не понял чем вы объясняете то, что получается почти ровная линия. Наверное кто-то это исследовал.

Alone Coder

Вопрос, конечно, интересный. Вроде Мандельброт что-то на эту тему писал.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр