Author Topic: ололо, закон Ципфа для текстов на ложбане  (Read 3801 times)

0 Members and 1 Guest are viewing this topic.

Offline Вадимий

  • Blogger
  • *
  • Posts: 14988
  • Gender: Male
Интеерсно.
Сейчас сделал график, в которой учитывается любое слово, и преодолел тупость программы, которая слово с апострофом принимала за два слова.
На оси абсцисс (горизонтально) отложил номер в списке частотных слов, на оси ординат — сколько ра встречается.
В общем, всё ожидаемо: чем больше текст (взял Библию, кстати, разные отрывки), тем больше график поход на гиперболу. Для сравнения там же нарисовал гиперболу.



Интересно другое. Когда  убрал галочку из программы, которая исключала из поиска любое слово короче трёх букву, и слова типа la'e, do'i воспринимались как два слова, то график одной главы был больше похож на гиперболу, чем график двух, график двух глав — лшче, чем график нескольких книг.

Если щё что-нибудь интересное найду, сообщу.

Offline RawonaM

  • Posts: 43185
Логарифмическую шкалу надо выставить.

Offline Вадимий

  • Blogger
  • *
  • Posts: 14988
  • Gender: Male
Я слов-то таких не знаю.

Вот для большого текста, где исключены слова из 3 букв и меньше:

Вооще никакая не гипербола. напоминает график функции y=90-x

Offline RawonaM

  • Posts: 43185
Я слов-то таких не знаю.
Да ну? В Экселе в пропертях выставляется.
Закон Ципфа и корпусная лингвистика


Offline Вадимий

  • Blogger
  • *
  • Posts: 14988
  • Gender: Male
тоже хѣрня какая-то, где тут гипербольцо? я не понял, что это значит и чем оличается, кроме вида

Offline RawonaM

  • Posts: 43185
На шкалу смотреть надо!
Гипербола на логарифмической шкале отображается как прямая!

Offline Вадимий

  • Blogger
  • *
  • Posts: 14988
  • Gender: Male
не уразумев, принял к сведению, щас тогда

чёрт, я ничё не найду. это не из 2003? а то у мен позднейший


Offline Вадимий

  • Blogger
  • *
  • Posts: 14988
  • Gender: Male
уже нашёл,  дякую, и хѣровая получается прямая


Offline RawonaM

  • Posts: 43185
уже нашёл,  дякую, и хѣровая получается прямая
Тем не менее, почти прямая. Вот и закон Ципфа.


Offline Вадимий

  • Blogger
  • *
  • Posts: 14988
  • Gender: Male
Нет, сначала получилась хрень из-за того, что я напортаил. Щас да.

А утром я пытался с рандомным текстом из латиницы, кириллицелатиницы, кириллицы, цифр. По очереди. Не прокатило. К чему бы это.

Offline Alone Coder

  • Вне лингвистики
  • Posts: 23232
  • Gender: Male
    • Орфовики
Прямая там не получается. Явный загиб вниз, как во всех экспериментах на "закон Ципфа". Что естественно как с математической точки зрения (натуральный ряд расходится), так и с лингвистической (за пределами общей лексики частоты падают).

Offline Вадимий

  • Blogger
  • *
  • Posts: 14988
  • Gender: Male
Какая прямая не поучается? Вот у Равонама получилась. или Вы имеете в виду какую-то с особым угловым коэффициентом?

Offline RawonaM

  • Posts: 43185
А утром я пытался с рандомным текстом из латиницы, кириллицелатиницы, кириллицы, цифр. По очереди. Не прокатило. К чему бы это.
Покажите эксперименты.

Offline Alone Coder

  • Вне лингвистики
  • Posts: 23232
  • Gender: Male
    • Орфовики
Вот у Равонама получилась.
Линейку приставьте.

Offline Вадимий

  • Blogger
  • *
  • Posts: 14988
  • Gender: Male
Покажите эксперименты.
Я потерял ужо, могу заново попробовать, но потом, когда я наемся, сделаю уроки и буду не ленив
В общем, в другой жизни ;D

Кстати, есть веь и как-то называется такое соотношение: между количеством слов в тексте и количеством морфем (или наоборот). Так вот, это соотношение как-нибудь влияет на то, насколько точно и хорошо выполняется в нём закон Ципа? и вообщще, выполнение разнится от языка к языку?

Offline RawonaM

  • Posts: 43185
Вот у Равонама получилась.
Линейку приставьте.
Да кривая-кривая, верим. Я так и не понял чем вы объясняете то, что получается почти ровная линия. Наверное кто-то это исследовал.

Offline Alone Coder

  • Вне лингвистики
  • Posts: 23232
  • Gender: Male
    • Орфовики
Вопрос, конечно, интересный. Вроде Мандельброт что-то на эту тему писал.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: