Интеерсно.
Сейчас сделал график, в которой учитывается любое слово, и преодолел тупость программы, которая слово с апострофом принимала за два слова.
На оси абсцисс (горизонтально) отложил номер в списке частотных слов, на оси ординат — сколько ра встречается.
В общем, всё ожидаемо: чем больше текст (взял Библию, кстати, разные отрывки), тем больше график поход на гиперболу. Для сравнения там же нарисовал гиперболу.
(http://s018.radikal.ru/i526/1201/ec/1727f711a10c.jpg)
(http://s018.radikal.ru/i508/1201/94/858f682b557d.jpg)
Интересно другое. Когда убрал галочку из программы, которая исключала из поиска любое слово короче трёх букву, и слова типа la'e, do'i воспринимались как два слова, то график одной главы был больше похож на гиперболу, чем график двух, график двух глав — лшче, чем график нескольких книг.
Если щё что-нибудь интересное найду, сообщу.
Логарифмическую шкалу надо выставить.
Я слов-то таких не знаю.
Вот для большого текста, где исключены слова из 3 букв и меньше:
(http://cs10806.vk.com/u31788886/-14/x_c65ce10b.jpg)
Вооще никакая не гипербола. напоминает график функции y=90-x
Цитата: Вадимий от января 20, 2012, 10:57
Я слов-то таких не знаю.
Да ну? В Экселе в пропертях выставляется.
Закон Ципфа и корпусная лингвистика (http://lingvoforum.net/index.php/topic,30619.msg736907.html#msg736907)
(http://lingvoforum.net/index.php?action=dlattach;topic=30619.0;attach=19918;image)
тоже хѣрня какая-то, где тут гипербольцо? я не понял, что это значит и чем оличается, кроме вида
На шкалу смотреть надо!
Гипербола на логарифмической шкале отображается как прямая!
не уразумев, принял к сведению, щас тогда
чёрт, я ничё не найду. это не из 2003? а то у мен позднейший
(Google) logarithmic scale excel (http://www.google.co.il/search?q=logarithmic+scale+excel&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:en-US:official&client=firefox-a)
http://bubble.ro/Logarithmic_scale_graphs_in_Excel.html
уже нашёл, дякую, и хѣровая получается прямая
(http://s018.radikal.ru/i509/1201/8d/5ebb0266b88e.jpg)
Цитата: Вадимий от января 20, 2012, 11:36
уже нашёл, дякую, и хѣровая получается прямая
Тем не менее, почти прямая. Вот и закон Ципфа.
Нет, сначала получилась хрень из-за того, что я напортаил. Щас да.
А утром я пытался с рандомным текстом из латиницы, кириллицелатиницы, кириллицы, цифр. По очереди. Не прокатило. К чему бы это.
Прямая там не получается. Явный загиб вниз, как во всех экспериментах на "закон Ципфа". Что естественно как с математической точки зрения (натуральный ряд расходится), так и с лингвистической (за пределами общей лексики частоты падают).
Какая прямая не поучается? Вот у Равонама получилась. или Вы имеете в виду какую-то с особым угловым коэффициентом?
Цитата: Вадимий от января 20, 2012, 11:47
А утром я пытался с рандомным текстом из латиницы, кириллицелатиницы, кириллицы, цифр. По очереди. Не прокатило. К чему бы это.
Покажите эксперименты.
Цитата: Вадимий от января 20, 2012, 11:52
Вот у Равонама получилась.
Линейку приставьте.
Цитата: RawonaM от января 20, 2012, 11:53
Покажите эксперименты.
Я потерял ужо, могу заново попробовать, но потом, когда я наемся, сделаю уроки и буду не ленив
В общем, в другой жизни ;D
Кстати, есть веь и как-то называется такое соотношение: между количеством слов в тексте и количеством морфем (или наоборот). Так вот, это соотношение как-нибудь влияет на то, насколько точно и хорошо выполняется в нём закон Ципа? и вообщще, выполнение разнится от языка к языку?
Цитата: Alone Coder от января 20, 2012, 11:55
Цитата: Вадимий от января 20, 2012, 11:52Вот у Равонама получилась.
Линейку приставьте.
Да кривая-кривая, верим. Я так и не понял чем вы объясняете то, что получается почти ровная линия. Наверное кто-то это исследовал.
Вопрос, конечно, интересный. Вроде Мандельброт что-то на эту тему писал.