Цитата: Alone Coder от февраля 24, 2018, 10:53"Коэффициент детерминации"? Не уверен, что правильно понял, чего вы хотите. Возможно, вам нужны какие-то статистические критерии типа критерия согласия Колмогорова.
Какой математический критерий для "соответствует Ципфу"? Реальная статистика же не лежит на гиперболе и не может, и коэффициент на приближении к ней разный.
Цитата: Alone Coder от февраля 24, 2018, 10:53Ну так даёт, вроде как.
А то так можно сказать, что текст из рандомных символов с пробелами даёт словарь, "соответствующий Ципфу".
Цитата: Солохин от февраля 23, 2018, 17:45Понятно, извиняюсь, невнимательно прочитал, "зависнув" на "модели случайного текста".Цитата: yurifromspb от февраля 23, 2018, 16:06Да, я это и имел в виду, когда говорил о "словах", в которых каждая следующая буква уточняет смысл.
В случае естественного текста скорее можно подозревать какое-то иерархическое разбиение реальности. Тут вспоминаются аристотелевские роды и виды
Представьте себе пословный перевод с такого языка на обычный человеческий язык. Или наоборот, пословный перевод с обычного языка на вот такой "семантический код".
Цитата: yurifromspb от февраля 23, 2018, 16:06Да, я это и имел в виду, когда говорил о "словах", в которых каждая следующая буква уточняет смысл.
В случае естественного текста скорее можно подозревать какое-то иерархическое разбиение реальности. Тут вспоминаются аристотелевские роды и виды
Цитата: Солохин от февраля 16, 2018, 20:15Всё же, такой же Ципф, но не тот же. Случайный текст это только один из способов получить "дерево", к тому же для естественного языка этот способ явно не подходит (если отрубить у слова хвост, оставшееся начало редко когда вообще будет словом, не то что более частотным, а длинных слов почти не бывает, там хвост распределения очень быстро сходит на нет). В случае естественного текста скорее можно подозревать какое-то иерархическое разбиение реальности. Тут вспоминаются аристотелевские роды и виды (az-mnogogreshny, кстати, заметил, что редковстречающиеся слова это, в основном, имена собственные).Цитата: svarog от февраля 16, 2018, 19:26Скромно напомню, что у закона Ципфа есть критика.На мой взгляд, эта критика неубедительна. Ясно, что закон Ципфа - это всего лишь статистика. Но почему именно такая статистика?
Предлагаемый вывод закона Ципфа из случайного набора букв мне знаком. Кстати, я сейчас осознал, что он глубоко связан с той моделью, которую предложил выше yurifromspb.
По сути, это одна и та же модель.
В самом деле, допустим, у нас есть некий плановый язык, в алфавите которого есть всего лишь две буквы и знак пробела. Каждая следующая буква слова уточняет смысл этого слова. Далее или знак пробела (конец слова), или новое уточнение. По сути, это то же самое, что деление отрезка пополам. Вот и получается тот же самый Ципф.
Цитата: az-mnogogreshny от февраля 23, 2018, 13:25Не в тему, просто хочется уточнить.
"jan lawa" (человек-голова)
Цитата: Mona от февраля 16, 2018, 21:02
Так очевидно же, что любой человеческий язык использует простейший прием: любое самое сложное понятие при желании можно обозначить одним знаком, пусть и не совсем первородным. Так русское "президент" обозначает главу-1 государства-2 как-3 правило-3 обладающего-4 республиканской-5 формой-6 правления-7 (список при этом открытый: республика в составе федерации или сама по себе, объем полномочий может отличаться и т.п.). При этом некоторые "цифири" можно "разлагать" дальше и глубже. Что такое государство, республиканский и т.п. Но понятие "президент" примерно одинаково воспринимается людьми из государств, где роль президента существенно разнится.
В случае с токи-поной приходится продолжать нанизывать слова из базы во фразеологизмы (французский тоже любит это дело, но все же знает меру), когда нормальные языки просто берут новое слово в словарь. Это один из фундаментальных "ходов" человеческого языка и при этом наиболее естественный, экономичный и разумный. Если некое сложное понятие приходится выражать слишком часто, то почему бы не обозвать его одним словом. При этом Ципф остается ципфом, по-моему, т.е. к этому "трюку" никакого отношения по сути не имеет. Слово "президент" прекрасно ляжет потом во вполне справедливый закон Ципфа.
Где я тут неправ?
Цитата: svarog от февраля 16, 2018, 23:17Отличается. Слово - это между пробелами. А словосочетание аналогично последовательности знаков, рандомно вырванной из текста.
тогда статистически это ничем не отличается от слова
Страница создана за 0.017 сек. Запросов: 21.