Захотелось мне сегодня посмотреть в Excel, как у нас соотносятся частотность слова с его длиной и стечениями согласных. Года два назад на основе тогдашнего корпуса текстов была составлена таблица частотности, по типу: слово – сколько раз встречается; самые частотные слова сверху, далее по убывающей. С первой 1000 слов сей таблицы и были выполнены нехитрые вычисления. Во-первых, вот какой график получается при построении зависимости «номер в таблице – длина слова». Здесь красным обозначена «линия тренда». Длинные слова – это обычно составные, типа kukishamba (кухня).