Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Принцип 80-20

Автор Rwseg, января 12, 2014, 15:48

0 Пользователи и 1 гость просматривают эту тему.

Rwseg

Одна тема натолкнула меня на мысль. Может ли быть так, что самые частотные слова (леммы), составляющие 80% текста, несут лишь 20% смысловой нагрузки, когда оставшие более редкие слова, составляющие 20% текста, несут 80% смысловой нагрузки?

Тайльнемер

Чтобы считать проценты, нужно как-то формализовать понятие смысловой нагрузки. Иначе все эти цифры не будут иметь смысла.
Вряд ли можно предложить какую-то одну модель, про которую бы все сказали: «Вот именно это и есть "смысловая нагрузка"». Скорее всего, придётся придумать нечто, отдалённо напоминающее смысловую нагрузку.

Например, можно использовать теоретико-информационный подход. В теории информации количество информации сообщения определяется, грубо говоря, как минус логарифм вероятности того, что собщение содержит именно то, что содержит.
Т. е., если «смысловой нагрузкой слова в тексте» называть количество информации, которое даёт это слово, то получается как раз очень похожая картина — чем частотнее слово, тем меньше информации (в битах) оно несёт. Ну и, при желании, можно в процентах посчитать.

Hellerick

Вывод: чтобы текст был информативнее, там надо использовать слова типа «ежели» и «восвояси».

Тайльнемер


Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр