Лингвофорум

Теоретический раздел => Общая лингвистика => Принципы лингвистики => Тема начата: Rwseg от января 12, 2014, 15:48

Название: Принцип 80-20
Отправлено: Rwseg от января 12, 2014, 15:48
Одна тема (http://lingvoforum.net/index.php/topic,65077.0.html) натолкнула меня на мысль. Может ли быть так, что самые частотные слова (леммы), составляющие 80% текста, несут лишь 20% смысловой нагрузки, когда оставшие более редкие слова, составляющие 20% текста, несут 80% смысловой нагрузки?
Название: Принцип 80-20
Отправлено: Тайльнемер от января 13, 2014, 04:40
Чтобы считать проценты, нужно как-то формализовать понятие смысловой нагрузки. Иначе все эти цифры не будут иметь смысла.
Вряд ли можно предложить какую-то одну модель, про которую бы все сказали: «Вот именно это и есть "смысловая нагрузка"». Скорее всего, придётся придумать нечто, отдалённо напоминающее смысловую нагрузку.

Например, можно использовать теоретико-информационный подход. В теории информации количество информации сообщения определяется, грубо говоря, как минус логарифм вероятности того, что собщение содержит именно то, что содержит.
Т. е., если «смысловой нагрузкой слова в тексте» называть количество информации, которое даёт это слово, то получается как раз очень похожая картина — чем частотнее слово, тем меньше информации (в битах) оно несёт. Ну и, при желании, можно в процентах посчитать.
Название: Принцип 80-20
Отправлено: Hellerick от января 13, 2014, 05:11
Вывод: чтобы текст был информативнее, там надо использовать слова типа «ежели» и «восвояси».
Название: Принцип 80-20
Отправлено: Тайльнемер от января 13, 2014, 06:00
:)