Author Topic: Принцип 80-20  (Read 1854 times)

0 Members and 1 Guest are viewing this topic.

Offline Rwseg

  • Posts: 7026
  • Gender: Male
  • Русег
on: January 12, 2014, 17:48
Одна тема натолкнула меня на мысль. Может ли быть так, что самые частотные слова (леммы), составляющие 80% текста, несут лишь 20% смысловой нагрузки, когда оставшие более редкие слова, составляющие 20% текста, несут 80% смысловой нагрузки?

Offline Тайльнемер

  • Posts: 12735
  • Σοι υν βυρρο. Ix bin æn ézl
Reply #1 on: January 13, 2014, 06:40
Чтобы считать проценты, нужно как-то формализовать понятие смысловой нагрузки. Иначе все эти цифры не будут иметь смысла.
Вряд ли можно предложить какую-то одну модель, про которую бы все сказали: «Вот именно это и есть “смысловая нагрузка”». Скорее всего, придётся придумать нечто, отдалённо напоминающее смысловую нагрузку.

Например, можно использовать теоретико-информационный подход. В теории информации количество информации сообщения определяется, грубо говоря, как минус логарифм вероятности того, что собщение содержит именно то, что содержит.
Т. е., если «смысловой нагрузкой слова в тексте» называть количество информации, которое даёт это слово, то получается как раз очень похожая картина — чем частотнее слово, тем меньше информации (в битах) оно несёт. Ну и, при желании, можно в процентах посчитать.

Offline Hellerick

  • Posts: 29340
  • Gender: Male
Reply #2 on: January 13, 2014, 07:11
Вывод: чтобы текст был информативнее, там надо использовать слова типа «ежели» и «восвояси».

Offline Тайльнемер

  • Posts: 12735
  • Σοι υν βυρρο. Ix bin æn ézl
Reply #3 on: January 13, 2014, 08:00
:)

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: