Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Подсчитать частотность

Автор nihao, ноября 23, 2008, 09:28

0 Пользователи и 1 гость просматривают эту тему.

nihao

Кто знает, какие есть программы, чтобы подсчитать частотность слов в тексте? Скажем, имеется текст, программа анализирует его и выдаёт: такое-то слово встречается 100 раз, такое-то 90, и так для всех слов.
Трое наскочат — первого заколи, второго застрели, третьему штыком карачун.
Суворов

iopq

берешь, открываешь, делаешь поиск и смотришь сколько результатов
Excel умеет такое делать
Poirot: Я, кстати, тоже не любитель выпить, хоть и русский.
jvarg: Профессионал? ;)

nihao

Посмотрел. Команда "найти" такого не делает. Но в разделе Сервис можно установить надстройку для статистического анализа. Правда, у меня это не получается, требует вставить диск с Excel, а у меня он колотый и никаких надстроек конечно не установить.

А в Ворде - да, можно в диалоговом окне "найти" сделать "показать все", и он пишет, сколько вхождений. Но как я хотел, чтоб тебе прямо статистику по всем словам - такого нема.
Трое наскочат — первого заколи, второго застрели, третьему штыком карачун.
Суворов

myst

Цитата: "nihao" от
Кто знает, какие есть программы, чтобы подсчитать частотность слов в тексте?
Я делал пару таких «зубочисток» на Ruby и CL. Могу поискать, если хотите.

jvarg

Цитата: "nihao" от
Кто знает, какие есть программы, чтобы подсчитать частотность слов в тексте? Скажем, имеется текст, программа анализирует его и выдаёт: такое-то слово встречается 100 раз, такое-то 90, и так для всех слов
Для какого языка? Если словоформы практически неизменны, как в англйском - то написать программу легко. Если есть падежные окончания, как в русском - уже сложнее.
Все боятся быть обвинёнными в ксенофобии. А вот в русофобии никто.
(© Захар Прилепин)

myst

Цитата: "jvarg" от
Если есть падежные окончания, как в русском - уже сложнее.
Для русского, английского и немецкого есть кое-какие наработки по морфологии здесь. Сам пока ещё не пробовал.

myst

Некоторые ссылки на инструменты и ресурсы, связанные с обработкой текстов на естественных языках:
http://gate.ac.uk/
http://opennlp.sourceforge.net/
http://nltk.org/index.php/Main_Page
http://www.sil.org/linguistics/computing.html
http://www.linguistlist.org/
http://www.linguastream.org/
http://www.lt-world.org/

Правда, с поддержкой русского языка там не очень весело.

Nekto

А если не программы, а просто списки наиболее частотных слов для разных языков где посмотреть?
У меня есть список для английского...

Ahori

А гуглить не пробовали? :) как-то мне нужно было найти частотность букв русского алфавита, частотность слов в английском языке - и то и другое минуты за две находится..

myst

Цитата: "Nekto" от
А если не программы, а просто списки наиболее частотных слов для разных языков где посмотреть?
«НОВЫЙ ЧАСТОТНЫЙ СЛОВАРЬ РУССКОЙ ЛЕКСИКИ» не подойдёт?

Nekto

Цитата: Ahori от ноября 23, 2008, 15:52
А гуглить не пробовали? :)

Не пробовал! Меня иногда такие приступы лени одолевают, что лень думать, не то, что гуглить... :) :-[

nihao

Цитата: Nekto от ноября 23, 2008, 15:47
А если не программы, а просто списки наиболее частотных слов для разных языков где посмотреть?
У меня есть список для английского...

А если интересует язык довольно редкий? Вот, то-то. Надо считать.
Трое наскочат — первого заколи, второго застрели, третьему штыком карачун.
Суворов

nihao

НАДО, надобно, влад. надобе, стар. и сев. надобеть, орл. надобить, перм. надовно, арх. надотка, надоткабы; надоть, надоти, надось нареч. и безличн. глаг. нужно, должно, следует, необходимо, надлежит, требуется, потребно.

http://slovari.yandex.ru/dict/dal/article/dal/03120/59900.htm?text=надоть
Трое наскочат — первого заколи, второго застрели, третьему штыком карачун.
Суворов

nihao

Всё равно ведь надо писать этот алгоритм в какой-то программе, а я вообще их в руки не брал.
Трое наскочат — первого заколи, второго застрели, третьему штыком карачун.
Суворов

myst

Цитата: "nihao" от
Всё равно ведь надо писать этот алгоритм в какой-то программе, а я вообще их в руки не брал.
Я уже писа́л, у меня где-то валяется такая программа. Могу поискать. Но она написана на Common Lisp, поэтому Вам понадобится реализация этого языка, чтобы ею воспользоваться.

Вы мои ссылки смотрели? Там есть готовые инструменты для работы с естественными языками.

nihao

Да, спасибо за ссылки, я лучше в них покопаюсь как следует сперва.
Если прижмёт - обращусь  :UU:
Трое наскочат — первого заколи, второго застрели, третьему штыком карачун.
Суворов

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр