Ответ

Добро пожаловать на Лингвофорум.
Войти
Регистрация

октября 2, 2025, 16:49

Главное меню

Начало

Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Лингвофорум
► Общий раздел
► Наука и техника
► Компьютеры
► Ответ ( От: Посоветуйте программу для подсчета количества слов в � )

Ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя
Имейл
Тема сообщения
Иконка

Вложения: (Удалить вложения)

Ограничения: максимум вложений в сообщении — 3 (3 осталось), максимальный размер всех файлов — 300 КБ, максимальный размер одного файла — 100 КБ

Снимите пометку с вложений, которые необходимо удалить

Перетащите файлы сюда или используйте кнопку для добавления файлов

Впишите ширину (px):

Впишите высоту (px):

(Удалить вложения)

Вложения и другие параметры

Вернуться в тему после ответа
Не использовать смайлики

Проверка:

Оставьте это поле пустым:

Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:

ALT+S — отправить
ALT+P — предварительный просмотр

Сообщения в этой теме

Автор Rwseg

- декабря 7, 2013, 10:38

Цитата: Morugesso от декабря 1, 2013, 12:40
так как хотелось бы чтобы поиск производился по корню слова, однако, как видно, таких программ еще не придумали.

Для этого существуют лемматизаторы.

Автор Morugesso

- декабря 1, 2013, 12:40

Автор, если еще актуально $:-\$ , есть программа которой сама пользуюсь - SimWordSorter, она вытаскивает из текста частоту используемых слов, делает отчет по ним, правда она меня полностью не удовлетворяет, так как хотелось бы чтобы поиск производился по корню слова, однако, как видно, таких программ еще не придумали. Но в принципе, это решаемо посредством автосортировки отчетных данных в экселе. Есть еще программа для писателей ywriter5 - там тоже есть функция подсчета повторяемости слов

Автор Rwseg

- октября 23, 2013, 19:28

http://neon.niederlandistik.fu-berlin.de/en/textstat/

Автор Славен

- октября 9, 2013, 17:06

Text::Statistics::Cyrillic creates a seven column CSV file output with one line each token per text given as input a corpus that files names follows ' 1 (1). txt', '1 (2). txt', ..., '1 (n).txt' or 1 $([1-9]|[1-9][0-9]+)$\.txt Columns stores statistical information: (1) number of word forms in document d; (2) number of tokens in d; (3) Id number of d, ie., n; (4) frequency of term t in d; (5) corpus frequency of t ; (6) document frequency of t (number of documents where t occurs at least once); (7) t, UTF8 latin coded token-string

https://metacpan.org/module/Text::Statistics::Cyrillic

yatea - Perl script for extracting terms from a corpus of texts and providing a syntactic analysis in a head-modifier representation.

https://metacpan.org/module/THHAMON/Lingua-YaTeA-0.622/bin/yatea

Автор Toman

- октября 6, 2013, 19:44

Цитата: arseniiv от октября 6, 2013, 19:06
Это работает, по крайней мере, быстрее, чем циклы по массивам.

Вот в частности за это я не люблю джаваскрипт. Всё-таки нормальные массивы должны быть. И если бы они были, перебор сравнительно короткого массива на равенство строк имел бы шансы быть не медленнее, чем поиск по ключу. А так, когда даже доступ к каждому элементу массива работает через тот же поиск по ключу - конечно, перебор массива будет медленнее, чем один поиск по ключу.
С одной стороны, такое вот единообразие всех объектов - оно вроде и красиво (и за это мне джаваскрипт нравится), но вот даже не портя этого, можно было бы организовать правильный быстрый доступ по целочисленным ключам без какого-либо поиска - тогда существенных потерь времени на это не было бы. Даже если в 3 раза медленнее поиска по ключу - но всё-таки не в 100 раз медленнее.
Конечно, если бы у меня была привычка в джаваскрипте работать с объектами как с перловскими хешами/словарями и воспринимать их в первую очередь именно как словари, я бы, вполне возможно, так и сделал. Но такой привычки, по крайней мере, в то время, когда был написан этот скрипт (а это было примерно время моего первого появления на ЛФ), у меня не было.

Автор Bhudh

- октября 6, 2013, 19:19

Цитата: Toman от октября 6, 2013, 19:08Вообще, НЯП, в джаваскрипте каких-то отдельных массивов нет, они такие же "объекты", как и прочие.

Не совсем такие же.
Конструктор Array() что-то там переопределяет, ту же toString(), к примеру.

Автор Bhudh

- октября 6, 2013, 19:16

Цитата: Toman от октября 6, 2013, 19:08По вашей же ссылке прямым текстом написано, что сработает.

А, это я не так выразился. Не сработает поиск значения как ключа, бо ключ там как раз число.

Автор Toman

- октября 6, 2013, 19:08

Цитата: Bhudh от октября 6, 2013, 19:00
Для массива оператор in не сработает.

По вашей же ссылке прямым текстом написано, что сработает. Вообще, НЯП, в джаваскрипте каких-то отдельных массивов нет, они такие же "объекты", как и прочие. Просто в качестве ключей при создании используются целые числа.

Автор arseniiv

- октября 6, 2013, 19:06

Ладно, другое.

function makePredicate(list) {
var d = {};
var len = list.length;
for (i = 0; i < len; i++)
d[list] = true;
function predicate(elem) {
return d[elem];
}
return predicate;
}

Использование:

var isCapital = makePredicate("ABCDEFG...")
// ...
... isCapital(c) ...

Это работает, по крайней мере, быстрее, чем циклы по массивам.

Автор Bhudh

- октября 6, 2013, 19:00

Цитата: Toman от октября 6, 2013, 18:38Индекс_элемента in массив.

Ключ_элемента in объект. Для массива оператор in не сработает.

Лингвофорум

Ответ

Сообщения в этой теме

Автор Rwseg

Автор Morugesso

Автор Rwseg

Автор Славен

Автор Toman

Автор Bhudh

Автор Bhudh

Автор Toman

Автор arseniiv

Автор Bhudh