Хочу программу, размечающую местоимения в тексте

Автор Пракл, июля 10, 2024, 08:20

0 Пользователи и 1 гость просматривают эту тему.

Пракл

Цитата: Andrey Lukyanov от июля 11, 2024, 14:52Переводчики, синтезаторы речи, спелчекеры — не работают с русским языком?

Переводчик у нас один, который разрабатывал Мельчук (ЭТАП-3), и потом технология пошла в яндекс. Всё остальное - это иностранные технологии, которыми не владеют российские программисты. И не опенсорс, как правило.

Считается, что при разработке технической документации чем меньше местоимений, тем лучше. Спросил простую утилиту. И всё, вся экспертиза сразу закончилась.

Глядя на литературу можно сказать, что бо́льшая её часть из СССР, была создана в докомпьютерную эпоху, и не отражает потребности компьютерных лингвистов.

Andrey Lukyanov

Цитата: Пракл от июля 11, 2024, 15:09Считается, что при разработке технической документации чем меньше местоимений, тем лучше. Спросил простую утилиту.
Что значит «простую»?

Если Вам нужно приблизительно оценить количество местоимений в тексте — то это действительно несложно. Составляете список нужных словоформ и смотрите, сколько раз они встречаются в тексте. На омонимы можно особо не обращать внимания.

А если Вы хотите к каждому местоимению привесить ссылку на то слово, которое оно замещает — то это очень даже не просто.

Пракл

Цитата: Andrey Lukyanov от июля 11, 2024, 15:27это очень даже не просто

Разве я где-то спорил с тем, что это непросто? Вы уже второй раз об этом говорите, что сказать-то хотите? Хотите самоутвердить своё ЧСВ, мол насколько Вы лучше понимаете сложность, не то что тот, который тупые вопросы задаёт?

В идеале мне надо чтобы программа не только нашла, на что местоимения ссылаются, но и сама всё позаменяла. Подготовила, так сказать, сразу идеальный результат. А подсвечивать надо как раз для того, чтобы человеки перепроверили в интерактивном режиме.

Пракл

«Личные местоимения, входящие в древнейший словарный фонд всех
языков мира и известные каждому говорящему на естественном языке с младенческих лет, тем не менее, до сих пор являются одной из самых «загадочных» частей речи, будучи трудно доступными для исчерпывающей и непротиворечивой научной интерпретации.» (ц)
2022, Гранева Ирина Юрьевна, Русские личные местоимения в свете интегрального описания языка

Всё, расходимся, у учёных нет исчерпывающей теории.

Bhudh

Цитата: Пракл от июля 11, 2024, 13:37В книге Чепасовой в конце есть список из 110 местоимений
Там что, так и написано: «Список из 110 местоимений»⁈
Или всё же «Частота употребления местоимений среди других частей речи»?

Может, именно поэтому
Цитата: Пракл от июля 11, 2024, 13:37однако многие слова там для меня на местоимения не похожи.

Прежде чем интересоваться термином «местоимение», поинтересуйтесь термином «reading comprehension».
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Пракл

Там два приложения. Чуть позже я и второе скопировал.
У Вас-то самих как с этим компрехеншеном?

У меня новая мысль. Тут выше кто-то утверждал, что чтобы всё разметить, нужно иметь словарь размером с весь языковой запас. Но:
во-первых, двести тысяч слов это не сказать чтобы много;
во-вторых, грузить надо не все из них, а только те, которые есть в тексте.

И нет тут ничего такого, что остановило бы от подвигов.

Bhudh

Цитата: Пракл от июля 11, 2024, 18:31Тут выше кто-то утверждал, что чтобы всё разметить, нужно иметь словарь размером с весь языковой запас. Но:
во-первых, двести тысяч слов это не сказать чтобы много;
во-вторых, грузить надо не все из них, а только те, которые есть в тексте.

Надо же, как совпадает:
Цитата: В итоге, в метапарсере я использовал словарь, взяв за основу базу с http://aot.ru. К счастью, формат словаря оказался понятным. Кроме того, я нашел его черновое описание, и в итоге, мне удалось сконвертировать его для удобного распознавания изнутри lua. Фактически, за пару недель, решение проблемы склонений было найдено! Словарь в UTF-8 кодировке занимает около 8МБ и для повышения скорости и снижения объемов игры был выбран путь компиляции словаря для конкретной игры. В итоге, получаемый словарь был очень маленьким и быстрым, так как содержал только то, что нужно.

Цитата: Пракл от июля 11, 2024, 15:09Всё остальное - это иностранные технологии, которыми не владеют российские программисты. И не опенсорс, как правило.
Цитата: INSTEAD3 METAPARSER MODULE

This program is covered by the terms of the MIT license.

Check the COPYING file for license.

https://instead.hugeping.ru/page/metaparser/

Местоимения этот морфологический парсер русского текста тоже прекрасно распознаёт.
Осталось допилить вывод грамматической информации — и вуаля!
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Пракл


Bhudh

В чём проблема выучить синтаксис Lua за недельку?
Тем более работает он всё равно внутри программы с отличной графической оболочкой (всё же на ней обычно игры запускают).
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Пракл

Цитата: Bhudh от июля 11, 2024, 18:40Местоимения этот морфологический парсер русского текста тоже прекрасно распознаёт.
Может он их просто игнорирует.

Цитата: Bhudh от июля 11, 2024, 18:40выучить синтаксис Lua за недельку?
Неделек мало, а извращенческих языков много. И синтаксисом там дело не обойдётся, ещё надо будет выучить семантику и прагматику. И больше недельки уйдёт.

Лучше бы дали ссылку на описание формата того файла:
https://raw.githubusercontent.com/instead-hub/metaparser/master/morph/morphs.mrd

UPD:
https://pymorphy.readthedocs.io/en/v0.5.4/ref/Morph_UNIX.html#mrd-file

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр