Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.
Ограничения: максимум вложений в сообщении — 3 (3 осталось), максимальный размер всех файлов — 300 КБ, максимальный размер одного файла — 100 КБ
Снимите пометку с вложений, которые необходимо удалить
Перетащите файлы сюда или используйте кнопку для добавления файлов
Вложения и другие параметры
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр

Сообщения в этой теме

Автор Пракл
 - июля 11, 2024, 20:03
Цитата: Bhudh от июля 11, 2024, 18:40Местоимения этот морфологический парсер русского текста тоже прекрасно распознаёт.
Может он их просто игнорирует.

Цитата: Bhudh от июля 11, 2024, 18:40выучить синтаксис Lua за недельку?
Неделек мало, а извращенческих языков много. И синтаксисом там дело не обойдётся, ещё надо будет выучить семантику и прагматику. И больше недельки уйдёт.

Лучше бы дали ссылку на описание формата того файла:
https://raw.githubusercontent.com/instead-hub/metaparser/master/morph/morphs.mrd

UPD:
https://pymorphy.readthedocs.io/en/v0.5.4/ref/Morph_UNIX.html#mrd-file
Автор Bhudh
 - июля 11, 2024, 18:52
В чём проблема выучить синтаксис Lua за недельку?
Тем более работает он всё равно внутри программы с отличной графической оболочкой (всё же на ней обычно игры запускают).
Автор Пракл
 - июля 11, 2024, 18:48
Оно мне обязательно чем-нибудь не подойдёт.

> изнутри lua

О! Вот!
Автор Bhudh
 - июля 11, 2024, 18:40
Цитата: Пракл от июля 11, 2024, 18:31Тут выше кто-то утверждал, что чтобы всё разметить, нужно иметь словарь размером с весь языковой запас. Но:
во-первых, двести тысяч слов это не сказать чтобы много;
во-вторых, грузить надо не все из них, а только те, которые есть в тексте.

Надо же, как совпадает:
Цитата: В итоге, в метапарсере я использовал словарь, взяв за основу базу с http://aot.ru. К счастью, формат словаря оказался понятным. Кроме того, я нашел его черновое описание, и в итоге, мне удалось сконвертировать его для удобного распознавания изнутри lua. Фактически, за пару недель, решение проблемы склонений было найдено! Словарь в UTF-8 кодировке занимает около 8МБ и для повышения скорости и снижения объемов игры был выбран путь компиляции словаря для конкретной игры. В итоге, получаемый словарь был очень маленьким и быстрым, так как содержал только то, что нужно.

Цитата: Пракл от июля 11, 2024, 15:09Всё остальное - это иностранные технологии, которыми не владеют российские программисты. И не опенсорс, как правило.
Цитата: INSTEAD3 METAPARSER MODULE

This program is covered by the terms of the MIT license.

Check the COPYING file for license.

https://instead.hugeping.ru/page/metaparser/

Местоимения этот морфологический парсер русского текста тоже прекрасно распознаёт.
Осталось допилить вывод грамматической информации — и вуаля!
Автор Пракл
 - июля 11, 2024, 18:31
Там два приложения. Чуть позже я и второе скопировал.
У Вас-то самих как с этим компрехеншеном?

У меня новая мысль. Тут выше кто-то утверждал, что чтобы всё разметить, нужно иметь словарь размером с весь языковой запас. Но:
во-первых, двести тысяч слов это не сказать чтобы много;
во-вторых, грузить надо не все из них, а только те, которые есть в тексте.

И нет тут ничего такого, что остановило бы от подвигов.
Автор Bhudh
 - июля 11, 2024, 18:20
Цитата: Пракл от июля 11, 2024, 13:37В книге Чепасовой в конце есть список из 110 местоимений
Там что, так и написано: «Список из 110 местоимений»⁈
Или всё же «Частота употребления местоимений среди других частей речи»?

Может, именно поэтому
Цитата: Пракл от июля 11, 2024, 13:37однако многие слова там для меня на местоимения не похожи.

Прежде чем интересоваться термином «местоимение», поинтересуйтесь термином «reading comprehension».
Автор Пракл
 - июля 11, 2024, 16:47
«Личные местоимения, входящие в древнейший словарный фонд всех
языков мира и известные каждому говорящему на естественном языке с младенческих лет, тем не менее, до сих пор являются одной из самых «загадочных» частей речи, будучи трудно доступными для исчерпывающей и непротиворечивой научной интерпретации.» (ц)
2022, Гранева Ирина Юрьевна, Русские личные местоимения в свете интегрального описания языка

Всё, расходимся, у учёных нет исчерпывающей теории.
Автор Пракл
 - июля 11, 2024, 16:08
Цитата: Andrey Lukyanov от июля 11, 2024, 15:27это очень даже не просто

Разве я где-то спорил с тем, что это непросто? Вы уже второй раз об этом говорите, что сказать-то хотите? Хотите самоутвердить своё ЧСВ, мол насколько Вы лучше понимаете сложность, не то что тот, который тупые вопросы задаёт?

В идеале мне надо чтобы программа не только нашла, на что местоимения ссылаются, но и сама всё позаменяла. Подготовила, так сказать, сразу идеальный результат. А подсвечивать надо как раз для того, чтобы человеки перепроверили в интерактивном режиме.
Автор Andrey Lukyanov
 - июля 11, 2024, 15:27
Цитата: Пракл от июля 11, 2024, 15:09Считается, что при разработке технической документации чем меньше местоимений, тем лучше. Спросил простую утилиту.
Что значит «простую»?

Если Вам нужно приблизительно оценить количество местоимений в тексте — то это действительно несложно. Составляете список нужных словоформ и смотрите, сколько раз они встречаются в тексте. На омонимы можно особо не обращать внимания.

А если Вы хотите к каждому местоимению привесить ссылку на то слово, которое оно замещает — то это очень даже не просто.
Автор Пракл
 - июля 11, 2024, 15:09
Цитата: Andrey Lukyanov от июля 11, 2024, 14:52Переводчики, синтезаторы речи, спелчекеры — не работают с русским языком?

Переводчик у нас один, который разрабатывал Мельчук (ЭТАП-3), и потом технология пошла в яндекс. Всё остальное - это иностранные технологии, которыми не владеют российские программисты. И не опенсорс, как правило.

Считается, что при разработке технической документации чем меньше местоимений, тем лучше. Спросил простую утилиту. И всё, вся экспертиза сразу закончилась.

Глядя на литературу можно сказать, что бо́льшая её часть из СССР, была создана в докомпьютерную эпоху, и не отражает потребности компьютерных лингвистов.