Синтаксические парсеры и компьютерная онтология

Автор Марбол, ноября 12, 2021, 22:51

0 Пользователи и 1 гость просматривают эту тему.

Марбол

Здравствуйте!

Почитал немного популярных заметок и первые попавшиеся русскоязычные научные публикации по этой теме. Раньше сам думал над этим вопросом в своих целях и читал книгу И. А. Мельчука о модели «Смысл ⇔ Текст» (сокращенное издание). В некоторых публикациях отмечается, что синтаксический анализ будет статистически более точным и будет выполняться за меньшее время (в общем, будет эффективнее), если в процессе оценки каждой вероятной синтаксической связи использовать описание семантики языка в виде компьютерной онтологии. Короче говоря, синтаксические парсеры должны быть более эффективными, если используют компьютерную онтологию.

В связи с этим у меня возник вопрос: есть ли работы по работоспособным синтаксическим парсерам, в которых уже успешно и систематически привлекается машинная онтология?

Далее, ещё вопрос. Ведь в самом корпусе текстов уже и содержится частично онтология языка, а можно её ввести и расширить целенаправленно в виде дополнительных авторитетных текстов на этом же языке. Известны ли проекты синтаксических анализаторов, в которых используется корпус текстов в качестве основного описания онтологии?

Andrey Lukyanov

Я вообще думаю, что невозможно создать адекватную компьютерную модель языка, не создав сначала компьютерную модель мира, который этот язык должен описывать. А вот с этим большие проблемы.

Марбол

Я не успел дописать кое-что, поэтому дублирую:



Далее, ещё вопрос. Ведь в самом корпусе текстов уже и содержится частично онтология языка, а можно её ввести и расширить целенаправленно в виде дополнительных авторитетных текстов на этом же языке. То есть лексические значения могут быть описаны в специальном машинном представлении, но это лишь базовая, малая часть онтологии. А более полное описание семантики языка, описание допустимых интерпретаций контекста и т. п. может быть извлечено из того же самого или из дополнительного корпуса текстов с помощью синтаксического парсера и базовой части онтологии. То есть получается рекурсивный алгоритм, для работы которого надо только указать иерархию текстов с точки зрения онтологической "авторитетности", так сказать — то есть, указать, какие тексты и предложения содержат аксиоматическую информацию и по отношению к каким другим текстам.
Известны ли проекты синтаксических анализаторов, в которых таким способом используется корпус текстов — в качестве основного и прямого описания онтологии?

Марбол

Цитата: Andrey Lukyanov от ноября 12, 2021, 23:06
Я вообще думаю, что невозможно создать адекватную компьютерную модель языка, не создав сначала компьютерную модель мира, который этот язык должен описывать. А вот с этим большие проблемы.

В общем, в том числе, И. А. Мельчук об этом писал в своих работах и о том, что такая модель должна иметь объём, равный объёму человеческих представлений о мире.

злой

Может, RawonaM знает, он в какой-то смежной области работал, если мне не изменяет память.
Entre los individuos, como entre las naciones, el respeto al derecho ajeno es la paz.   - Benito Juárez

Марбол

Цитата: злой от ноября 12, 2021, 23:16
Может, RawonaM знает, он в какой-то смежной области работал, если мне не изменяет память.

Да, точно, надо будет его спросить.

злой

Цитата: Марбол от ноября 12, 2021, 23:14
Цитата: Andrey Lukyanov от ноября 12, 2021, 23:06
Я вообще думаю, что невозможно создать адекватную компьютерную модель языка, не создав сначала компьютерную модель мира, который этот язык должен описывать. А вот с этим большие проблемы.

В общем, в том числе, И. А. Мельчук об этом писал в своих работах и о том, что такая модель должна иметь объём, равный объёму человеческих представлений о мире.

Выскажу своё суждение на уровне кухонного разговора. Понятие контекста - либо субъективно воспринимается человеком, и должно быть конкретно описано, либо будет чисто механистическим (какими смежными понятиями и их связями с весами оно окружено). То есть, грубо, чтобы машина сама, исходя из заданных примитивов, с их последующим усложнением за счёт самообучающихся алгоритмов составила для себя понятие контекста - это уже волшебство будет. Простой пример из Интернета: перевод фразы "сосиска в тесте" как "sausage in father-in-law". Машина либо просто выстроит взвешенные графы между понятиями "сосиска" и "тесто", с учётом синтаксических ролей и прочего, либо мы должны априорно задать ей некоторые "контексты". Может ли программа перевариванием корпусов текстов правильно "взвесить" графы, чтобы, как человек, легко определять контекст - вопрос, конечно, интересный. Даже, допустим, мы формализуем все флексии внутри слова, которые человек определяет интуитивно, предусмотрим некоторую вариативность, заложим эти алгоритмы в компьютер, обучим программу прогонкой большого количества текста - на 100% точно, судя по работе электронных переводчиков, машина пока контекст определять не умеет. Сумеет ли, если будет определено и формализовано больше закономерностей, покажет время.
Entre los individuos, como entre las naciones, el respeto al derecho ajeno es la paz.   - Benito Juárez

Michael F

Онтологии на сегодня, как по мне, это чисто теоретическая модель. Даже в структурированных моделях предпочитают ML сегодня, парсинг языка и вовсе невозможен адекватными усилиями за счет онтологии из-за динамичной и неопределимой природы самого языка. Нейросети же дают приближение, которое не даёт структуру напрямую, зато позволяет более-менее адекватно реагировать на неструктурированный пользовательский ввод.

Пракл

Здравствуйте, как у Вас продвижения в компьютерной лингвистике? Чего удалось добиться? Собрали ли Вы себе приватный корпус текстов, для обработки при помощи вашего экспериментального программного обеспечения?
Начали ли создавать онтологию? Какой-нибудь формат ей придумали?

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр