Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Валентности русских глаголов

Автор Марбол, ноября 10, 2021, 03:13

0 Пользователи и 1 гость просматривают эту тему.

Марбол

Здравствуйте!

Раньше я заинтересовался темой лексической и синтаксической сочетаемости слов и понял, что для СРЛЯ не существует полного комбинаторного словаря, в котором были бы указаны, как минимум, все устойчиво реализуемые валентности лексических единиц, уже не говоря о семантической сочетаемости. Существуют только словарные пометы о переходности-непереходности и некоторые пометы о глагольном управлении.

Поэтому я решил опытным путём определить, насколько трудоёмким может быть если не само создание такого словаря, то хотя бы предварительная подготовка и разметка материала. Если ограничиться глагольным управлением, то можно поставить задачу так. Каждый глагол потенциально может управлять именными объектами с помощью пяти различных беспредложных падежных форм (с именительным падежом, но без предложного) и пяти различных  предложно-падежных (кроме именительного падежа). В сумме имеем десять различных форм управления именными объектами — десять признаков валентности. Каждый из них — бинарный: данная форма управления либо используется, либо нет. Пока оставим в стороне проблемы возможной неединственности предлогов в предложно-падежных формах, ограничений по семантической сочетаемости глагола и объекта, вероятной группировки валентностей друг с другом и т. п. На этом этапе надо только оценить производительность работ и эффекты автоматизации.

Для этого я взял электронную версию грамматического словаря ак. А. А. Зализняка, выбрал из неё глагольную часть и импортировал в рабочую книгу эксель. Потом написал макрос, который помогает указать для каждого глагола перечень бинарных признаков валентности. Этот макрос вначале запрашивает у пользователя, по какому признаку надо вести обработку. Потом открывает файл с списком глагольных лемм и смещается на последнюю обработанную единицу. Дальше макрос извлекает из файла одну за другой необработанные леммы и с каждой из них делает следующее. Новая лемма показывается пользователю, и тот должен ответить, возможен ли у неё заданный признак валентности. Полученный ответ записывается при этой лемме в особом формате, и макрос переходит к следующей лемме.

В более простом виде обработка заключается в том, что надо самостоятельно просмотреть список лемм в экселе, и если некоторая лемма допускает заданный признак, то в ячейке рядом с этой леммой надо поставить какой-то непустой символ. Каждому признаку валентности соответствует отдельная колонка ячеек для пометок. В итоге получим таблицу эксель, в которой напротив каждой глагольной леммы стоят пустые или непустые пометки по всем признакам валентности. Ну, или аналогичный текстовый файл.

Я не стал проводить такую обработку полностью, а только оценил её трудоемкость. Получилось, что за час можно обработать до 2000 лемм с помощью макроса и до 1000 лемм без него. В ГС А. А. Зализняка приведено 19024 глагольных лемм, то есть всего имеем 190000 значений признаков валентности. Если в день обрабатывать до 4000 лемм в среднем ежедневно, то на обработку всего списка одному человеку потребуется не менее 48 дней.

При этом следует опираться только на собственную языковую интуицию, что уже вносит некоторую долю ошибок в результаты.

Некоторые признаки валентности непустые у подавляющего большинства глаголов и фактически связаны с обстоятельствами, выраженными предложно-падежными словосочетаниями. Например, "в понедельник(-и)", "по понедельникам", "на/в том месте" и т. п. С другой стороны, у непереходных  глаголов признак беспредложного прямого управления объектом пуст, что автоматически определено специальным символом непереходности в ГС А. А. Зализняка. В общем, можно специальными способами немного снизить объем работы.

Марбол

К настоящему времени я успел маркировать только управление беспредложным винительным падежом с "идтись" по "забурчать". 

Awwal12

Фашиствующий имперец, асексуал и многожёнец, татарофоб, заслуженный функционер РПЦ. Слушает радио "Радонеж" и терпеть не может счастливых людей.

"Да здравствуют ДОЯРКИ!! Потому что доярки - это раса сверхчеловеков. За ними будущее планеты. Они переживут даже атомную войну, потому что доярки вечны, ибо хтоничны. И дадут потомство, которое тоже будет доярами и доярками. Ура, товарищи!.." (c) Awwal12

Марбол

Цитата: Марбол от ноября 10, 2021, 03:13
Например, "в понедельник(-и)", "по понедельникам", "на/в том месте" и т. п

Сюда тоже относится генитивная конструкция "возле кого/чего".

Марбол

В принципе, если я верно понимаю, в тех современных ИНС, которые предназначены для пересказа текстов, описания изображений, машинного перевода, наверное, вся эта информация уже содержится.

Марбол

Цитата: Марбол от ноября 10, 2021, 18:57К настоящему времени я успел маркировать только управление беспредложным винительным падежом с "идтись" по "забурчать".

— и ещё маркировал у всех глаголов валентность согласования с именительным падежом  :-\.

Марбол

Сегодня я открыл для себя :), что в толковом словаре, например, Ожегова явно указано большинство валентностей управления глаголов в виде местоимений, поэтому для начала можно просто написать программу, которая извлечет все эти признаки из словарных статей и переведет в нужный формат. Но не вся информация есть у Ожегова: например, "дерзить" — управление дательным падежом "кому" указано не явно, а лексически в примере в толковательном определении. И есть ещё много таких примеров неполноты. Вероятно, по другим толковым словарям можно частично восполнить пробелы.

Есть словарь глагольного управления Розенталя, у которого, однако, слишком малый объем, а по имеющимся единицам там неполная информация: например, берём наугад, "доверять"  — что, в чём. — А почему нет валентности "кому-чему"? Или нет глагола "доверить" — наверное, поскольку это видовая пара к предыдущему. Или есть "дублированный" (фильм), но нет "дублировать" (не только с этим значением). И так далее. То есть не всё так однозначно.

Ручная разметка ещё может быть нужна для маркировки валентностей других частей речи. Например, "судья" — кого-чего, кому-чему,... — и т. д.

Марбол

Сегодня я открыл для себя :-), что уже давно ведётся разработка тезуаруса русского языка RussNet http://project.phil.spbu.ru/RussNet/index_ru.shtml. В том числе, они уже проделали большую работу по описанию системы валентностей, выявили их различные категории и т. д. Эту информацию можно найти в их публикациях. Кроме того, в этой разработке грамматические характеристики лексем связываются с семантическими.

Poirot

Offtop
Фигасе! Марбол нарисовался. Сколько лет, сколько зим!
"Из-за плохой видимости через тепловизор прицела я увидел на расстоянии около 250 метров силуэт парнокопытного, внешне похожего на крупного кабана."

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр