Здравствуйте!
Раньше я заинтересовался темой лексической и синтаксической сочетаемости слов и понял, что для СРЛЯ не существует полного комбинаторного словаря, в котором были бы указаны, как минимум, все устойчиво реализуемые валентности лексических единиц, уже не говоря о семантической сочетаемости. Существуют только словарные пометы о переходности-непереходности и некоторые пометы о глагольном управлении.
Поэтому я решил опытным путём определить, насколько трудоёмким может быть если не само создание такого словаря, то хотя бы предварительная подготовка и разметка материала. Если ограничиться глагольным управлением, то можно поставить задачу так. Каждый глагол потенциально может управлять именными объектами с помощью пяти различных беспредложных падежных форм (с именительным падежом, но без предложного) и пяти различных предложно-падежных (кроме именительного падежа). В сумме имеем десять различных форм управления именными объектами — десять признаков валентности. Каждый из них — бинарный: данная форма управления либо используется, либо нет. Пока оставим в стороне проблемы возможной неединственности предлогов в предложно-падежных формах, ограничений по семантической сочетаемости глагола и объекта, вероятной группировки валентностей друг с другом и т. п. На этом этапе надо только оценить производительность работ и эффекты автоматизации.
Для этого я взял электронную версию грамматического словаря ак. А. А. Зализняка, выбрал из неё глагольную часть и импортировал в рабочую книгу эксель. Потом написал макрос, который помогает указать для каждого глагола перечень бинарных признаков валентности. Этот макрос вначале запрашивает у пользователя, по какому признаку надо вести обработку. Потом открывает файл с списком глагольных лемм и смещается на последнюю обработанную единицу. Дальше макрос извлекает из файла одну за другой необработанные леммы и с каждой из них делает следующее. Новая лемма показывается пользователю, и тот должен ответить, возможен ли у неё заданный признак валентности. Полученный ответ записывается при этой лемме в особом формате, и макрос переходит к следующей лемме.
В более простом виде обработка заключается в том, что надо самостоятельно просмотреть список лемм в экселе, и если некоторая лемма допускает заданный признак, то в ячейке рядом с этой леммой надо поставить какой-то непустой символ. Каждому признаку валентности соответствует отдельная колонка ячеек для пометок. В итоге получим таблицу эксель, в которой напротив каждой глагольной леммы стоят пустые или непустые пометки по всем признакам валентности. Ну, или аналогичный текстовый файл.
Я не стал проводить такую обработку полностью, а только оценил её трудоемкость. Получилось, что за час можно обработать до 2000 лемм с помощью макроса и до 1000 лемм без него. В ГС А. А. Зализняка приведено 19024 глагольных лемм, то есть всего имеем 190000 значений признаков валентности. Если в день обрабатывать до 4000 лемм в среднем ежедневно, то на обработку всего списка одному человеку потребуется не менее 48 дней.
При этом следует опираться только на собственную языковую интуицию, что уже вносит некоторую долю ошибок в результаты.
Некоторые признаки валентности непустые у подавляющего большинства глаголов и фактически связаны с обстоятельствами, выраженными предложно-падежными словосочетаниями. Например, "в понедельник(-и)", "по понедельникам", "на/в том месте" и т. п. С другой стороны, у непереходных глаголов признак беспредложного прямого управления объектом пуст, что автоматически определено специальным символом непереходности в ГС А. А. Зализняка. В общем, можно специальными способами немного снизить объем работы.
К настоящему времени я успел маркировать только управление беспредложным винительным падежом с "идтись" по "забурчать".
Спасибо, интересно. :)
Цитата: Марбол от ноября 10, 2021, 03:13
Например, "в понедельник(-и)", "по понедельникам", "на/в том месте" и т. п
Сюда тоже относится генитивная конструкция "возле кого/чего".
В принципе, если я верно понимаю, в тех современных ИНС, которые предназначены для пересказа текстов, описания изображений, машинного перевода, наверное, вся эта информация уже содержится.
Цитата: Марбол от ноября 10, 2021, 18:57К настоящему времени я успел маркировать только управление беспредложным винительным падежом с "идтись" по "забурчать".
— и ещё маркировал у всех глаголов валентность согласования с именительным падежом :-\.
Сегодня я открыл для себя :), что в толковом словаре, например, Ожегова явно указано большинство валентностей управления глаголов в виде местоимений, поэтому для начала можно просто написать программу, которая извлечет все эти признаки из словарных статей и переведет в нужный формат. Но не вся информация есть у Ожегова: например, "дерзить" — управление дательным падежом "кому" указано не явно, а лексически в примере в толковательном определении. И есть ещё много таких примеров неполноты. Вероятно, по другим толковым словарям можно частично восполнить пробелы.
Есть словарь глагольного управления Розенталя, у которого, однако, слишком малый объем, а по имеющимся единицам там неполная информация: например, берём наугад, "доверять" — что, в чём. — А почему нет валентности "кому-чему"? Или нет глагола "доверить" — наверное, поскольку это видовая пара к предыдущему. Или есть "дублированный" (фильм), но нет "дублировать" (не только с этим значением). И так далее. То есть не всё так однозначно.
Ручная разметка ещё может быть нужна для маркировки валентностей других частей речи. Например, "судья" — кого-чего, кому-чему,... — и т. д.
Сегодня я открыл для себя :-), что уже давно ведётся разработка тезуаруса русского языка RussNet http://project.phil.spbu.ru/RussNet/index_ru.shtml (http://project.phil.spbu.ru/RussNet/index_ru.shtml). В том числе, они уже проделали большую работу по описанию системы валентностей, выявили их различные категории и т. д. Эту информацию можно найти в их публикациях. Кроме того, в этой разработке грамматические характеристики лексем связываются с семантическими.
Фигасе! Марбол нарисовался. Сколько лет, сколько зим!