Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Открытая база данных смысловых единиц

Автор hurufu, марта 18, 2011, 23:24

0 Пользователи и 1 гость просматривают эту тему.

hurufu

После общения в одной теме на ЛФ, появилась идея о создании некой базы данны разных понятий, но не для человека, а для машины.

Тогда если залинковать ключевые и многозначные слова в предложении с таковыми из базы данных, качество перевода возрастет на порядок. И даже если грамматически, предложение будет неправильным, человек все равно сможет понять его смысл.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

hurufu

Цитата: Bhudh от марта 18, 2011, 23:35
База сем?
Вроде как, только с линками на разные языки.

Кстати если есть пара: фон−фонема, то сема−?

RawonaM

Над этим ведется работа в нескольких местах. Смотрите ссылки в книге Журафского.

hurufu

Эту тему, я помню. Но книгу так и не прочел.
Я тогда про семантическую разметку читал и думал, что за ней будущее.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

vitus

Цитата: hurufu от марта 18, 2011, 23:24
появилась идея о создании некой базы данны разных понятий, но не для человека, а для машины.
Оч. интересно было бы узнать что по этому поводу есть для человеков, а то не хочется велосипед изобретать!

hurufu

Для человека, как бы все просто — это словари ;), просто у компьютеров частовсегда возникают трудности с текстом предназначеным для людей; или я неправильно понял вопрос?

vitus

Не, эт я недостаточно точно сформулировал...)))
Я просто видел в сети результаты компонентного анализа отдельных бинарных композиций, но не видел словарей.
А словарь представляющий собой матрицы, образованные семантическими признаками, имхо, был бы одинаково понятен как компьютеру так и человеку.

hurufu

Был похожий проект, только я не помню адрес, а так легко он не гуглится :(. Это был открытый словарь, где к картинкам (читай десигнатам) каждый владеющий тем или иным языком присваивал слово или словосочитание, таким образом образовывался словарь, где слова связаны истинно семантически, но про проект этот давно уже не слышал, может уже и заглох.

vitus

А более-менее полные списки сем для русского, например, существуют?
Подобные тому, что представлены здесь для родственных отношений между людьми?
Или вот еще похожее.




vitus

Не пойдеть.
Нужны явно выделенные семы, разнесенные по таблицам - почти так, как у Бирвиша, только...
Вас что больше интересует: машинный перевод или моделирование человеческого интеллекта?

vitus

Ладно, я, видимо, опять невнятно выражаюсь. Попробую по-другому:

возраст/полмужскойженский
юный            мальчикдевочка
пожилой       старикстаруха

Имея такие таблицы для разных языков, можно видеть, что в ячейках  с одинаковыми координатами будут содержаться одинаковые по смыслу слова.
Другое дело, что некоторые ячейки могут быть пусты и тогда придется конструировать словосочетания, имеющее подходящий смысл (как в бэйсик инглише)...
Это интересно, продолжать?

Alone Coder

Боюсь, размерность такой таблицы будет поражать воображение.

vitus

Согласен, человеку ей будет не очень удобно пользоваться... Хотя ничего не мешает создавать представление по каждому слову из одной строки - перечня ревалентных признаков и их значений.
Но! Использованные здесь признаки не являются... м-м-м... корневыми. Т.к. каждый из этих признаков сам подлежит анализу. Если же выделить корневые признаки, то арность будет ужас какой, но не ужас-ужас-ужас! )))

Alone Coder

Я не особо представляю, как можно описать хотя бы такую вещь, как "суп", в виде чёткого перечня признаков. Лучше по старинке давать словам приблизительные определения через некий базис слов. Надо только найти этот базис.

Bhudh

Цитата: Alone Coder от как можно описать хотя бы такую вещь, как "суп", в виде чёткого перечня признаков
«Съедобное», «жидкое» или «полужидкое».
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

vitus

ЦитироватьЯ не особо представляю, как можно описать хотя бы такую вещь, как "суп", в виде чёткого перечня признаков.
Грубо:
Суп- жидкость, кушанье;...
Жидкость - вещество, текучесть;...
Вещество - материя, масса покоя;...
Материя - ...
И так далее, пока не будут найдены циклы в определениях и "тупики".
Тупики - это базис. Предполагаю, что все сведется к видам ощущений, нескольким логическим операциям или философским категориям... по вкусу.

ЦитироватьЛучше по старинке давать словам приблизительные определения через некий базис слов. Надо только найти этот базис.
Я почти об этом же, только имею ввиду не слова, а смыслы. Приблизительность же зависит от количества признаков: чем их больше, тем меньше приблизительности.)

hurufu

Есть несколько исскуственных языков, которые все свои слова выводят из базовых понятий, ужас еще тот.

И трудность не в том что этих поняятий много, а в том что в каждом натуральном языке эти понятия — разные.
Напимер говоря слово «обувь» — вам, что приходит на ум? Думаю кроссовки, кеды или что-то в этом роде. А например в хауса ,,takalmi" — тоже обувь, но по умолчанию, это тапочки! И что скажете предпринять?

vitus

В русском вроде бы "обувь" - это "родительское" понятие по отношению к ее  видам: кроссовкам, тапочкам, кирзачам и т.п. ...

ЦитироватьЕсть несколько исскуственных языков, которые все свои слова выводят из базовых понятий, ужас еще тот.
Вы имеете ввиду ыфкуиль?

ЦитироватьА например в хауса ,,takalmi" — тоже обувь, но по умолчанию, это тапочки!
Отлично! Значит takalmi может переводится и как "обувь", и как "тапочки".
В русском языке нет слов с точно таким же смыслом... но это ведь не значит, что перевод невозможен?

LINGVOMEN

Цитата: hurufu от февраля 11, 2012, 21:33
Есть несколько исскуственных языков, которые все свои слова выводят из базовых понятий, ужас еще тот.

И трудность не в том что этих поняятий много, а в том что в каждом натуральном языке эти понятия — разные.
Напимер говоря слово «обувь» — вам, что приходит на ум? Думаю кроссовки, кеды или что-то в этом роде. А например в хауса ,,takalmi" — тоже обувь, но по умолчанию, это тапочки! И что скажете предпринять?

он про классическуй ужас по имени токипона
плохой пример

а лексика может быть унифицированной - проблема и работа только в том чтобы разобраться с классами и отношениями, то есть построить модель лексики, и соответственно медель языка
как известно никто с этим не справился
нуу тупыые! как америкосы

youtu.be/PjSU1pp6HBI

Alone Coder

Для начала можно взять те отношения, в которых действует антонимия:

Цитироватьконтрадикторные корреляты — такие противоположности, которые взаимно дополняют друг друга до целого, без переходных звеньев; они находятся в отношении привативной оппозиции. Примеры: плохой — хороший, ложь — истина, живой — мёртвый.

контрарные корреляты — антонимы, выражающие полярные противоположности внутри одной сущности при наличии переходных звеньев — внутренней градации; они находятся в отношении градуальной оппозиции. Примеры: чёрный (— серый —) белый, старый (— пожилой — средних лет —) молодой, большой (— средний —) маленький.

векторные корреляты — антонимы, выражающие разную направленность действий, признаков, общественных явлений и т. д. Примеры: войти — выйти, спуститься — подняться, зажечь — потушить, революция — контрреволюция.

конверсивы — слова, описывающие одну и ту же ситуацию с точки зрения разных участников. Примеры: купить — продать, муж — жена, преподавать — учиться, проиграть — выиграть, потерять — найти.

Alone Coder

ЦитироватьС точки зрения действия антонимы бывают:

    соразмерные — действие и противодействие (вставать — ложиться, богатеть — беднеть);
    несоразмерные — действие и отсутствие действия (в широком смысле) (зажечь — погасить, думать — раздумать).

vitus

Цитироватьон про классическуй ужас по имени токипона
А почему русский, например, нельзя считать таким, что выводит все свои значения из базовых понятий? Кто-то уже пытался проанализировать его на этот счет?

Цитироватьа лексика может быть унифицированной
Ну, я пока больше о семантике.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр