После общения в одной теме (http://lingvoforum.net/index.php/topic,27299.new.html#new) на ЛФ, появилась идея о создании некой базы данны разных понятий, но не для человека, а для машины.
Тогда если залинковать ключевые и многозначные слова в предложении с таковыми из базы данных, качество перевода возрастет на порядок. И даже если грамматически, предложение будет неправильным, человек все равно сможет понять его смысл.
База сем?
Цитата: Bhudh от марта 18, 2011, 23:35
База сем?
Вроде как, только с линками на разные языки.
Кстати если есть пара: фон−фонема, то сема−?
Над этим ведется работа в нескольких местах. Смотрите ссылки в книге Журафского.
Эту (http://lingvoforum.net/index.php/topic,29965.0.html) тему, я помню. Но книгу так и не прочел.
Я тогда про семантическую разметку читал и думал, что за ней будущее.
Цитата: hurufuКстати если есть пара: фон−фонема, то сема−?
(wiki/ru) Семема
Цитата: hurufu от марта 18, 2011, 23:24
появилась идея о создании некой базы данны разных понятий, но не для человека, а для машины.
Оч. интересно было бы узнать что по этому поводу есть для человеков, а то не хочется велосипед изобретать!
Для человека, как бы все просто — это словари ;), просто у компьютеров частовсегда возникают трудности с текстом предназначеным для людей; или я неправильно понял вопрос?
Не, эт я недостаточно точно сформулировал...)))
Я просто видел в сети результаты компонентного анализа отдельных бинарных композиций, но не видел словарей.
А словарь представляющий собой матрицы, образованные семантическими признаками, имхо, был бы одинаково понятен как компьютеру так и человеку.
Был похожий проект, только я не помню адрес, а так легко он не гуглится :(. Это был открытый словарь, где к картинкам (читай десигнатам) каждый владеющий тем или иным языком присваивал слово или словосочитание, таким образом образовывался словарь, где слова связаны истинно семантически, но про проект этот давно уже не слышал, может уже и заглох.
А более-менее полные списки сем для русского, например, существуют?
Подобные тому, что представлены здесь (http://homepages.tversu.ru/~ips/3_04.htm) для родственных отношений между людьми?
Или вот еще похожее (http://www.science-education.ru/91-4487).
Цитата: vitus от февраля 11, 2012, 19:06
А более-менее полные списки сем существуют?
Ну словарь же! (wiki/ru) Идеографический_словарь (http://ru.wikipedia.org/wiki/%D0%98%D0%B4%D0%B5%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C)
Не пойдеть.
Нужны явно выделенные семы, разнесенные по таблицам - почти так, как у Бирвиша, только...
Вас что больше интересует: машинный перевод или моделирование человеческого интеллекта?
Ладно, я, видимо, опять невнятно выражаюсь. Попробую по-другому:
возраст/пол | мужской | женский |
|
Имея такие таблицы для разных языков, можно видеть, что в ячейках с одинаковыми координатами будут содержаться одинаковые по смыслу слова.
Другое дело, что некоторые ячейки могут быть пусты и тогда придется конструировать словосочетания, имеющее подходящий смысл (как в бэйсик инглише)...
Это интересно, продолжать?
Боюсь, размерность такой таблицы будет поражать воображение.
Согласен, человеку ей будет не очень удобно пользоваться... Хотя ничего не мешает создавать представление по каждому слову из одной строки - перечня ревалентных признаков и их значений.
Но! Использованные здесь признаки не являются... м-м-м... корневыми. Т.к. каждый из этих признаков сам подлежит анализу. Если же выделить корневые признаки, то арность будет ужас какой, но не ужас-ужас-ужас! )))
Я не особо представляю, как можно описать хотя бы такую вещь, как "суп", в виде чёткого перечня признаков. Лучше по старинке давать словам приблизительные определения через некий базис слов. Надо только найти этот базис.
Цитата: Alone Coder от как можно описать хотя бы такую вещь, как "суп", в виде чёткого перечня признаков
«Съедобное», «жидкое» или «полужидкое».
ЦитироватьЯ не особо представляю, как можно описать хотя бы такую вещь, как "суп", в виде чёткого перечня признаков.
Грубо:
Суп- жидкость, кушанье;...
Жидкость - вещество, текучесть;...
Вещество - материя, масса покоя;...
Материя - ...
И так далее, пока не будут найдены циклы в определениях и "тупики".
Тупики - это базис. Предполагаю, что все сведется к видам ощущений, нескольким логическим операциям или философским категориям... по вкусу.
ЦитироватьЛучше по старинке давать словам приблизительные определения через некий базис слов. Надо только найти этот базис.
Я почти об этом же, только имею ввиду не слова, а смыслы. Приблизительность же зависит от количества признаков: чем их больше, тем меньше приблизительности.)
Есть несколько исскуственных языков, которые все свои слова выводят из базовых понятий, ужас еще тот.
И трудность не в том что этих поняятий много, а в том что в каждом натуральном языке эти понятия — разные.
Напимер говоря слово «обувь» — вам, что приходит на ум? Думаю кроссовки, кеды или что-то в этом роде. А например в хауса ,,takalmi" — тоже обувь, но по умолчанию, это тапочки! И что скажете предпринять?
В русском вроде бы "обувь" - это "родительское" понятие по отношению к ее видам: кроссовкам, тапочкам, кирзачам и т.п. ...
ЦитироватьЕсть несколько исскуственных языков, которые все свои слова выводят из базовых понятий, ужас еще тот.
Вы имеете ввиду ыфкуиль?
ЦитироватьА например в хауса ,,takalmi" — тоже обувь, но по умолчанию, это тапочки!
Отлично! Значит takalmi может переводится и как "обувь", и как "тапочки".
В русском языке нет слов с точно таким же смыслом... но это ведь не значит, что перевод невозможен?
Цитата: hurufu от февраля 11, 2012, 21:33
Есть несколько исскуственных языков, которые все свои слова выводят из базовых понятий, ужас еще тот.
И трудность не в том что этих поняятий много, а в том что в каждом натуральном языке эти понятия — разные.
Напимер говоря слово «обувь» — вам, что приходит на ум? Думаю кроссовки, кеды или что-то в этом роде. А например в хауса ,,takalmi" — тоже обувь, но по умолчанию, это тапочки! И что скажете предпринять?
он про классическуй ужас по имени токипона
плохой пример
а лексика может быть унифицированной - проблема и работа только в том чтобы разобраться с классами и отношениями, то есть построить модель лексики, и соответственно медель языка
как известно никто с этим не справился
Для начала можно взять те отношения, в которых действует антонимия:
Цитироватьконтрадикторные корреляты — такие противоположности, которые взаимно дополняют друг друга до целого, без переходных звеньев; они находятся в отношении привативной оппозиции. Примеры: плохой — хороший, ложь — истина, живой — мёртвый.
контрарные корреляты — антонимы, выражающие полярные противоположности внутри одной сущности при наличии переходных звеньев — внутренней градации; они находятся в отношении градуальной оппозиции. Примеры: чёрный (— серый —) белый, старый (— пожилой — средних лет —) молодой, большой (— средний —) маленький.
векторные корреляты — антонимы, выражающие разную направленность действий, признаков, общественных явлений и т. д. Примеры: войти — выйти, спуститься — подняться, зажечь — потушить, революция — контрреволюция.
конверсивы — слова, описывающие одну и ту же ситуацию с точки зрения разных участников. Примеры: купить — продать, муж — жена, преподавать — учиться, проиграть — выиграть, потерять — найти.
ЦитироватьС точки зрения действия антонимы бывают:
соразмерные — действие и противодействие (вставать — ложиться, богатеть — беднеть);
несоразмерные — действие и отсутствие действия (в широком смысле) (зажечь — погасить, думать — раздумать).
Цитироватьон про классическуй ужас по имени токипона
А почему русский, например, нельзя считать таким, что выводит все свои значения из базовых понятий? Кто-то уже пытался проанализировать его на этот счет?
Цитироватьа лексика может быть унифицированной
Ну, я пока больше о семантике.
Alone Coder начинает с деталей а не с общего
модель лексики - она определяет выбор сем и классов сем
и модель лексики это часть от модели языка
всё уприрается в модель языка, которой нет
без МЯ не может быть ни крутого конланга, ни машинного перевода, ни искусственного интеллекта
Ну, начнём с того, что у человека язык задан контекстами, а не определениями.
Цитата: vitus от февраля 11, 2012, 22:08Ну, я пока больше о семантике.
лексика и семантика это неразрывное целое
лексика это слова, а слова это смыслы семантические
Цитата: Alone Coder от февраля 11, 2012, 22:13
Ну, начнём с того, что у человека язык задан контекстами, а не определениями.
да нифига
вот хотябы это ваше утверждение - никакой логики и информативности
вы сами поняли что сказали?
почему задан?
какими определениеями?
Цитата: Alone Coder от февраля 11, 2012, 22:06Для начала можно взять те отношения, в которых действует антонимия:
Я исхожу из допущения о том, что таких отношений вообще может быть бесконечное множество.
Цитата: Alone Coder от февраля 11, 2012, 22:13
Ну, начнём с того, что у человека язык задан контекстами, а не определениями.
Человек может мыслить либо образами, либо абстракциями, либо действиями ... хм, ну последнее уже не интересно...
Можно ли сказать, что под "язык задан контекстами" подразумевается, что каждое слово - это ссылка на определенный образ?
И не факт ведь что эти категории будут совпадать во всех языках. Поэтому думаю лучше как Alone Coder сказал:
Цитата: Alone Coder от февраля 11, 2012, 21:01
Лучше по старинке давать словам приблизительные определения через некий базис слов. Надо только найти этот базис.
И написать программу, которая могла понимать этот базис и расширять его за счет новых слов.
Например:
Дано множество СУП, определяемо как:
СУП = ЖИДКОСТЬ ∩ БЛЮДО;
БЛЮДО = ЕДА ∩ СОСТОИТ_ИЗ_НЕСКОЛЬКИХ_ИНГРИДИЕНТОВ
и т.д.
Цитата: vitus от февраля 11, 2012, 22:20
Можно ли сказать, что под "язык задан контекстами" подразумевается, что каждое слово - это ссылка на определенный образ?
Не обязательно. Чаще чисто речевой контекст.
Контекстами — это означает контекстами, т.е. каждое слово может использоваться только в определенном контексте, и никогда в другом. Я правильно понял?
Цитата: hurufu от февраля 11, 2012, 22:21
СУП = ЖИДКЛСТЬ ∩ БЛЮДО;
А как лучше ввести указание на то, что, например, БОРЩ - это подмножество СУП? Или задать по умолчанию, что род имеет как минимум на один признак меньше, чем любой из его видов?
Цитата: LINGVOMEN от февраля 11, 2012, 22:00
он про классическуй ужас по имени токипона
плохой пример
Токипона не направлена на вывод вещей с каким-нибудь сложным смыслом. Имелись в виду, скорее всего, другие языки.
Цитата: LINGVOMEN от февраля 11, 2012, 22:16
да нифига
вот хотябы это ваше утверждение - никакой логики и информативности
вы сами поняли что сказали?
почему задан?
какими определениеями?
Вот вы бы сначала причитывались.
Контекстами-контекстами, просто очень сложная их система. И это видно и в базовой лексике и, например, в терминах. Пример:
свернуть — о движении, о шее, о тензоре. (Первое, что пришло в голову, извиняйте.)
Цитата: hurufu от февраля 11, 2012, 22:23
Контекстами — это означает контекстами, т.е. каждое слово может использоваться только в определенном контексте, и никогда в другом. Я правильно понял?
Человек услышал новое слово в речи и ассоциирует его с: 1. Характером разговора, 2. Темой разговора, 3. Грамматической функцией, 4. Словесным окружением.
ЦитироватьНу, начнём с того, что у человека язык задан контекстами, а не определениями.
Цитата: Alone Coder от февраля 11, 2012, 22:26
Человек услышал новое слово в речи и ассоциирует его с: 1. Характером разговора, 2. Темой разговора, 3. Грамматической функцией, 4. Словесным окружением.
- вы о чем вобще?
какой человек? чо он услышал?
вы про процес изучения языка в школе типа?
бутьте попроще
Это процесс изучения языка вообще. Или вы думаете, что слова у вас в голове запрограммированы?
Цитата: Alone Coder от февраля 11, 2012, 22:23Не обязательно. Чаще чисто речевой контекст.
Мне не понятно, давайте как-то по-другому.
Я исхожу из того, что смысл слова - это то, что позволяет выделить объект из множества ему подобных. Понятие - это результат абстрагирования образа, сопоставления образов и вычленения отличий - признаков, о которых писалось выше...
А контекст - это источник дополнительных признаков, без которых невозможно определить смысл слова... как-то так. (Без контекста не до конца понятен смысл слова "свернуть" - о движении?, о шее?, о тензоре?, но само по себе понятие "свернуть" даже в отрыве от контекста имеет смысл, если грубо, то "внести измение").
Мне не понятно почему Вы противопоставляете контекст и понятие.
Цитата: Alone Coder от февраля 11, 2012, 22:31
Это процесс изучения языка вообще. Или вы думаете, что слова у вас в голове запрограммированы?
а вы темой не ошиблись?
здесь не о когнитивных аспектах лингивтики
здесь о модели лексики
язык выучил - и ладно
далее проблемы обучения нет
есть проблемы коммуникации, межьязыковых барьеров.. то есть все те проблемы которые призван решить конланг универсальный межгалактический
Я сильно сомневаюсь, что любые предложения, где слова используются в кавычках (то есть с разрушением грамматической структуры) вообще использовались до появления письменности. Примеры таких предложений:
- Что значит "фланировать"?
- "Надо" говорят, когда надо.
- "В" - это предлог.
- Ты "за" или "против"? - "За".
Я считаю, что слова в разговорном языке существуют только в рамках предложения, а по отдельности имеют довольно расплывчатый смысл (так же, как морфемы имеют довольно расплавчатый смысл).
Цитата: LINGVOMEN от февраля 11, 2012, 22:35
Цитата: Alone Coder от февраля 11, 2012, 22:31Это процесс изучения языка вообще. Или вы думаете, что слова у вас в голове запрограммированы?
а вы темой не ошиблись?
здесь не о когнитивных аспектах лингивтики
здесь о модели лексики
Если хотите получить модель лексики, близкую к человеческой - будьте добры использовать контексты.
Цитата: Alone Coder от - Ты "за" или "против"? - "За".
Это вопрос наречию и ответ наречия, что ли?
Цитата: Alone Coder от февраля 11, 2012, 22:41Я сильно сомневаюсь, что любые предложения, где слова используются в кавычках (то есть с разрушением грамматической структуры) вообще использовались до появления письменности.
Можно пойти дальше и подумать над тем, что было, когда не было ни письменной, ни звуковой речи, а только лишь язык жестов... или вообще, как у всех нормальных животных - сигнализация о внутреннем состоянии и только. (табл. B.7. (http://www.kohts.ru/ladygina-kohts_n.n./ichc/html/apb.html#photoplates_0))
Цитировать
Я считаю, что слова в разговорном языке существуют только в рамках предложения, а по отдельности имеют довольно расплывчатый смысл (так же, как морфемы имеют довольно расплавчатый смысл).
Я не спорю, "суп" имеет более расплывчатый смысл чем "прокисший вчера красный свекольник, приготовленный тещей сенькиного отца брата племянника".)))
Но мне кажется, что Вы просто на шаг впереди от меня, ушли к проблемам практического применения, я же пока еще топчусь на том этапе, где это совершенно неважно, т.к. мне пока кроме того, что каждое слово можно охарактеризовать некоторым количеством признаков, больше ничего и не нужно. Я пока абстрагируюсь от ситуаций, в которых точный смысл можно передать только конструкцией более громоздкой, чем слово.)))
Цитата: hurufu от февраля 11, 2012, 22:21
И не факт ведь что эти категории будут совпадать во всех языках.
Мне кажется, что будут. Во всяком случае, смысл любой категории чужого языка можно попытаться раскрыть в терминах уже существующих в своем языке категорий. Если бы это было не так, то Вы никогда не смогли бы понять носителей другого языка.
Цитата: vitus от февраля 11, 2012, 23:15
Цитата: hurufu от февраля 11, 2012, 22:21
И не факт ведь что эти категории будут совпадать во всех языках.
Мне кажется, что будут. Во всяком случае, смысл любой категории другого языка можно попытаться раскрыть в терминах уже существующих категорий. Если бы это было не так, то Вы никогда не смогли бы понять носителей другого языка.
человек ест суп - это есть во всех языках
потому что все едят и варят мясо
Цитата: LINGVOMEN от февраля 11, 2012, 23:17
человек есть суп - это есть во всех языках
Мне кажется, что правильнее было бы: "человек есть гриб"... во всяком случае, некоторые из них.
Ленин — гриб, а насчёт остальных я не уверен.
Цитата: LINGVOMEN от человек ест суп - это есть во всех языках
потому что все едят и варят мясо
Суп не обязательно мясной.
Цитата: vitus от февраля 11, 2012, 23:15
Цитата: hurufu от февраля 11, 2012, 22:21
И не факт ведь что эти категории будут совпадать во всех языках.
Мне кажется, что будут. Во всяком случае, смысл любой категории чужого языка можно попытаться раскрыть в терминах уже существующих в своем языке категорий. Если бы это было не так, то Вы никогда не смогли бы понять носителей другого языка.
В этом то и дело, что понять носителей не родственного языка, без глубоких знаний иногда просто невозможно ;)
Цитата: arseniiv от февраля 11, 2012, 23:20
Ленин — гриб, а насчёт остальных я не уверен.
А Кастанеда?... В любом случае, "некоторые" - "это один или больше, но меньше, чем все". :umnik:
Цитата: hurufu от февраля 11, 2012, 23:32
В этом то и дело, что понять носителей не родственного языка, без глубоких знаний иногда просто невозможно ;)
Дык я ж не спорю, я о том, что если бы невозможно было бы выразить новые категории уже имеющимися средствами, понимание было бы принципиально невозможным, безотносительно глубины знаний.
Цитата: hurufu от марта 18, 2011, 23:24
появилась идея о создании некой базы данны разных понятий, но не для человека, а для машины.
UNL. Универсальный сетевой язык. (http://lingvoforum.net/index.php/topic,33414.0.html)
(wiki/ru) WordNet (http://ru.wikipedia.org/wiki/WordNet)
http://project.phil.spbu.ru/RussNet/index_ru.shtml
(wiki/ru) Разрешение_лексической_многозначности (http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D0%B7%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BB%D0%B5%D0%BA%D1%81%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9_%D0%BC%D0%BD%D0%BE%D0%B3%D0%BE%D0%B7%D0%BD%D0%B0%D1%87%D0%BD%D0%BE%D1%81%D1%82%D0%B8)
Цитата: Sirko от февраля 12, 2012, 08:29
UNL. Универсальный сетевой язык. (http://lingvoforum.net/index.php/topic,33414.0.html)
Эту тему я помню. У меня постоянно возникали сомнения к применимости этого подхода ко
всем языкам. Т.е. если один и тот же смысл в разных языках достигается совершенно разными граматическими конструкциями, выводима ли будет семантика предложения, т.е. можно ли будет зная только смысл сгенерировать предложение?
Про RusNet не знал, спасибо.
Цитата: hurufu от февраля 12, 2012, 15:15
Цитата: Sirko от февраля 12, 2012, 08:29
UNL. Универсальный сетевой язык. (http://lingvoforum.net/index.php/topic,33414.0.html)
Эту тему я помню. У меня постоянно возникали сомнения к применимости этого подхода ко всем языкам. Т.е. если один и тот же смысл в разных языках достигается совершенно разными граматическими конструкциями, выводима ли будет семантика предложения, т.е. можно ли будет зная только смысл сгенерировать предложение?
Про RusNet не знал, спасибо.
Цитата: http://www.unlweb.net/wiki/index.php/FAQ#What_does_the_DECO_system_do.3FWhat does the DECO system do?
It is designed to convert any UNL "sentence" into a target natural language counterpart. For example, the UNL sentence
agt(investigate.@entry.@past.@pred.@entry,I)
obj(investigate.@entry.@past.@pred.@entry,cause@def)
can be converted into the English sentence "I investigated the cause", or into the Portuguese sentence "Eu investiguei a causa", or into the Japanese sentence ...., and so forth.
UNL. Универсальный сетевой язык.
\\\
Почти, но таки не торт.
Справится ли он с шуткой: "Андре Тан - Сергей, а Николай Басков - Николай... тут, кстати, совпало, случайно".
?
Up.
Интересуюсь: а есть ли система перевода, использующая полную базу всех возможных граммем?
То есть для любого языка независимо от того, есть эта граммема в нём или нет, к каждому возможному её иметь слову она всё равно приписывается? Чтобы при двойном переводе она не терялась.
(Например: чтобы при направлении перевода древнерусский → английский → санскрит не потерялось двойственное число.)