Какой язык лучше для синтаксического анализа и машинного перевода?
Такие языки, как ложбан, имеют полностью формальный синтаксис.
Можно легко снять двусмысленность фразы "Я увидел её на поляне с цветами":
1. "Я увидел её на поляне, [будучи сам] с цветами".
2. "Я увидел её [находящейся] на поляне-с-цветами".
Вернее, в ложбане изначально вообще не было предусмотрено такой двусмысленности.
Немного удобен и эсперанто. В нём прямо-таки для нубов промаркированы части речи.
Сравните это с английским:
time flies like an arrow, fruit flies like a banana.
Даже люди спотыкаются на этом примере. Многие вообще не сообразят, что тут "зашифровано". Но это английский, его можно отбросить.
Русский тоже сложен. Например, винительный пересекается с именительным и родительным:
"мать любит дочь", кто кого любит?
Быть может, бислама или ток-писин окажутся проще?
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?
Цитата: Gleki Arxokuna от августа 12, 2014, 12:46
"мать любит дочь", кто кого любит?
Это любимый пример тех, кто хочет показать следствия формального неразличения именительного и винительного падежей. Между тем, это чисто письменный пример — в устной речи
матьим любит дочь и
матьвин любит дочь различаются тонами слов
мать и
дочь в различных синтаксических положениях.
Цитата: Gleki Arxokuna от августа 12, 2014, 12:46Многие вообще не сообразят, что тут "зашифровано".
Почему? Контекст — великая вещь, он подсказывает, что бананы летать не умеют.
Оба ответа выше верны, однако, речь-то именно о машинном переводе на уровне простого синтаксиса.
Нет контекста!
Нужен язык, который бы поочевиднее показывал синтаксическое древо!
Цитата: Gleki Arxokuna от августа 12, 2014, 15:06Нет контекста!
Где "нет контекста", все предыдущие выученные знания о мире — контекст.
«Временны[b]́[/b]е мухи любят стрелы» — э, не-е, нет таких мух. А обычные мухи стрелы не любят...
«Фрукт летает как банан» — чё за хня такая⁈
Цитата: Bhudh от августа 12, 2014, 14:46
Цитата: Gleki Arxokuna от августа 12, 2014, 12:46Многие вообще не сообразят, что тут "зашифровано".
Почему? Контекст — великая вещь, он подсказывает, что бананы летать не умеют.
Однако ж, я распарсил только со второго прочтения. :)
Цитата: Bhudh от августа 12, 2014, 15:22Где "нет контекста", все предыдущие выученные знания о мире — контекст.
Компьютерная программа знает о мире только то, что заложил в неё программист. :) (Ну, есть, конечно, самообучающиеся программы, но они, пмсм, пока туповаты).
Цитата: Gleki Arxokuna от августа 12, 2014, 12:46
Можно легко снять двусмысленность фразы "Я увидел её на поляне с цветами":
1. "Я увидел её на поляне, [будучи сам] с цветами".
2. "Я увидел её [находящейся] на поляне-с-цветами".
Тогда уж трёхсмысленность: ещё и "я увидел её на поляне, она была с цветами".
Цитата: Lodur от августа 12, 2014, 15:30Однако ж, я распарсил только со второго прочтения. :)
Ничего, гугл вообще не распарсил (https://translate.google.com/#en/ru/time%20flies%20like%20an%20arrow%2C%20fruit%20flies%20like%20a%20banana).
Причём дважды (https://translate.google.com/#en/ru/Time%20flies%20like%20an%20arrow.%0AFruit%20flies%20like%20a%20banana.).
Простите, но мне нужен ЯЗЫК, где максимально чётко виден синтаксис.
В английском этого явно нет, даже по сравнению с русским.
В каком языке ситуация лучше?
В санскрите дэсу.
Латинский? Вроде как там всё очень чётко маркировано, вследствие чего, правда, может допускаться дичайший порядок слов.
Цитата: Bienna от августа 12, 2014, 16:01Латинский? Вроде как там всё очень чётко маркировано
И дохренища омоформ.
Я подпишусь на тему. И напомню про лидепла, который, ИМХО, все же (в обсуждаемой функции) весьма неплох.
Цитата: li-na от августа 12, 2014, 16:22
Я подпишусь на тему. И напомню про лидепла, который, ИМХО, все же (в обсуждаемой функции) весьма неплох.
Да-да, но ...
ЦитироватьКакие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?
Для данной темы это обязательное условие.
Никто не спорит, что можно создать язык под условия синтаксического анализа.
Но нужен из активных языков.
Меньшее из зол, так сказать.
Цитата: Gleki Arxokuna от августа 12, 2014, 16:29Цитировать
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?
Для данной темы это обязательное условие.
Нужен из активных языков.
То есть ложбан не подходит, он просто для сравнения?
Цитата: li-na от августа 12, 2014, 16:32
Цитата: Gleki Arxokuna от августа 12, 2014, 16:29Цитировать
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?
Для данной темы это обязательное условие.
Нужен из активных языков.
То есть ложбан не подходит, он просто для сравнения?
Совершенно верно. Ложбан не подходит.
Решения ad hoc не подходят (ложбан и был создан практически для этого).
Санскрит и латынь - не уверен, что 100 000 наберется, но с этим можно поспорить (много накопленной литературы, которая как-то компенсирует отсутствие носителей).
Ток Писин, если что, сохраняет омонимию английского по частям речи (глаголы могут выступать в роли существительных).
Пришёл такой ответ:
Japanese marks the syntactic role of each constituent with "particles", so for instance you know whenever you're dealing with a direct object.
Цитата: Gleki Arxokuna от августа 12, 2014, 19:13
Japanese marks the syntactic role of each constituent with "particles", so for instance you know whenever you're dealing with a direct object.
Маркировать-то маркирует, только коснись дело, например, какого-нибудь пассива — и сразу на помощь будете звать контекст.
А это вообще правильно?
fruit flies like a banana
Зачем тут артикль?
Я бы написал: fruit flies like bananas.
А если банан на столе один?
Цитата: Bhudh от августа 13, 2014, 00:35
А если банан на столе один?
Да хоть ни одного банана на столе нет, всё равно плодовые мушки любят бананы. Или я не понимаю этой фразы.
Може, они и любят, а вот сейчас им нравится конкретно вот этот банан на столе. Вот они над ним и вьются.
Цитата: Bhudh от августа 13, 2014, 02:26
а вот сейчас им нравится конкретно вот этот банан на столе
Тогда было бы
the banana, нет?
Не кажется ли вам, что чем больше в языке падежей, тем он проще для разбора?
Понятно, что падеж - субъективное понятие.
Но если падежей много, то вероятность того, что предложение будет парситься неоднозначно, меньше.
Так, может быть, финский, венгерский, табасаранский?
Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Не кажется ли вам, что чем больше в языке падежей, тем он проще для разбора?
Какая в этом смысле разница между падежом и предлогом/послелогом? К тому же во многих случаях один и тот же падеж может выполнять очень разные семантические функции.
Цитата: unlight от августа 13, 2014, 08:32
Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Не кажется ли вам, что чем больше в языке падежей, тем он проще для разбора?
Какая в этом смысле разница между падежом и предлогом/послелогом? К тому же во многих случаях один и тот же падеж может выполнять очень разные семантические функции.
Никакой разницы. Какие у вас предложения?
А чем больше падежей, тем меньше вероятность, что падеж полисемичен. Только лишь вероятность.
Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Так, может быть, финский, венгерский, табасаранский?
Насчёт табасаранского не знаю, в финском падежей немного, в венгерском немало, но многие из них могут обозначать разные вещи, вследствие чего в некоторых (а их вполне немало можно найти) ситуациях может возникать двойственность значения, что решается лишь контекстом, а это, как я понимаю, не то, что нужно :)
Цитата: Bienna от августа 13, 2014, 11:21
Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Так, может быть, финский, венгерский, табасаранский?
Насчёт табасаранского не знаю, в финском падежей немного, в венгерском немало, но многие из них могут обозначать разные вещи, вследствие чего в некоторых (а их вполне немало можно найти) ситуациях может возникать двойственность значения, что решается лишь контекстом, а это, как я понимаю, не то, что нужно :)
По сути для синтаксического анализа надо выявить предикаты и аргументы (имя существительное/местоимение/имя собственное) прежде всего, определить в каком падеже (или с каким предлогом) стоит тот или иной аргумент.
Дальше уже легче. Мы можем узнать по словарю, что для конкретного глагола значит тот или иной падеж.
Цитата: Тайльнемер от августа 13, 2014, 04:41
Цитата: Bhudh от августа 13, 2014, 02:26
а вот сейчас им нравится конкретно вот этот банан на столе
Тогда было бы the banana, нет?
Ср. в русском:
плодовым мушкам понравился один банан и
плодовым мушкам понравился этот банан ~ нереферентное
плодовые мушки любят бананы.
Цитата: Wolliger Mensch от августа 13, 2014, 15:18
Цитата: Тайльнемер от августа 13, 2014, 04:41
Цитата: Bhudh от августа 13, 2014, 02:26
а вот сейчас им нравится конкретно вот этот банан на столе
Тогда было бы the banana, нет?
Ср. в русском: плодовым мушкам понравился один банан и плодовым мушкам понравился этот банан ~ нереферентное плодовые мушки любят бананы.
Вот я и удивляюсь, почему какой-то один банан из кучи им понравился
Может, к другим доступ закрыт.
Может, кечуа или аймара? Оба крайне регулярны. Несколько миллионов носителей и там, и там. Аймара будто бы был даже отмечен, как оптимальный для машинного перевода.
Цитата: RNK от августа 14, 2014, 10:28
Может, кечуа или аймара? Оба крайне регулярны. Несколько миллионов носителей и там, и там. Аймара будто бы был даже отмечен, как оптимальный для машинного перевода.
Я вынужден принять этот ответ. Спасибо!
Кечуа.
Агглютинация там плоха тем, что там аффиксы, а не отдельные слова.
Однако, возможно, выделение аффиксов будет более-менее простым. Тогда можно уже определить роль аргументов в клаузах.
Аймара куда менее регулярен, его применимость для машинного перевода скорее смахивает на рекламу. Возможно, что именно упомянутые особенности и стали причиной такой рекламы.