Печать страницы - Какой язык удобнее для синтаксического анализа?

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 12:46

Какой язык лучше для синтаксического анализа и машинного перевода?

Такие языки, как ложбан, имеют полностью формальный синтаксис.

Можно легко снять двусмысленность фразы "Я увидел её на поляне с цветами":
1. "Я увидел её на поляне, [будучи сам] с цветами".
2. "Я увидел её [находящейся] на поляне-с-цветами".

Вернее, в ложбане изначально вообще не было предусмотрено такой двусмысленности.

Немного удобен и эсперанто. В нём прямо-таки для нубов промаркированы части речи.

Сравните это с английским:

time flies like an arrow, fruit flies like a banana.

Даже люди спотыкаются на этом примере. Многие вообще не сообразят, что тут "зашифровано". Но это английский, его можно отбросить.

Русский тоже сложен. Например, винительный пересекается с именительным и родительным:
"мать любит дочь", кто кого любит?

Быть может, бислама или ток-писин окажутся проще?

Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Wolliger Mensch от августа 12, 2014, 14:36

Цитата: Gleki Arxokuna от августа 12, 2014, 12:46
"мать любит дочь", кто кого любит?

Это любимый пример тех, кто хочет показать следствия формального неразличения именительного и винительного падежей. Между тем, это чисто письменный пример — в устной речи мать^им любит дочь и мать^вин любит дочь различаются тонами слов мать и дочь в различных синтаксических положениях.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 12, 2014, 14:46

Цитата: Gleki Arxokuna от августа 12, 2014, 12:46Многие вообще не сообразят, что тут "зашифровано".

Почему? Контекст — великая вещь, он подсказывает, что бананы летать не умеют.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 15:06

Оба ответа выше верны, однако, речь-то именно о машинном переводе на уровне простого синтаксиса.

Нет контекста!

Нужен язык, который бы поочевиднее показывал синтаксическое древо!

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 12, 2014, 15:22

Цитата: Gleki Arxokuna от августа 12, 2014, 15:06Нет контекста!

Где "нет контекста", все предыдущие выученные знания о мире — контекст.
«Временны[b]́[/b]е мухи любят стрелы» — э, не-е, нет таких мух. А обычные мухи стрелы не любят...
«Фрукт летает как банан» — чё за хня такая⁈

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Lodur от августа 12, 2014, 15:30

Цитата: Bhudh от августа 12, 2014, 14:46
Цитата: Gleki Arxokuna от августа 12, 2014, 12:46Многие вообще не сообразят, что тут "зашифровано".
Почему? Контекст — великая вещь, он подсказывает, что бананы летать не умеют.

Однако ж, я распарсил только со второго прочтения. :)

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Lodur от августа 12, 2014, 15:33

Цитата: Bhudh от августа 12, 2014, 15:22Где "нет контекста", все предыдущие выученные знания о мире — контекст.

Компьютерная программа знает о мире только то, что заложил в неё программист. :) (Ну, есть, конечно, самообучающиеся программы, но они, пмсм, пока туповаты).

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gyesa от августа 12, 2014, 15:35

Цитата: Gleki Arxokuna от августа 12, 2014, 12:46
Можно легко снять двусмысленность фразы "Я увидел её на поляне с цветами":
1. "Я увидел её на поляне, [будучи сам] с цветами".
2. "Я увидел её [находящейся] на поляне-с-цветами".

Тогда уж трёхсмысленность: ещё и "я увидел её на поляне, она была с цветами".

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 12, 2014, 15:36

Цитата: Lodur от августа 12, 2014, 15:30Однако ж, я распарсил только со второго прочтения. :)

Ничего, гугл вообще не распарсил (https://translate.google.com/#en/ru/time%20flies%20like%20an%20arrow%2C%20fruit%20flies%20like%20a%20banana).
Причём дважды (https://translate.google.com/#en/ru/Time%20flies%20like%20an%20arrow.%0AFruit%20flies%20like%20a%20banana.).

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 15:53

Простите, но мне нужен ЯЗЫК, где максимально чётко виден синтаксис.
В английском этого явно нет, даже по сравнению с русским.

В каком языке ситуация лучше?

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 12, 2014, 16:01

В санскрите дэсу.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gyesa от августа 12, 2014, 16:01

Латинский? Вроде как там всё очень чётко маркировано, вследствие чего, правда, может допускаться дичайший порядок слов.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 12, 2014, 16:04

Цитата: Bienna от августа 12, 2014, 16:01Латинский? Вроде как там всё очень чётко маркировано

И дохренища омоформ.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: li-na от августа 12, 2014, 16:22

Я подпишусь на тему. И напомню про лидепла, который, ИМХО, все же (в обсуждаемой функции) весьма неплох.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 16:29

Цитата: li-na от августа 12, 2014, 16:22
Я подпишусь на тему. И напомню про лидепла, который, ИМХО, все же (в обсуждаемой функции) весьма неплох.

Да-да, но ...

ЦитироватьКакие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.

Никто не спорит, что можно создать язык под условия синтаксического анализа.

Но нужен из активных языков.

Меньшее из зол, так сказать.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: li-na от августа 12, 2014, 16:32

Цитата: Gleki Arxokuna от августа 12, 2014, 16:29
Цитировать
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.
Нужен из активных языков.

То есть ложбан не подходит, он просто для сравнения?

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 16:36

Цитата: li-na от августа 12, 2014, 16:32
Цитата: Gleki Arxokuna от августа 12, 2014, 16:29
Цитировать
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.
Нужен из активных языков.

То есть ложбан не подходит, он просто для сравнения?

Совершенно верно. Ложбан не подходит.
Решения ad hoc не подходят (ложбан и был создан практически для этого).

Санскрит и латынь - не уверен, что 100 000 наберется, но с этим можно поспорить (много накопленной литературы, которая как-то компенсирует отсутствие носителей).

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: li-na от августа 12, 2014, 19:08

Ток Писин, если что, сохраняет омонимию английского по частям речи (глаголы могут выступать в роли существительных).

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 19:13

Пришёл такой ответ:
Japanese marks the syntactic role of each constituent with "particles", so for instance you know whenever you're dealing with a direct object.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gyesa от августа 12, 2014, 22:22

Цитата: Gleki Arxokuna от августа 12, 2014, 19:13
Japanese marks the syntactic role of each constituent with "particles", so for instance you know whenever you're dealing with a direct object.

Маркировать-то маркирует, только коснись дело, например, какого-нибудь пассива — и сразу на помощь будете звать контекст.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Ильич от августа 13, 2014, 00:06

А это вообще правильно?
fruit flies like a banana
Зачем тут артикль?
Я бы написал: fruit flies like bananas.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 13, 2014, 00:35

А если банан на столе один?

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Ильич от августа 13, 2014, 00:50

Цитата: Bhudh от августа 13, 2014, 00:35
А если банан на столе один?

Да хоть ни одного банана на столе нет, всё равно плодовые мушки любят бананы. Или я не понимаю этой фразы.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 13, 2014, 02:26

Може, они и любят, а вот сейчас им нравится конкретно вот этот банан на столе. Вот они над ним и вьются.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Тайльнемер от августа 13, 2014, 04:41

Цитата: Bhudh от августа 13, 2014, 02:26
а вот сейчас им нравится конкретно вот этот банан на столе

Тогда было бы the banana, нет?

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 13, 2014, 08:24

Не кажется ли вам, что чем больше в языке падежей, тем он проще для разбора?
Понятно, что падеж - субъективное понятие.
Но если падежей много, то вероятность того, что предложение будет парситься неоднозначно, меньше.
Так, может быть, финский, венгерский, табасаранский?

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: unlight от августа 13, 2014, 08:32

Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Не кажется ли вам, что чем больше в языке падежей, тем он проще для разбора?

Какая в этом смысле разница между падежом и предлогом/послелогом? К тому же во многих случаях один и тот же падеж может выполнять очень разные семантические функции.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 13, 2014, 08:34

Цитата: unlight от августа 13, 2014, 08:32
Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Не кажется ли вам, что чем больше в языке падежей, тем он проще для разбора?
Какая в этом смысле разница между падежом и предлогом/послелогом? К тому же во многих случаях один и тот же падеж может выполнять очень разные семантические функции.

Никакой разницы. Какие у вас предложения?
А чем больше падежей, тем меньше вероятность, что падеж полисемичен. Только лишь вероятность.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gyesa от августа 13, 2014, 11:21

Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Так, может быть, финский, венгерский, табасаранский?

Насчёт табасаранского не знаю, в финском падежей немного, в венгерском немало, но многие из них могут обозначать разные вещи, вследствие чего в некоторых (а их вполне немало можно найти) ситуациях может возникать двойственность значения, что решается лишь контекстом, а это, как я понимаю, не то, что нужно :)

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 13, 2014, 14:55

Цитата: Bienna от августа 13, 2014, 11:21
Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Так, может быть, финский, венгерский, табасаранский?
Насчёт табасаранского не знаю, в финском падежей немного, в венгерском немало, но многие из них могут обозначать разные вещи, вследствие чего в некоторых (а их вполне немало можно найти) ситуациях может возникать двойственность значения, что решается лишь контекстом, а это, как я понимаю, не то, что нужно :)

По сути для синтаксического анализа надо выявить предикаты и аргументы (имя существительное/местоимение/имя собственное) прежде всего, определить в каком падеже (или с каким предлогом) стоит тот или иной аргумент.

Дальше уже легче. Мы можем узнать по словарю, что для конкретного глагола значит тот или иной падеж.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Wolliger Mensch от августа 13, 2014, 15:18

Цитата: Тайльнемер от августа 13, 2014, 04:41
Цитата: Bhudh от августа 13, 2014, 02:26
а вот сейчас им нравится конкретно вот этот банан на столе
Тогда было бы the banana, нет?

Ср. в русском: плодовым мушкам понравился один банан и плодовым мушкам понравился этот банан ~ нереферентное плодовые мушки любят бананы.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Ильич от августа 14, 2014, 00:39

Цитата: Wolliger Mensch от августа 13, 2014, 15:18
Цитата: Тайльнемер от августа 13, 2014, 04:41
Цитата: Bhudh от августа 13, 2014, 02:26
а вот сейчас им нравится конкретно вот этот банан на столе
Тогда было бы the banana, нет?

Ср. в русском: плодовым мушкам понравился один банан и плодовым мушкам понравился этот банан ~ нереферентное плодовые мушки любят бананы.

Вот я и удивляюсь, почему какой-то один банан из кучи им понравился

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 14, 2014, 00:44

Может, к другим доступ закрыт.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gyesa от августа 14, 2014, 10:00

Цитата: Bhudh от августа 14, 2014, 00:44
Может, к другим доступ закрыт.

404?

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: RNK от августа 14, 2014, 10:28

Может, кечуа или аймара? Оба крайне регулярны. Несколько миллионов носителей и там, и там. Аймара будто бы был даже отмечен, как оптимальный для машинного перевода.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 14, 2014, 10:54

Цитата: Bienna от августа 14, 2014, 10:00404?

402.

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 14, 2014, 14:50

Цитата: RNK от августа 14, 2014, 10:28
Может, кечуа или аймара? Оба крайне регулярны. Несколько миллионов носителей и там, и там. Аймара будто бы был даже отмечен, как оптимальный для машинного перевода.

Я вынужден принять этот ответ. Спасибо!

Кечуа.
Агглютинация там плоха тем, что там аффиксы, а не отдельные слова.
Однако, возможно, выделение аффиксов будет более-менее простым. Тогда можно уже определить роль аргументов в клаузах.

Аймара куда менее регулярен, его применимость для машинного перевода скорее смахивает на рекламу. Возможно, что именно упомянутые особенности и стали причиной такой рекламы.

Лингвофорум

Теоретический раздел => Прикладная лингвистика => Компьютерная лингвистика => Тема начата: Gleki Arxokuna от августа 12, 2014, 12:46