Лингвофорум

Теоретический раздел => Прикладная лингвистика => Компьютерная лингвистика => Тема начата: Gleki Arxokuna от августа 12, 2014, 12:46

Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 12:46
Какой язык лучше для синтаксического анализа и машинного перевода?

Такие языки, как ложбан, имеют полностью формальный синтаксис.

Можно легко снять двусмысленность фразы "Я увидел её на поляне с цветами":
1. "Я увидел её на поляне, [будучи сам] с цветами".
2. "Я увидел её [находящейся] на поляне-с-цветами".

Вернее, в ложбане изначально вообще не было предусмотрено такой двусмысленности.

Немного удобен и эсперанто. В нём прямо-таки для нубов промаркированы части речи.

Сравните это с английским:

time flies like an arrow, fruit flies like a banana.

Даже люди спотыкаются на этом примере. Многие вообще не сообразят, что тут "зашифровано". Но это английский, его можно отбросить.

Русский тоже сложен. Например, винительный пересекается с именительным и родительным:
"мать любит дочь", кто кого любит?

Быть может, бислама или ток-писин окажутся проще?

Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Wolliger Mensch от августа 12, 2014, 14:36
Цитата: Gleki Arxokuna от августа 12, 2014, 12:46
"мать любит дочь", кто кого любит?

Это любимый пример тех, кто хочет показать следствия формального неразличения именительного и винительного падежей. Между тем, это чисто письменный пример — в устной речи матьим любит дочь и матьвин любит дочь различаются тонами слов мать и дочь в различных синтаксических положениях.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 12, 2014, 14:46
Цитата: Gleki Arxokuna от августа 12, 2014, 12:46Многие вообще не сообразят, что тут "зашифровано".
Почему? Контекст — великая вещь, он подсказывает, что бананы летать не умеют.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 15:06
Оба ответа выше верны, однако, речь-то именно о машинном переводе на уровне простого синтаксиса.

Нет контекста!

Нужен язык, который бы поочевиднее показывал синтаксическое древо!
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 12, 2014, 15:22
Цитата: Gleki Arxokuna от августа 12, 2014, 15:06Нет контекста!
Где "нет контекста", все предыдущие выученные знания о мире — контекст.
«Временны[b]́[/b]е мухи любят стрелы» — э, не-е, нет таких мух. А обычные мухи стрелы не любят...
«Фрукт летает как банан» — чё за хня такая⁈
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Lodur от августа 12, 2014, 15:30
Цитата: Bhudh от августа 12, 2014, 14:46
Цитата: Gleki Arxokuna от августа 12, 2014, 12:46Многие вообще не сообразят, что тут "зашифровано".
Почему? Контекст — великая вещь, он подсказывает, что бананы летать не умеют.
Однако ж, я распарсил только со второго прочтения. :)
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Lodur от августа 12, 2014, 15:33
Цитата: Bhudh от августа 12, 2014, 15:22Где "нет контекста", все предыдущие выученные знания о мире — контекст.
Компьютерная программа знает о мире только то, что заложил в неё программист. :) (Ну, есть, конечно, самообучающиеся программы, но они, пмсм, пока туповаты).
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gyesa от августа 12, 2014, 15:35
Цитата: Gleki Arxokuna от августа 12, 2014, 12:46
Можно легко снять двусмысленность фразы "Я увидел её на поляне с цветами":
1. "Я увидел её на поляне, [будучи сам] с цветами".
2. "Я увидел её [находящейся] на поляне-с-цветами".
Тогда уж трёхсмысленность: ещё и "я увидел её на поляне, она была с цветами".
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 12, 2014, 15:36
Цитата: Lodur от августа 12, 2014, 15:30Однако ж, я распарсил только со второго прочтения. :)
Ничего, гугл вообще не распарсил (https://translate.google.com/#en/ru/time%20flies%20like%20an%20arrow%2C%20fruit%20flies%20like%20a%20banana).
Причём дважды (https://translate.google.com/#en/ru/Time%20flies%20like%20an%20arrow.%0AFruit%20flies%20like%20a%20banana.).
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 15:53
Простите, но мне нужен ЯЗЫК, где максимально чётко виден синтаксис.
В английском этого явно нет, даже по сравнению с русским.

В каком языке ситуация лучше?
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 12, 2014, 16:01
В санскрите дэсу.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gyesa от августа 12, 2014, 16:01
Латинский? Вроде как там всё очень чётко маркировано, вследствие чего, правда, может допускаться дичайший порядок слов.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 12, 2014, 16:04
Цитата: Bienna от августа 12, 2014, 16:01Латинский? Вроде как там всё очень чётко маркировано
И дохренища омоформ.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: li-na от августа 12, 2014, 16:22
Я подпишусь на тему. И напомню про лидепла, который, ИМХО, все же (в обсуждаемой функции) весьма неплох.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 16:29
Цитата: li-na от августа 12, 2014, 16:22
Я подпишусь на тему. И напомню про лидепла, который, ИМХО, все же (в обсуждаемой функции) весьма неплох.

Да-да, но ...

ЦитироватьКакие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.

Никто не спорит, что можно создать язык под условия синтаксического анализа.

Но нужен из активных языков.

Меньшее из зол, так сказать.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: li-na от августа 12, 2014, 16:32
Цитата: Gleki Arxokuna от августа 12, 2014, 16:29
Цитировать
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.
Нужен из активных языков.

То есть ложбан не подходит, он просто для сравнения?
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 16:36
Цитата: li-na от августа 12, 2014, 16:32
Цитата: Gleki Arxokuna от августа 12, 2014, 16:29
Цитировать
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.
Нужен из активных языков.

То есть ложбан не подходит, он просто для сравнения?

Совершенно верно. Ложбан не подходит.
Решения ad hoc не подходят (ложбан и был создан практически для этого).

Санскрит и латынь - не уверен, что 100 000 наберется, но с этим можно поспорить (много накопленной литературы, которая как-то компенсирует отсутствие носителей).
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: li-na от августа 12, 2014, 19:08
Ток Писин, если что, сохраняет омонимию английского по частям речи (глаголы могут выступать в роли существительных).
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 12, 2014, 19:13
Пришёл такой ответ:
Japanese marks the syntactic role of each constituent with "particles", so for instance you know whenever you're dealing with a direct object.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gyesa от августа 12, 2014, 22:22
Цитата: Gleki Arxokuna от августа 12, 2014, 19:13
Japanese marks the syntactic role of each constituent with "particles", so for instance you know whenever you're dealing with a direct object.
Маркировать-то маркирует, только коснись дело, например, какого-нибудь пассива — и сразу на помощь будете звать контекст.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Ильич от августа 13, 2014, 00:06
А это вообще правильно?
fruit flies like a banana
Зачем тут артикль?
Я бы написал: fruit flies like bananas.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 13, 2014, 00:35
А если банан на столе один?
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Ильич от августа 13, 2014, 00:50
Цитата: Bhudh от августа 13, 2014, 00:35
А если банан на столе один?
Да хоть ни одного банана на столе нет, всё равно плодовые мушки любят бананы. Или я не понимаю этой фразы.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 13, 2014, 02:26
Може, они и любят, а вот сейчас им нравится конкретно вот этот банан на столе. Вот они над ним и вьются.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Тайльнемер от августа 13, 2014, 04:41
Цитата: Bhudh от августа 13, 2014, 02:26
а вот сейчас им нравится конкретно вот этот банан на столе
Тогда было бы the banana, нет?
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 13, 2014, 08:24
Не кажется ли вам, что чем больше в языке падежей, тем он проще для разбора?
Понятно, что падеж - субъективное понятие.
Но если падежей много, то вероятность того, что предложение будет парситься неоднозначно, меньше.
Так, может быть, финский, венгерский, табасаранский?
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: unlight от августа 13, 2014, 08:32
Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Не кажется ли вам, что чем больше в языке падежей, тем он проще для разбора?
Какая в этом смысле разница между падежом и предлогом/послелогом? К тому же во многих случаях один и тот же падеж может выполнять очень разные семантические функции.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 13, 2014, 08:34
Цитата: unlight от августа 13, 2014, 08:32
Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Не кажется ли вам, что чем больше в языке падежей, тем он проще для разбора?
Какая в этом смысле разница между падежом и предлогом/послелогом? К тому же во многих случаях один и тот же падеж может выполнять очень разные семантические функции.
Никакой разницы. Какие у вас предложения?
А чем больше падежей, тем меньше вероятность, что падеж полисемичен. Только лишь вероятность.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gyesa от августа 13, 2014, 11:21
Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Так, может быть, финский, венгерский, табасаранский?
Насчёт табасаранского не знаю, в финском падежей немного, в венгерском немало, но многие из них могут обозначать разные вещи, вследствие чего в некоторых (а их вполне немало можно найти) ситуациях может возникать двойственность значения, что решается лишь контекстом, а это, как я понимаю, не то, что нужно :)
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 13, 2014, 14:55
Цитата: Bienna от августа 13, 2014, 11:21
Цитата: Gleki Arxokuna от августа 13, 2014, 08:24
Так, может быть, финский, венгерский, табасаранский?
Насчёт табасаранского не знаю, в финском падежей немного, в венгерском немало, но многие из них могут обозначать разные вещи, вследствие чего в некоторых (а их вполне немало можно найти) ситуациях может возникать двойственность значения, что решается лишь контекстом, а это, как я понимаю, не то, что нужно :)
По сути для синтаксического анализа надо выявить предикаты и аргументы (имя существительное/местоимение/имя собственное) прежде всего, определить в каком падеже (или с каким предлогом) стоит тот или иной аргумент.

Дальше уже легче. Мы можем узнать по словарю, что для конкретного глагола значит тот или иной падеж.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Wolliger Mensch от августа 13, 2014, 15:18
Цитата: Тайльнемер от августа 13, 2014, 04:41
Цитата: Bhudh от августа 13, 2014, 02:26
а вот сейчас им нравится конкретно вот этот банан на столе
Тогда было бы the banana, нет?

Ср. в русском: плодовым мушкам понравился один банан и плодовым мушкам понравился этот банан ~ нереферентное плодовые мушки любят бананы.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Ильич от августа 14, 2014, 00:39
Цитата: Wolliger Mensch от августа 13, 2014, 15:18
Цитата: Тайльнемер от августа 13, 2014, 04:41
Цитата: Bhudh от августа 13, 2014, 02:26
а вот сейчас им нравится конкретно вот этот банан на столе
Тогда было бы the banana, нет?

Ср. в русском: плодовым мушкам понравился один банан и плодовым мушкам понравился этот банан ~ нереферентное плодовые мушки любят бананы.
Вот я и удивляюсь, почему какой-то один банан из кучи им понравился
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 14, 2014, 00:44
Может, к другим доступ закрыт.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gyesa от августа 14, 2014, 10:00
Цитата: Bhudh от августа 14, 2014, 00:44
Может, к другим доступ закрыт.
404?
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: RNK от августа 14, 2014, 10:28
Может, кечуа или аймара? Оба крайне регулярны. Несколько миллионов носителей и там, и там. Аймара будто бы был даже отмечен, как оптимальный для машинного перевода.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Bhudh от августа 14, 2014, 10:54
Цитата: Bienna от августа 14, 2014, 10:00404?
402.
Название: Какой язык удобнее для синтаксического анализа?
Отправлено: Gleki Arxokuna от августа 14, 2014, 14:50
Цитата: RNK от августа 14, 2014, 10:28
Может, кечуа или аймара? Оба крайне регулярны. Несколько миллионов носителей и там, и там. Аймара будто бы был даже отмечен, как оптимальный для машинного перевода.

Я вынужден принять этот ответ. Спасибо!

Кечуа.
Агглютинация там плоха тем, что там аффиксы, а не отдельные слова.
Однако, возможно, выделение аффиксов будет более-менее простым. Тогда можно уже определить роль аргументов в клаузах.

Аймара куда менее регулярен, его применимость для машинного перевода скорее смахивает на рекламу. Возможно, что именно упомянутые особенности и стали причиной такой рекламы.