Какой язык удобнее для синтаксического анализа?

Автор Gleki Arxokuna, августа 12, 2014, 12:46

0 Пользователи и 1 гость просматривают эту тему.

Gleki Arxokuna

Какой язык лучше для синтаксического анализа и машинного перевода?

Такие языки, как ложбан, имеют полностью формальный синтаксис.

Можно легко снять двусмысленность фразы "Я увидел её на поляне с цветами":
1. "Я увидел её на поляне, [будучи сам] с цветами".
2. "Я увидел её [находящейся] на поляне-с-цветами".

Вернее, в ложбане изначально вообще не было предусмотрено такой двусмысленности.

Немного удобен и эсперанто. В нём прямо-таки для нубов промаркированы части речи.

Сравните это с английским:

time flies like an arrow, fruit flies like a banana.

Даже люди спотыкаются на этом примере. Многие вообще не сообразят, что тут "зашифровано". Но это английский, его можно отбросить.

Русский тоже сложен. Например, винительный пересекается с именительным и родительным:
"мать любит дочь", кто кого любит?

Быть может, бислама или ток-писин окажутся проще?

Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

Wolliger Mensch

Цитата: Gleki Arxokuna от августа 12, 2014, 12:46
"мать любит дочь", кто кого любит?

Это любимый пример тех, кто хочет показать следствия формального неразличения именительного и винительного падежей. Между тем, это чисто письменный пример — в устной речи матьим любит дочь и матьвин любит дочь различаются тонами слов мать и дочь в различных синтаксических положениях.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Bhudh

Цитата: Gleki Arxokuna от августа 12, 2014, 12:46Многие вообще не сообразят, что тут "зашифровано".
Почему? Контекст — великая вещь, он подсказывает, что бананы летать не умеют.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Gleki Arxokuna

Оба ответа выше верны, однако, речь-то именно о машинном переводе на уровне простого синтаксиса.

Нет контекста!

Нужен язык, который бы поочевиднее показывал синтаксическое древо!
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

Bhudh

Цитата: Gleki Arxokuna от августа 12, 2014, 15:06Нет контекста!
Где "нет контекста", все предыдущие выученные знания о мире — контекст.
«Временны[b]́[/b]е мухи любят стрелы» — э, не-е, нет таких мух. А обычные мухи стрелы не любят...
«Фрукт летает как банан» — чё за хня такая⁈
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Lodur

Цитата: Bhudh от августа 12, 2014, 14:46
Цитата: Gleki Arxokuna от августа 12, 2014, 12:46Многие вообще не сообразят, что тут "зашифровано".
Почему? Контекст — великая вещь, он подсказывает, что бананы летать не умеют.
Однако ж, я распарсил только со второго прочтения. :)
8-й Девственник Лингвофорума

If the doors of perception were cleansed, everything would appear to man as it is: infinite. (W. Blake)
Какая потребителю разница, какой продукт лучше не работает?.. (Awwal12)

Lodur

Цитата: Bhudh от августа 12, 2014, 15:22Где "нет контекста", все предыдущие выученные знания о мире — контекст.
Компьютерная программа знает о мире только то, что заложил в неё программист. :) (Ну, есть, конечно, самообучающиеся программы, но они, пмсм, пока туповаты).
8-й Девственник Лингвофорума

If the doors of perception were cleansed, everything would appear to man as it is: infinite. (W. Blake)
Какая потребителю разница, какой продукт лучше не работает?.. (Awwal12)

Gyesa

Цитата: Gleki Arxokuna от августа 12, 2014, 12:46
Можно легко снять двусмысленность фразы "Я увидел её на поляне с цветами":
1. "Я увидел её на поляне, [будучи сам] с цветами".
2. "Я увидел её [находящейся] на поляне-с-цветами".
Тогда уж трёхсмысленность: ещё и "я увидел её на поляне, она была с цветами".
Nu vei obține niciodată ceea ce îți dorești dacă nu-l iei.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Gleki Arxokuna

Простите, но мне нужен ЯЗЫК, где максимально чётко виден синтаксис.
В английском этого явно нет, даже по сравнению с русским.

В каком языке ситуация лучше?
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Gyesa

Латинский? Вроде как там всё очень чётко маркировано, вследствие чего, правда, может допускаться дичайший порядок слов.
Nu vei obține niciodată ceea ce îți dorești dacă nu-l iei.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

li-na

Я подпишусь на тему. И напомню про лидепла, который, ИМХО, все же (в обсуждаемой функции) весьма неплох.

Gleki Arxokuna

Цитата: li-na от августа 12, 2014, 16:22
Я подпишусь на тему. И напомню про лидепла, который, ИМХО, все же (в обсуждаемой функции) весьма неплох.

Да-да, но ...

ЦитироватьКакие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.

Никто не спорит, что можно создать язык под условия синтаксического анализа.

Но нужен из активных языков.

Меньшее из зол, так сказать.
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

li-na

Цитата: Gleki Arxokuna от августа 12, 2014, 16:29
Цитировать
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.
Нужен из активных языков.

То есть ложбан не подходит, он просто для сравнения?

Gleki Arxokuna

Цитата: li-na от августа 12, 2014, 16:32
Цитата: Gleki Arxokuna от августа 12, 2014, 16:29
Цитировать
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.
Нужен из активных языков.

То есть ложбан не подходит, он просто для сравнения?

Совершенно верно. Ложбан не подходит.
Решения ad hoc не подходят (ложбан и был создан практически для этого).

Санскрит и латынь - не уверен, что 100 000 наберется, но с этим можно поспорить (много накопленной литературы, которая как-то компенсирует отсутствие носителей).
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

li-na

Ток Писин, если что, сохраняет омонимию английского по частям речи (глаголы могут выступать в роли существительных).

Gleki Arxokuna

Пришёл такой ответ:
Japanese marks the syntactic role of each constituent with "particles", so for instance you know whenever you're dealing with a direct object.
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

Gyesa

Цитата: Gleki Arxokuna от августа 12, 2014, 19:13
Japanese marks the syntactic role of each constituent with "particles", so for instance you know whenever you're dealing with a direct object.
Маркировать-то маркирует, только коснись дело, например, какого-нибудь пассива — и сразу на помощь будете звать контекст.
Nu vei obține niciodată ceea ce îți dorești dacă nu-l iei.

Ильич

А это вообще правильно?
fruit flies like a banana
Зачем тут артикль?
Я бы написал: fruit flies like bananas.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Ильич

Цитата: Bhudh от августа 13, 2014, 00:35
А если банан на столе один?
Да хоть ни одного банана на столе нет, всё равно плодовые мушки любят бананы. Или я не понимаю этой фразы.

Bhudh

Може, они и любят, а вот сейчас им нравится конкретно вот этот банан на столе. Вот они над ним и вьются.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Тайльнемер


Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр