Author Topic: Какой язык удобнее для синтаксического анализа?  (Read 5377 times)

0 Members and 1 Guest are viewing this topic.

Offline Gleki Arxokuna

  • Posts: 418
Какой язык лучше для синтаксического анализа и машинного перевода?

Такие языки, как ложбан, имеют полностью формальный синтаксис.

Можно легко снять двусмысленность фразы "Я увидел её на поляне с цветами":
1. "Я увидел её на поляне, [будучи сам] с цветами".
2. "Я увидел её [находящейся] на поляне-с-цветами".

Вернее, в ложбане изначально вообще не было предусмотрено такой двусмысленности.

Немного удобен и эсперанто. В нём прямо-таки для нубов промаркированы части речи.

Сравните это с английским:

time flies like an arrow, fruit flies like a banana.

Даже люди спотыкаются на этом примере. Многие вообще не сообразят, что тут "зашифровано". Но это английский, его можно отбросить.

Русский тоже сложен. Например, винительный пересекается с именительным и родительным:
"мать любит дочь", кто кого любит?

Быть может, бислама или ток-писин окажутся проще?

Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

Offline Wolliger Mensch

  • Global Moderator
  • *
  • Posts: 53848
  • Gender: Male
  • Haariger Affe
    • Подушка
"мать любит дочь", кто кого любит?

Это любимый пример тех, кто хочет показать следствия формального неразличения именительного и винительного падежей. Между тем, это чисто письменный пример — в устной речи матьим любит дочь и матьвин любит дочь различаются тонами слов мать и дочь в различных синтаксических положениях.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: „рулетке“ — „выпечке“?? Тем более, что сей ляпсус я сам совершил…», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО … ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики…», Авал

Offline Bhudh

  • Posts: 56646
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Многие вообще не сообразят, что тут "зашифровано".
Почему? Контекст — великая вещь, он подсказывает, что бананы летать не умеют.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Gleki Arxokuna

  • Posts: 418
Оба ответа выше верны, однако, речь-то именно о машинном переводе на уровне простого синтаксиса.

Нет контекста!

Нужен язык, который бы поочевиднее показывал синтаксическое древо!
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

Offline Bhudh

  • Posts: 56646
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Нет контекста!
Где "нет контекста", все предыдущие выученные знания о мире — контекст.
«Временны́е мухи любят стрелы» — э, не-е, нет таких мух. А обычные мухи стрелы не любят…
«Фрукт летает как банан» — чё за хня такая⁈
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Online Lodur

  • Posts: 32630
  • Gender: Male
Многие вообще не сообразят, что тут "зашифровано".
Почему? Контекст — великая вещь, он подсказывает, что бананы летать не умеют.
Однако ж, я распарсил только со второго прочтения. :)
If the doors of perception were cleansed, everything would appear to man as it is: infinite. (W. Blake)
Какая потребителю разница, какой продукт лучше не работает?.. (Awwal12)

Где "нет контекста", все предыдущие выученные знания о мире — контекст.
Компьютерная программа знает о мире только то, что заложил в неё программист. :) (Ну, есть, конечно, самообучающиеся программы, но они, пмсм, пока туповаты).
If the doors of perception were cleansed, everything would appear to man as it is: infinite. (W. Blake)
Какая потребителю разница, какой продукт лучше не работает?.. (Awwal12)

Offline Bienna

  • Posts: 614
  • Gender: Male
  • Программист, переводчик, преподаватель
    • Rólam
Можно легко снять двусмысленность фразы "Я увидел её на поляне с цветами":
1. "Я увидел её на поляне, [будучи сам] с цветами".
2. "Я увидел её [находящейся] на поляне-с-цветами".
Тогда уж трёхсмысленность: ещё и "я увидел её на поляне, она была с цветами".
Nu vei obține niciodată ceea ce îți dorești dacă nu-l iei.

Offline Bhudh

  • Posts: 56646
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Однако ж, я распарсил только со второго прочтения. :)
Ничего, гугл вообще не распарсил.
Причём дважды.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Gleki Arxokuna

  • Posts: 418
Простите, но мне нужен ЯЗЫК, где максимально чётко виден синтаксис.
В английском этого явно нет, даже по сравнению с русским.

В каком языке ситуация лучше?
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

Offline Bhudh

  • Posts: 56646
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Bienna

  • Posts: 614
  • Gender: Male
  • Программист, переводчик, преподаватель
    • Rólam
Латинский? Вроде как там всё очень чётко маркировано, вследствие чего, правда, может допускаться дичайший порядок слов.
Nu vei obține niciodată ceea ce îți dorești dacă nu-l iei.

Offline Bhudh

  • Posts: 56646
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Латинский? Вроде как там всё очень чётко маркировано
И дохренища омоформ.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline li-na

  • Posts: 626
  • Gender: Female
Я подпишусь на тему. И напомню про лидепла, который, ИМХО, все же (в обсуждаемой функции) весьма неплох.
lidepla.org

Offline Gleki Arxokuna

  • Posts: 418
Я подпишусь на тему. И напомню про лидепла, который, ИМХО, все же (в обсуждаемой функции) весьма неплох.

Да-да, но ...

Quote
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.

Никто не спорит, что можно создать язык под условия синтаксического анализа.

Но нужен из активных языков.

Меньшее из зол, так сказать.
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

Offline li-na

  • Posts: 626
  • Gender: Female
Quote
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.
Нужен из активных языков.

То есть ложбан не подходит, он просто для сравнения?
lidepla.org

Offline Gleki Arxokuna

  • Posts: 418
Quote
Какие вообще языки из живых и имеющих большое число носителей (не менее 100 000) проще для парсинга (выстраивания синтаксического древа) ?

Для данной темы это обязательное условие.
Нужен из активных языков.

То есть ложбан не подходит, он просто для сравнения?

Совершенно верно. Ложбан не подходит.
Решения ad hoc не подходят (ложбан и был создан практически для этого).

Санскрит и латынь - не уверен, что 100 000 наберется, но с этим можно поспорить (много накопленной литературы, которая как-то компенсирует отсутствие носителей).
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

Offline li-na

  • Posts: 626
  • Gender: Female
Ток Писин, если что, сохраняет омонимию английского по частям речи (глаголы могут выступать в роли существительных).
lidepla.org

Offline Gleki Arxokuna

  • Posts: 418
Пришёл такой ответ:
Japanese marks the syntactic role of each constituent with "particles", so for instance you know whenever you're dealing with a direct object.
Что более эффективно, научить людей системе, которая паразитирует на реальных языках, и несколько упрощает их, исключая некоторые детали фактических исторических языков; или же более эффективно иметь большое количество языков.

lojban.org/papri/Ложбан_и_самогоноварение

lojban.org/papri/Революционный_привет!/Советский

Offline Bienna

  • Posts: 614
  • Gender: Male
  • Программист, переводчик, преподаватель
    • Rólam
Japanese marks the syntactic role of each constituent with "particles", so for instance you know whenever you're dealing with a direct object.
Маркировать-то маркирует, только коснись дело, например, какого-нибудь пассива — и сразу на помощь будете звать контекст.
Nu vei obține niciodată ceea ce îți dorești dacă nu-l iei.

Offline Ильич

  • Posts: 8349
  • Gender: Male
А это вообще правильно?
fruit flies like a banana
Зачем тут артикль?
Я бы написал: fruit flies like bananas.

Offline Bhudh

  • Posts: 56646
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
А если банан на столе один?
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Ильич

  • Posts: 8349
  • Gender: Male
А если банан на столе один?
Да хоть ни одного банана на столе нет, всё равно плодовые мушки любят бананы. Или я не понимаю этой фразы.

Offline Bhudh

  • Posts: 56646
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Може, они и любят, а вот сейчас им нравится конкретно вот этот банан на столе. Вот они над ним и вьются.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Тайльнемер

  • Posts: 12736
  • Σοι υν βυρρο. Ix bin æn ézl
а вот сейчас им нравится конкретно вот этот банан на столе
Тогда было бы the banana, нет?

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: