Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

пагубная иллюзия лингвистов

Автор Лингво, апреля 24, 2012, 18:50

0 Пользователи и 1 гость просматривают эту тему.

Лингво

встретил такую цитату на хабре:

Языковеды всего мира подвержены одной пагубной иллюзии, полагая, что если они сумеют построить «правильный синтаксический граф», (то есть, «дерево фразы»), то они в этом случае, наконец-таки, решат это треклятую проблему машинной обработки естественно-язычных текстов (еят). Вот и ищут лингвисты денно и нощно какие-то мифические связи и отношения между словами (семантическими единицами) в предложениях и абзацах текстов. Да ещё и кибернетиков подключили к этим своим безуспешным поискам. Прошло уже полвека таких изысканий, а воз, как говорится, и поныне там. Не строится никак этот граф, давая много лет устойчивые 50% ошибок. Уже и сотни миллионов долларов потрачены. Один только проект «Watson» чего стоит. А ведь, в принципе, этих «связей и отношений» и нет на самом-то деле. Всё это, если внимательно вдуматься, искусственные наукообразные выдумки, из-за которых, собственно, прогресс в деле создания технологии осмысленной обработки еят зашел в тот тупик, где сейчас и пребывает.


что скажете? как дела обстоят на самом деле?

Alone Coder

Согласен. Граф строится путём задания вопросов, а вопросы языкоспецифичны.


lehoslav

Wenn mit mir und denn noch drey Personen es vorbey ist in unserem Dorf, alsdann wird wohl niemand recht wissen, wie ein Hund auf Wendisch genannt wirdt.

Alone Coder


arseniiv

Каких вопросов? Вы ещё скажите, что род слова и падеж определяете по вопросам.

nivtirB

То, что воз и ныне там, - это точно. Ни лучших моделей, ни лучших формализаций не придумали. Машины считают в тысячу раз быстрее, быстрой памяти в тысячи раз больше, а высшее достижение тупой гугл-поиск и примитивный гугл-перевод.
Наносите пользу и причиняйте добро!

Artemon

Ну взять даже автоматический перевод на этом форуме: ляпов предостаточно, но общий смысл, как правило, ясен. Вы уверены, что в большинстве случаев нужно большее?
За разнообразие в мире языков: //vk.com/lingvomir
    [li]Чёрное и белое - лишь условные абстракции. Но жить, навешивая ярлыки, куда проще.[/li]
    [li]Green ideas и глокая куздра сообщают, что главное – принцип. Слова меняются, модели остаются.[/li]
    [li]Хорошо кишинёвскому сыну тайца и египтянки.[/li]
    [li]Ругая эсперанто, предлагайте альтернативы. Многие в вашей стране смотрят голливудские фильмы без перевода?[/li]
    [li]Живой язык = мёртвый конланг + армия и флот.[/li]
    [li]Центру нужны единое мнение, единый язык и смиренные налогоплательщики.[/li]

nivtirB

Вопрос в том, есть ли существенный качественный прогресс.

Насчёт того, что нужно, вопрос слишком отвлечённый. Если бы машинный перевод приблизился к человеческому, было бы очень неплохо (но не для переводчиков :) ) А так: и на том спасибо.
Наносите пользу и причиняйте добро!

nivtirB

Посмотрел автоматические переводы в этой теме. Действительно, неплохо.

А вот это порадовало:

а воз, как говорится, и поныне там...

and WHO, as they say, and still there    ;D
Наносите пользу и причиняйте добро!

autolyk

 
Цитата: nivtirB от мая 11, 2012, 01:32
А вот это порадовало:
а воз, как говорится, и поныне там...
and WHO, as they say, and still there
Видимо, глюк. Выше про воз был другой перевод. Вообще же, загрузить в память GT фразеологизмы — вопрос скорее технический.
Атэц Әүүәл not welcome in this topic

Sirko

Есть ложь, есть большая ложь, и есть статистика, которую Гугл и использует для перевода.

Цитата: http://www.techcentral.co.za/googles-babel-fish-heralds-future-of-translation/28396/No one is going to take an important political speech and put it into machine translation to publish it in 20 different languages. Our goal is not to create artificial intelligence; our goal is to provide an 80% solution where you'll be able to understand the political speech's point, but not it's rhetoric, not it's beauty necessarily.

ЦитироватьThis really comes from the fact that this is a statistical system. We've built it so you can literally put anything into it. We will translate anything you give us. It might be good or it might be bad, but on average it will be quite impressive.

Валер

Цитата: autolyk от мая 11, 2012, 06:28
Цитата: nivtirB от мая 11, 2012, 01:32
А вот это порадовало:
а воз, как говорится, и поныне там...
and WHO, as they say, and still there
Видимо, глюк. Выше про воз был другой перевод. Вообще же, загрузить в память GT фразеологизмы — вопрос скорее технический.
Если это глюк то такие кажется что не редкость. Я иногда любопытствую местным сайтовским переводом с русского. Даже не фразеологизмы, а просто сколько-то не стандартные (по крайней мере) фразы, с междометиями, и т.п. получают довольно оригинальные интерпретации :) Как, похоже, и в гуглотрансляторе
Несолидарный. С войной, чем-либо, кем-либо.

Убить непросто. Убивать за свою страну намного легче.

alkaigor

Цитата: Лингво от апреля 24, 2012, 18:50
встретил такую цитату на хабре:

Языковеды всего мира подвержены одной пагубной иллюзии, полагая, что если они сумеют построить «правильный синтаксический граф», (то есть, «дерево фразы»), то они в этом случае, наконец-таки, решат это треклятую проблему машинной обработки естественно-язычных текстов (еят). Вот и ищут лингвисты денно и нощно какие-то мифические связи

  • Кто такое хабр? Хабрахабр?
  • У лингвистов действительно-таки есть таковая иллюзия?
  • Какова степень пагубности этой иллюзии? То есть, куда (или во что) она их ввергает? Может, это просто розовые очки?
  • Можно ли проиллюстрировать ее пагубность каким-нибудь драматическим сюжетом?
Очень обычное явление у филологов чрезмерное напряжение памяти, сравнительно малое развитие суждения.
(Ф.Ницше)

Caraṃ ce nādhigaccheyya seyyaṃ sadisam attano
Ekacariyaṃ daḷhaṃ kayirā natthi bāle sahāyatā.
(Дхаммапада)

francisrossi

Цитата: nivtirB от мая 11, 2012, 00:32
То, что воз и ныне там, - это точно. Ни лучших моделей, ни лучших формализаций не придумали. Машины считают в тысячу раз быстрее, быстрой памяти в тысячи раз больше, а высшее достижение тупой гугл-поиск и примитивный гугл-перевод.
Пару лет назад убедился, что поиск Яху куда менее тупой, чем гугловский. Да и Яндекс показал неплохие результаты по русскоязычным страницам - Гугл ему в этой нише тоже уступает. В общем, не боги горшки обжигают.

Алексей Гринь

Цитата: Лингво от апреля 24, 2012, 18:50
А ведь, в принципе, этих «связей и отношений» и нет на самом-то деле. Всё это, если внимательно вдуматься, искусственные наукообразные выдумки, из-за которых, собственно, прогресс в деле создания технологии осмысленной обработки еят зашел в тот тупик, где сейчас и пребывает.
, — сказал Google и создал фэйл под названием Google Translate. Мда.

Цитата: francisrossi от мая 12, 2012, 20:20
Да и Яндекс показал неплохие результаты по русскоязычным страницам - Гугл ему в этой нише тоже уступает. В общем, не боги горшки обжигают.
Проблема Google Translate в том, что он использует стастистику, заточенную под конкретные пары язык<=>язык, что непригодно для малых языков
肏! Τίς πέπορδε;

watchmaker

Цитироватьа воз, как говорится, и поныне там...
and WHO, as they say, and still there

Воз и ВОЗ - всё-таки разные вещи...

Wildnorth

Цитата: RawonaM от апреля 25, 2012, 10:22
:fp:
+2.

Проблема некачественного перевода - это ИМХО прежде всего проблема некачественного словаря, т.е. перекрёстных соответствий между разными значениями и правилами с учётом контекстов. А контекстов могут быть миллионы и миллиарды. То, что отношения между словами существуют, а их древовидное представление - вполне оправдано - это просто альфа и омега. Фактически этот чел хочет загнать лингвистику туда, где она была до Хомского или даже до Соссюра - флаг ему в руки.

Пример с "а воз, как говорится, и поныне там/and WHO, as they say, and still there" - это как раз проблема словаря, куда а) не забили этот фразеологизм; б) не занесли слово "воз" (версус ВОЗ); в) не занесли усилительное значение союза "и" (действующего в данном случае как частица); г) не учли, что в русском связка в наст.вр. чаще всего опускается, а в английском - нет. В остальном перевод как перевод.

Toman

Цитата: Wildnorth от мая 10, 2014, 22:05
то как раз проблема словаря, куда а) не забили этот фразеологизм; б) не занесли слово "воз" (версус ВОЗ); в) не занесли усилительное значение союза "и" (действующего в данном случае как частица); г) не учли, что в русском связка в наст.вр. чаще всего опускается, а в английском - нет.
У меня почему-то есть подозрение, что гуглопереводчик в принципе не может "учитывать" такие вещи, даже как в пункте г). Имхо, он вообще не занимается по-настоящему разбором грамматики, а либо (в лучшем случае) пытается подставлять слова в готовые образцы согласно частям речи, либо (если точно такого по структуре образца не находится) вообще переводит пословно без какой-то здравой грамматики.
Во́зле до́ма хо́лм с куля́ми - вы́йду на́ холм, ку́ль поставлю.
В славном городе Miami тётки мерялись ногтями, тик иң озын завсегда у Фиделя борода!

Bhudh

Цитата: Toman от мая 12, 2014, 08:20он вообще не занимается по-настоящему разбором грамматики
Там вообще граммар-парсера нет.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Python

Строя дерево, рано или поздно находишь пример, когда оно становится похоже на рыбацкую сеть. Но если от определения грамматической структуры отказаться вообще, а требуемые словоформы определять из контекста, опираясь на частотный анализ соседних слов, то мы получим вдобавок еще и кучу грамматических несогласованностей, перевод «с точностью до наооборот» и т.п.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр