Author Topic: пагубная иллюзия лингвистов  (Read 5024 times)

0 Members and 1 Guest are viewing this topic.

Лингво

  • Guest
встретил такую цитату на хабре:

Языковеды всего мира подвержены одной пагубной иллюзии, полагая, что если они сумеют построить «правильный синтаксический граф», (то есть, «дерево фразы»), то они в этом случае, наконец-таки, решат это треклятую проблему машинной обработки естественно-язычных текстов (еят). Вот и ищут лингвисты денно и нощно какие-то мифические связи и отношения между словами (семантическими единицами) в предложениях и абзацах текстов. Да ещё и кибернетиков подключили к этим своим безуспешным поискам. Прошло уже полвека таких изысканий, а воз, как говорится, и поныне там. Не строится никак этот граф, давая много лет устойчивые 50% ошибок. Уже и сотни миллионов долларов потрачены. Один только проект «Watson» чего стоит. А ведь, в принципе, этих «связей и отношений» и нет на самом-то деле. Всё это, если внимательно вдуматься, искусственные наукообразные выдумки, из-за которых, собственно, прогресс в деле создания технологии осмысленной обработки еят зашел в тот тупик, где сейчас и пребывает.


что скажете? как дела обстоят на самом деле?

Offline Alone Coder

  • Вне лингвистики
  • Posts: 23232
  • Gender: Male
    • Орфовики
Согласен. Граф строится путём задания вопросов, а вопросы языкоспецифичны.

Offline RawonaM

  • Posts: 43315

Offline lehoslav

  • Posts: 8710
  • Gender: Male
Wenn mit mir und denn noch drey Personen es vorbey ist in unserem Dorf, alsdann wird wohl niemand recht wissen, wie ein Hund auf Wendisch genannt wirdt.

Offline Alone Coder

  • Вне лингвистики
  • Posts: 23232
  • Gender: Male
    • Орфовики
Опровергнуть нечем?

Offline arseniiv

  • Posts: 14931
    • ::
Каких вопросов? Вы ещё скажите, что род слова и падеж определяете по вопросам.

Offline nivtirB

  • Posts: 1079
То, что воз и ныне там, - это точно. Ни лучших моделей, ни лучших формализаций не придумали. Машины считают в тысячу раз быстрее, быстрой памяти в тысячи раз больше, а высшее достижение тупой гугл-поиск и примитивный гугл-перевод.
Наносите пользу и причиняйте добро!

Offline Artemon

  • Posts: 6283
  • Gender: Male
Ну взять даже автоматический перевод на этом форуме: ляпов предостаточно, но общий смысл, как правило, ясен. Вы уверены, что в большинстве случаев нужно большее?
За разнообразие в мире языков: vk.com/lingvomir
  • Чёрное и белое - лишь условные абстракции. Но жить, навешивая ярлыки, куда проще.
  • Green ideas и глокая куздра сообщают, что главное – принцип. Слова меняются, модели остаются.
  • Хорошо кишинёвскому сыну тайца и египтянки.
  • Ругая эсперанто, предлагайте альтернативы. Многие в вашей стране смотрят голливудские фильмы без перевода?
  • Живой язык = мёртвый конланг + армия и флот.
  • Центру нужны единое мнение, единый язык и смиренные налогоплательщики.

Offline nivtirB

  • Posts: 1079
Вопрос в том, есть ли существенный качественный прогресс.

Насчёт того, что нужно, вопрос слишком отвлечённый. Если бы машинный перевод приблизился к человеческому, было бы очень неплохо (но не для переводчиков :) ) А так: и на том спасибо.
Наносите пользу и причиняйте добро!

Посмотрел автоматические переводы в этой теме. Действительно, неплохо.

А вот это порадовало:

а воз, как говорится, и поныне там...

and WHO, as they say, and still there    ;D
Наносите пользу и причиняйте добро!

Offline autolyk

  • Posts: 8498
  • Gender: Male
 
А вот это порадовало:
а воз, как говорится, и поныне там...
and WHO, as they say, and still there
Видимо, глюк. Выше про воз был другой перевод. Вообще же, загрузить в память GT фразеологизмы — вопрос скорее технический.
Атэц Әүүәл not welcome in this topic

Offline Sirko

  • Posts: 2496
  • Gender: Male
Есть ложь, есть большая ложь, и есть статистика, которую Гугл и использует для перевода.

No one is going to take an important political speech and put it into machine translation to publish it in 20 different languages. Our goal is not to create artificial intelligence; our goal is to provide an 80% solution where you’ll be able to understand the political speech’s point, but not it’s rhetoric, not it’s beauty necessarily.

Quote
This really comes from the fact that this is a statistical system. We’ve built it so you can literally put anything into it. We will translate anything you give us. It might be good or it might be bad, but on average it will be quite impressive.

Offline Валер

  • Posts: 19556
  • Gender: Male
А вот это порадовало:
а воз, как говорится, и поныне там...
and WHO, as they say, and still there
Видимо, глюк. Выше про воз был другой перевод. Вообще же, загрузить в память GT фразеологизмы — вопрос скорее технический.
Если это глюк то такие кажется что не редкость. Я иногда любопытствую местным сайтовским переводом с русского. Даже не фразеологизмы, а просто сколько-то не стандартные (по крайней мере) фразы, с междометиями, и т.п. получают довольно оригинальные интерпретации :) Как, похоже, и в гуглотрансляторе

Offline alkaigor

  • Posts: 625
  • Gender: Male
встретил такую цитату на хабре:

Языковеды всего мира подвержены одной пагубной иллюзии, полагая, что если они сумеют построить «правильный синтаксический граф», (то есть, «дерево фразы»), то они в этом случае, наконец-таки, решат это треклятую проблему машинной обработки естественно-язычных текстов (еят). Вот и ищут лингвисты денно и нощно какие-то мифические связи
  • Кто такое хабр? Хабрахабр?
  • У лингвистов действительно-таки есть таковая иллюзия?
  • Какова степень пагубности этой иллюзии? То есть, куда (или во что) она их ввергает? Может, это просто розовые очки?
  • Можно ли проиллюстрировать ее пагубность каким-нибудь драматическим сюжетом?
Очень обычное явление у филологов чрезмерное напряжение памяти, сравнительно малое развитие суждения.
(Ф.Ницше)

Caraṃ ce nādhigaccheyya seyyaṃ sadisam attano
Ekacariyaṃ daḷhaṃ kayirā natthi bāle sahāyatā.
(Дхаммапада)

Offline francisrossi

  • Posts: 508
  • Gender: Male
То, что воз и ныне там, - это точно. Ни лучших моделей, ни лучших формализаций не придумали. Машины считают в тысячу раз быстрее, быстрой памяти в тысячи раз больше, а высшее достижение тупой гугл-поиск и примитивный гугл-перевод.
Пару лет назад убедился, что поиск Яху куда менее тупой, чем гугловский. Да и Яндекс показал неплохие результаты по русскоязычным страницам - Гугл ему в этой нише тоже уступает. В общем, не боги горшки обжигают.

Offline Алексей Гринь

  • Posts: 24115
  • Gender: Male
А ведь, в принципе, этих «связей и отношений» и нет на самом-то деле. Всё это, если внимательно вдуматься, искусственные наукообразные выдумки, из-за которых, собственно, прогресс в деле создания технологии осмысленной обработки еят зашел в тот тупик, где сейчас и пребывает.
, — сказал Google и создал фэйл под названием Google Translate. Мда.

Да и Яндекс показал неплохие результаты по русскоязычным страницам - Гугл ему в этой нише тоже уступает. В общем, не боги горшки обжигают.
Проблема Google Translate в том, что он использует стастистику, заточенную под конкретные пары язык<=>язык, что непригодно для малых языков
肏! Τίς πέπορδε;

Offline watchmaker

  • Posts: 2061
  • Gender: Male
Quote
а воз, как говорится, и поныне там...
and WHO, as they say, and still there

Воз и ВОЗ - всё-таки разные вещи...

Offline Wildnorth

  • Posts: 222
:fp:
+2.

Проблема некачественного перевода - это ИМХО прежде всего проблема некачественного словаря, т.е. перекрёстных соответствий между разными значениями и правилами с учётом контекстов. А контекстов могут быть миллионы и миллиарды. То, что отношения между словами существуют, а их древовидное представление - вполне оправдано - это просто альфа и омега. Фактически этот чел хочет загнать лингвистику туда, где она была до Хомского или даже до Соссюра - флаг ему в руки.

Пример с "а воз, как говорится, и поныне там/and WHO, as they say, and still there" - это как раз проблема словаря, куда а) не забили этот фразеологизм; б) не занесли слово "воз" (версус ВОЗ); в) не занесли усилительное значение союза "и" (действующего в данном случае как частица); г) не учли, что в русском связка в наст.вр. чаще всего опускается, а в английском - нет. В остальном перевод как перевод.

Offline Toman

  • Posts: 11467
  • Gender: Male
то как раз проблема словаря, куда а) не забили этот фразеологизм; б) не занесли слово "воз" (версус ВОЗ); в) не занесли усилительное значение союза "и" (действующего в данном случае как частица); г) не учли, что в русском связка в наст.вр. чаще всего опускается, а в английском - нет.
У меня почему-то есть подозрение, что гуглопереводчик в принципе не может "учитывать" такие вещи, даже как в пункте г). Имхо, он вообще не занимается по-настоящему разбором грамматики, а либо (в лучшем случае) пытается подставлять слова в готовые образцы согласно частям речи, либо (если точно такого по структуре образца не находится) вообще переводит пословно без какой-то здравой грамматики.
Во́зле до́ма хо́лм с куля́ми - вы́йду на́ холм, ку́ль поставлю.
В славном городе Miami тётки мерялись ногтями, тик иң озын завсегда у Фиделя борода!

Offline Bhudh

  • Posts: 56659
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
он вообще не занимается по-настоящему разбором грамматики
Там вообще граммар-парсера нет.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Online Python

  • Posts: 41388
  • Gender: Male
  • Aluarium agent
Строя дерево, рано или поздно находишь пример, когда оно становится похоже на рыбацкую сеть. Но если от определения грамматической структуры отказаться вообще, а требуемые словоформы определять из контекста, опираясь на частотный анализ соседних слов, то мы получим вдобавок еще и кучу грамматических несогласованностей, перевод «с точностью до наооборот» и т.п.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: