Автор Тема: пагубная иллюзия лингвистов  (Прочитано 6898 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Лингво

  • Гость
встретил такую цитату на хабре:

Языковеды всего мира подвержены одной пагубной иллюзии, полагая, что если они сумеют построить «правильный синтаксический граф», (то есть, «дерево фразы»), то они в этом случае, наконец-таки, решат это треклятую проблему машинной обработки естественно-язычных текстов (еят). Вот и ищут лингвисты денно и нощно какие-то мифические связи и отношения между словами (семантическими единицами) в предложениях и абзацах текстов. Да ещё и кибернетиков подключили к этим своим безуспешным поискам. Прошло уже полвека таких изысканий, а воз, как говорится, и поныне там. Не строится никак этот граф, давая много лет устойчивые 50% ошибок. Уже и сотни миллионов долларов потрачены. Один только проект «Watson» чего стоит. А ведь, в принципе, этих «связей и отношений» и нет на самом-то деле. Всё это, если внимательно вдуматься, искусственные наукообразные выдумки, из-за которых, собственно, прогресс в деле создания технологии осмысленной обработки еят зашел в тот тупик, где сейчас и пребывает.


что скажете? как дела обстоят на самом деле?

Оффлайн Alone Coder

  • Вне лингвистики
  • Сообщений: 23159
  • Пол: Мужской
    • Орфовики
Согласен. Граф строится путём задания вопросов, а вопросы языкоспецифичны.

Оффлайн RawonaM

  • Сообщений: 44370

Оффлайн lehoslav

  • Сообщений: 8683
  • Пол: Мужской
Wenn mit mir und denn noch drey Personen es vorbey ist in unserem Dorf, alsdann wird wohl niemand recht wissen, wie ein Hund auf Wendisch genannt wirdt.

Оффлайн Alone Coder

  • Вне лингвистики
  • Сообщений: 23159
  • Пол: Мужской
    • Орфовики
Опровергнуть нечем?

Оффлайн arseniiv

  • Сообщений: 14921
    • ::
Каких вопросов? Вы ещё скажите, что род слова и падеж определяете по вопросам.

Оффлайн nivtirB

  • Сообщений: 1079
То, что воз и ныне там, - это точно. Ни лучших моделей, ни лучших формализаций не придумали. Машины считают в тысячу раз быстрее, быстрой памяти в тысячи раз больше, а высшее достижение тупой гугл-поиск и примитивный гугл-перевод.
Наносите пользу и причиняйте добро!

Оффлайн Artemon

  • Сообщений: 6276
  • Пол: Мужской
Ну взять даже автоматический перевод на этом форуме: ляпов предостаточно, но общий смысл, как правило, ясен. Вы уверены, что в большинстве случаев нужно большее?
За разнообразие в мире языков: vk.com/lingvomir
  • Чёрное и белое - лишь условные абстракции. Но жить, навешивая ярлыки, куда проще.
  • Green ideas и глокая куздра сообщают, что главное – принцип. Слова меняются, модели остаются.
  • Хорошо кишинёвскому сыну тайца и египтянки.
  • Ругая эсперанто, предлагайте альтернативы. Многие в вашей стране смотрят голливудские фильмы без перевода?
  • Живой язык = мёртвый конланг + армия и флот.
  • Центру нужны единое мнение, единый язык и смиренные налогоплательщики.

Оффлайн nivtirB

  • Сообщений: 1079
Вопрос в том, есть ли существенный качественный прогресс.

Насчёт того, что нужно, вопрос слишком отвлечённый. Если бы машинный перевод приблизился к человеческому, было бы очень неплохо (но не для переводчиков :) ) А так: и на том спасибо.
Наносите пользу и причиняйте добро!

Посмотрел автоматические переводы в этой теме. Действительно, неплохо.

А вот это порадовало:

а воз, как говорится, и поныне там...

and WHO, as they say, and still there    ;D
Наносите пользу и причиняйте добро!

Оффлайн autolyk

  • Сообщений: 8459
  • Пол: Мужской
 
А вот это порадовало:
а воз, как говорится, и поныне там...
and WHO, as they say, and still there
Видимо, глюк. Выше про воз был другой перевод. Вообще же, загрузить в память GT фразеологизмы — вопрос скорее технический.
Атэц Әүүәл not welcome in this topic

Оффлайн Sirko

  • Сообщений: 2582
  • Пол: Мужской
Есть ложь, есть большая ложь, и есть статистика, которую Гугл и использует для перевода.

No one is going to take an important political speech and put it into machine translation to publish it in 20 different languages. Our goal is not to create artificial intelligence; our goal is to provide an 80% solution where you’ll be able to understand the political speech’s point, but not it’s rhetoric, not it’s beauty necessarily.

Цитировать
This really comes from the fact that this is a statistical system. We’ve built it so you can literally put anything into it. We will translate anything you give us. It might be good or it might be bad, but on average it will be quite impressive.

Оффлайн Валер

  • Сообщений: 26483
  • Пол: Мужской
А вот это порадовало:
а воз, как говорится, и поныне там...
and WHO, as they say, and still there
Видимо, глюк. Выше про воз был другой перевод. Вообще же, загрузить в память GT фразеологизмы — вопрос скорее технический.
Если это глюк то такие кажется что не редкость. Я иногда любопытствую местным сайтовским переводом с русского. Даже не фразеологизмы, а просто сколько-то не стандартные (по крайней мере) фразы, с междометиями, и т.п. получают довольно оригинальные интерпретации :) Как, похоже, и в гуглотрансляторе

Оффлайн alkaigor

  • Сообщений: 622
  • Пол: Мужской
встретил такую цитату на хабре:

Языковеды всего мира подвержены одной пагубной иллюзии, полагая, что если они сумеют построить «правильный синтаксический граф», (то есть, «дерево фразы»), то они в этом случае, наконец-таки, решат это треклятую проблему машинной обработки естественно-язычных текстов (еят). Вот и ищут лингвисты денно и нощно какие-то мифические связи
  • Кто такое хабр? Хабрахабр?
  • У лингвистов действительно-таки есть таковая иллюзия?
  • Какова степень пагубности этой иллюзии? То есть, куда (или во что) она их ввергает? Может, это просто розовые очки?
  • Можно ли проиллюстрировать ее пагубность каким-нибудь драматическим сюжетом?
Очень обычное явление у филологов чрезмерное напряжение памяти, сравнительно малое развитие суждения.
(Ф.Ницше)

Caraṃ ce nādhigaccheyya seyyaṃ sadisam attano
Ekacariyaṃ daḷhaṃ kayirā natthi bāle sahāyatā.
(Дхаммапада)

Оффлайн francisrossi

  • Сообщений: 508
  • Пол: Мужской
То, что воз и ныне там, - это точно. Ни лучших моделей, ни лучших формализаций не придумали. Машины считают в тысячу раз быстрее, быстрой памяти в тысячи раз больше, а высшее достижение тупой гугл-поиск и примитивный гугл-перевод.
Пару лет назад убедился, что поиск Яху куда менее тупой, чем гугловский. Да и Яндекс показал неплохие результаты по русскоязычным страницам - Гугл ему в этой нише тоже уступает. В общем, не боги горшки обжигают.

Оффлайн Алексей Гринь

  • Сообщений: 24101
  • Пол: Мужской
А ведь, в принципе, этих «связей и отношений» и нет на самом-то деле. Всё это, если внимательно вдуматься, искусственные наукообразные выдумки, из-за которых, собственно, прогресс в деле создания технологии осмысленной обработки еят зашел в тот тупик, где сейчас и пребывает.
, — сказал Google и создал фэйл под названием Google Translate. Мда.

Да и Яндекс показал неплохие результаты по русскоязычным страницам - Гугл ему в этой нише тоже уступает. В общем, не боги горшки обжигают.
Проблема Google Translate в том, что он использует стастистику, заточенную под конкретные пары язык<=>язык, что непригодно для малых языков
肏! Τίς πέπορδε;

Оффлайн watchmaker

  • Сообщений: 2311
  • Пол: Мужской
Цитировать
а воз, как говорится, и поныне там...
and WHO, as they say, and still there

Воз и ВОЗ - всё-таки разные вещи...

Оффлайн Wildnorth

  • Сообщений: 272
:fp:
+2.

Проблема некачественного перевода - это ИМХО прежде всего проблема некачественного словаря, т.е. перекрёстных соответствий между разными значениями и правилами с учётом контекстов. А контекстов могут быть миллионы и миллиарды. То, что отношения между словами существуют, а их древовидное представление - вполне оправдано - это просто альфа и омега. Фактически этот чел хочет загнать лингвистику туда, где она была до Хомского или даже до Соссюра - флаг ему в руки.

Пример с "а воз, как говорится, и поныне там/and WHO, as they say, and still there" - это как раз проблема словаря, куда а) не забили этот фразеологизм; б) не занесли слово "воз" (версус ВОЗ); в) не занесли усилительное значение союза "и" (действующего в данном случае как частица); г) не учли, что в русском связка в наст.вр. чаще всего опускается, а в английском - нет. В остальном перевод как перевод.

Оффлайн Toman

  • Сообщений: 15692
  • Пол: Мужской
то как раз проблема словаря, куда а) не забили этот фразеологизм; б) не занесли слово "воз" (версус ВОЗ); в) не занесли усилительное значение союза "и" (действующего в данном случае как частица); г) не учли, что в русском связка в наст.вр. чаще всего опускается, а в английском - нет.
У меня почему-то есть подозрение, что гуглопереводчик в принципе не может "учитывать" такие вещи, даже как в пункте г). Имхо, он вообще не занимается по-настоящему разбором грамматики, а либо (в лучшем случае) пытается подставлять слова в готовые образцы согласно частям речи, либо (если точно такого по структуре образца не находится) вообще переводит пословно без какой-то здравой грамматики.
Во́зле до́ма хо́лм с куля́ми - вы́йду на́ холм, ку́ль поставлю.
В славном городе Miami тётки мерялись ногтями, тик иң озын завсегда у Фиделя борода!

Оффлайн Bhudh

  • Сообщений: 64349
  • Пол: Мужской
  • aka 蝎
    • Сайты по языкознанию
он вообще не занимается по-настоящему разбором грамматики
Там вообще граммар-парсера нет.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Оффлайн Python

  • Сообщений: 49730
  • Пол: Мужской
  • Aluarium agent
Строя дерево, рано или поздно находишь пример, когда оно становится похоже на рыбацкую сеть. Но если от определения грамматической структуры отказаться вообще, а требуемые словоформы определять из контекста, опираясь на частотный анализ соседних слов, то мы получим вдобавок еще и кучу грамматических несогласованностей, перевод «с точностью до наооборот» и т.п.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

 

В быстром ответе можно использовать BB-теги и смайлы.

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.
Имя: E-mail:
Визуальная проверка:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: