Author Topic: Новый взгляд на машинный перевод  (Read 4634 times)

0 Members and 1 Guest are viewing this topic.

Offline quez

  • Posts: 281
  • Gender: Male
Несмотря на очень существенное развитие компьютерных технологий, машинный перевод часто являет собой очень печальное зрелище. Что тут скажешь, если, наверное, самая прогрессивная технология google translate берет грубой силой, а не умом. Люди с машинами говорят на разных языках, тут никуда не деться.

Но эта трудность предстает не впервые. Компьютерам сложно понимать человеческую речь так же, как и людям было сложно общаться с первыми компьютерами, на их же, компьютерном, языке. Очень сложно и неудобно. Поэтому были созданы языки программирования, сначала низкого, а потом и высокого уровня. Некоторые программы сейчас можно просто читать на английском без ущерба для понимания принципов ее работы. В каком-то приближении можно сказать, что компьютер заставили пойти на уступки человеку.

Суть идеи лежит в обратном: в текстах, которые подлежат переводу, уже человек идет на уступки компьютеру. Текст должен быть написан по некоторым правилам, которые исключают любые неоднозначности, например:
  • грамматически правильно
  • с дополнительной информацией, касающейся неоднозначностей
  • возможно, без использования различных сложностей вроде извращенных времен

Понятно, что ни о какой художественной литературе речь не идет. Но мне кажется, что так можно было бы переводить техническую литературу, возможно, даже публициистику. Что вы об этом думаете и не встречали ли вы чего-нибудь подобного раньше?

Offline Bhudh

  • Posts: 56972
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Quote from:
Высказывался ряд мнений, что грамматику языков надо упрощать, сжимать в объеме. Призыв упрощать родился из неверия в перспективу развития электронных машин. Поговаривали даже о том, что существующие обычные машины не годятся для перевода и надо создавать специализированную технику. Сначала это имело некоторый смысл. Машины еще не обладали большой памятью и быстродействием, и упрощение языка позволяло экономить машинное время. С совершенствованием машин появилась возможность предусматривать языковые тонкости, которые при математическом подходе отчасти теряются.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline quez

  • Posts: 281
  • Gender: Male
Баян.
Спасибо, ознакомлюсь.

Offline Bhudh

  • Posts: 56972
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Ознакомьтесь, ознакомьтесь… И не забывайте, придумав "новую, замечательную, свежую идею" в следующий раз, хорошенько погуглить на предмет наличия её уже в массах.
А то нехорошо получается — книжка-то старше меня будет…
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline quez

  • Posts: 281
  • Gender: Male
Высказывался ряд мнений, что грамматику языков надо упрощать, сжимать в объеме. Призыв упрощать родился из неверия в перспективу развития электронных машин. Поговаривали даже о том, что существующие обычные машины не годятся для перевода и надо создавать специализированную технику. Сначала это имело некоторый смысл. Машины еще не обладали большой памятью и быстродействием, и упрощение языка позволяло экономить машинное время. С совершенствованием машин появилась возможность предусматривать языковые тонкости, которые при математическом подходе отчасти теряются.
Автор так пишет, будто это тогда были трудности, которые пытались преодолеть путем упрощения, но теперь эти трудности преодолены. Но ведь это не так.

Offline Bhudh

  • Posts: 56972
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Кстати, Вы зря считаете её "самой прогрессивной технологией" автоматического перевода.
Наоборот, у гугла самая примитивная его технология.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline quez

  • Posts: 281
  • Gender: Male
Ознакомьтесь, ознакомьтесь… И не забывайте, придумав "новую, замечательную, свежую идею" в следующий раз, хорошенько погуглить на предмет наличия её уже в массах.
А то нехорошо получается — книжка-то старше меня будет…
У меня нет привычки задавать вопросы, не погуглив. Но тут сформулировать запос у меня не получилось.

Offline Bhudh

  • Posts: 56972
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Я сформулировал запрос всего лишь из сочетания двух фраз: "машинный перевод" и "упрощение языка".
И получил искомое.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline quez

  • Posts: 281
  • Gender: Male
Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Простите, не верю. Они справляются с категориями, которые отсутствуют в исходном языке? Они не пугаются омонимов, понятных лишь из контекста?

И речь не идет об упрощении. Я его указал лишь как возможное.

Offline Bhudh

  • Posts: 56972
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Для отсутствующих категорий есть шаблоны перевода в существующие.
С омонимами, конечно, сложнее, но если есть контекст, помогает семантический анализ.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

И речь не идет об упрощении.
У Вас речь идёт об упрощении грамматики.
В пределе — подогнать все предложения под один шаблон, причём неважно какой: SVO, SOV или VSO, главное, чтоб один и тот же.
Вот тогда машина не будет путаться.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline quez

  • Posts: 281
  • Gender: Male
И речь не идет об упрощении.
У Вас речь идёт об упрощении грамматики.
В пределе — подогнать все предложения под один шаблон, причём неважно какой: SVO, SOV или VSO, главное, чтоб один и тот же.
Вот тогда машина не будет путаться.
Вы приписываете мне слова, которых я не говорил.
Если предложение написано по-русски с свободным порядком, но правильными падежами, сможет ли машина определить subject, object и verb? В общем случае — да. Сможет переставить слова местами для английского? Да. Если машина путается, мы добавляем служебную информацию только для машины.

Offline Bhudh

  • Posts: 56972
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Хорошо, но в этом случае будет удобнее просто использовать вместо "слов" массивы сем, граммем и морфем, дабы при переводе подставлять наиболее полно совпадающие массивы.
К чему ограничиваться какой-то неполной "служебной информацией"? Если есть возможность, стоит заполнить все возможные слоты.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline quez

  • Posts: 281
  • Gender: Male
Удобнее? И как же вы потом будете читать эти семы, морфемы и графемы?

Offline Bhudh

  • Posts: 56972
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Где я писал, что человеку нужно будет их читать? Для человека массив отображается соответствующим привычным ему словом.
Я имел в виду "удобнее компьютеру".
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Собственно, служебную грамматическую информацию электронные словари давно используют и умеют анализировать.
Вот, например, пример выдачи латинско-английского словаря VERBA:
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline quez

  • Posts: 281
  • Gender: Male
Quote
Где я писал, что человеку нужно будет их читать? Для человека массив отображается соответствующим привычным ему словом.
Я имел в виду "удобнее компьютеру".
Не вы. Я. Я подразумевал, что этот текст можно будет использовать без всяких ограничений на исходном языке. Обьяснения для транслятора — что-то сродни разметки на веб-странице.
Серьезно, если идти вашим путем, получится ложбан для перевода, который никто не будет знать.

Offline Bhudh

  • Posts: 56972
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
То есть писать так же, как пишут в изданиях по генеративной лингвистике?
HeSUBJ-PRN-MASC-SG is3RD-SG-COP aART-DEF doctorNOUN-SG.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline quez

  • Posts: 281
  • Gender: Male
Собственно, служебную грамматическую информацию электронные словари давно используют и умеют анализировать.
Я и рассчитывал, что машина и так знает все, что можно понять из словоформы. Но транслятор должен попросить человека предоставить ему информацию, которая человеку была бы понятна из контекста, но тем не менее необходима для перевода.

Offline Bhudh

  • Posts: 56972
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Например?
«Доктор крикнул "Я лечу!" после того, как выбросился из окна»?
Или "кровать — это существительное, а не глагол, как это можно понять из словоформы, оканчивающейся на -ать"?

Вот, кстати, хвалёный гугл: http://goo.gl/6LPR0p
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline quez

  • Posts: 281
  • Gender: Male
То есть писать так же, как пишут в изданиях по генеративной лингвистике?
HeSUBJ-PRN-MASC-SG is3RD-SG-COP aART-DEF doctorSUBST-SG.
Если нужно — да. Но здесь дополнительной информации вроде бы не надо. По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается). В обратном же порядке нужно было бы написать что-то вроде Он — докторНЕОПР.

Offline Bhudh

  • Posts: 56972
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается).
И тут же первая спотыкашка: русское «Он — доктор» не содержит способов определить тему и рему в предложении.
Иными словами, это предложение может отвечать на 2 вопроса: «Кто он?» и «Кто (здесь) доктор?»
Ответы, соответственно: «Он — доктор» и «Он — доктор».
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline quez

  • Posts: 281
  • Gender: Male
По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается).
И тут же первая спотыкашка: русское «Он — доктор» не содержит способов определить тему и рему в предложении.
Иными словами, это предложение может отвечать на 2 вопроса: «Кто он?» и «Кто (здесь) доктор?»
Ответы, соответственно: «Он — доктор» и «Он — доктор».
Если я правильно понимаю, первое будет звучать He is a doctor, а второе — The doctor is he? Тогда ничего не поделаешь, нужно будет и их обозначить, если этой информации нет в явном обозначении неопределенности.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: