Лингвофорум

Теоретический раздел => Прикладная лингвистика => Компьютерная лингвистика => Тема начата: quez от февраля 1, 2014, 02:09

Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 02:09
Несмотря на очень существенное развитие компьютерных технологий, машинный перевод часто являет собой очень печальное зрелище. Что тут скажешь, если, наверное, самая прогрессивная технология google translate берет грубой силой, а не умом. Люди с машинами говорят на разных языках, тут никуда не деться.

Но эта трудность предстает не впервые. Компьютерам сложно понимать человеческую речь так же, как и людям было сложно общаться с первыми компьютерами, на их же, компьютерном, языке. Очень сложно и неудобно. Поэтому были созданы языки программирования, сначала низкого, а потом и высокого уровня. Некоторые программы сейчас можно просто читать на английском без ущерба для понимания принципов ее работы. В каком-то приближении можно сказать, что компьютер заставили пойти на уступки человеку.

Суть идеи лежит в обратном: в текстах, которые подлежат переводу, уже человек идет на уступки компьютеру. Текст должен быть написан по некоторым правилам, которые исключают любые неоднозначности, например:
Понятно, что ни о какой художественной литературе речь не идет. Но мне кажется, что так можно было бы переводить техническую литературу, возможно, даже публициистику. Что вы об этом думаете и не встречали ли вы чего-нибудь подобного раньше?
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 02:20
Баян (http://samlib.ru/w/wagapow_a_s/zhukov.shtml).
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 02:21
Цитата: Высказывался ряд мнений, что грамматику языков надо упрощать, сжимать в объеме. Призыв упрощать родился из неверия в перспективу развития электронных машин. Поговаривали даже о том, что существующие обычные машины не годятся для перевода и надо создавать специализированную технику. Сначала это имело некоторый смысл. Машины еще не обладали большой памятью и быстродействием, и упрощение языка позволяло экономить машинное время. С совершенствованием машин появилась возможность предусматривать языковые тонкости, которые при математическом подходе отчасти теряются.
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 02:22
Цитата: Bhudh от февраля  1, 2014, 02:20
Баян.
Спасибо, ознакомлюсь.
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 02:24
Ознакомьтесь, ознакомьтесь... И не забывайте, придумав "новую, замечательную, свежую идею" в следующий раз, хорошенько погуглить на предмет наличия её уже в массах.
А то нехорошо получается — книжка-то старше меня будет...
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 02:26
Цитата: Bhudh от февраля  1, 2014, 02:21
Высказывался ряд мнений, что грамматику языков надо упрощать, сжимать в объеме. Призыв упрощать родился из неверия в перспективу развития электронных машин. Поговаривали даже о том, что существующие обычные машины не годятся для перевода и надо создавать специализированную технику. Сначала это имело некоторый смысл. Машины еще не обладали большой памятью и быстродействием, и упрощение языка позволяло экономить машинное время. С совершенствованием машин появилась возможность предусматривать языковые тонкости, которые при математическом подходе отчасти теряются.
Автор так пишет, будто это тогда были трудности, которые пытались преодолеть путем упрощения, но теперь эти трудности преодолены. Но ведь это не так.
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 02:27
Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Кстати, Вы зря считаете её "самой прогрессивной технологией" автоматического перевода.
Наоборот, у гугла самая примитивная его технология.
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 02:28
Цитата: Bhudh от февраля  1, 2014, 02:24
Ознакомьтесь, ознакомьтесь... И не забывайте, придумав "новую, замечательную, свежую идею" в следующий раз, хорошенько погуглить на предмет наличия её уже в массах.
А то нехорошо получается — книжка-то старше меня будет...
У меня нет привычки задавать вопросы, не погуглив. Но тут сформулировать запос у меня не получилось.
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 02:30
Я сформулировал запрос всего лишь из сочетания двух фраз: "машинный перевод" и "упрощение языка".
И получил искомое.
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 02:33
Цитата: Bhudh от февраля  1, 2014, 02:27
Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Простите, не верю. Они справляются с категориями, которые отсутствуют в исходном языке? Они не пугаются омонимов, понятных лишь из контекста?
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 02:34
И речь не идет об упрощении. Я его указал лишь как возможное.
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 02:40
Для отсутствующих категорий есть шаблоны перевода в существующие.
С омонимами, конечно, сложнее, но если есть контекст, помогает семантический анализ.
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 02:42
Цитата: quez от февраля  1, 2014, 02:34И речь не идет об упрощении.
У Вас речь идёт об упрощении грамматики.
В пределе — подогнать все предложения под один шаблон, причём неважно какой: SVO, SOV или VSO, главное, чтоб один и тот же.
Вот тогда машина не будет путаться.
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 02:51
Цитата: Bhudh от февраля  1, 2014, 02:42
Цитата: quez от февраля  1, 2014, 02:34И речь не идет об упрощении.
У Вас речь идёт об упрощении грамматики.
В пределе — подогнать все предложения под один шаблон, причём неважно какой: SVO, SOV или VSO, главное, чтоб один и тот же.
Вот тогда машина не будет путаться.
Вы приписываете мне слова, которых я не говорил.
Если предложение написано по-русски с свободным порядком, но правильными падежами, сможет ли машина определить subject, object и verb? В общем случае — да. Сможет переставить слова местами для английского? Да. Если машина путается, мы добавляем служебную информацию только для машины.
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 03:10
Хорошо, но в этом случае будет удобнее просто использовать вместо "слов" массивы сем, граммем и морфем, дабы при переводе подставлять наиболее полно совпадающие массивы.
К чему ограничиваться какой-то неполной "служебной информацией"? Если есть возможность, стоит заполнить все возможные слоты.
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 03:14
Удобнее? И как же вы потом будете читать эти семы, морфемы и графемы?
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 03:20
Где я писал, что человеку нужно будет их читать? Для человека массив отображается соответствующим привычным ему словом.
Я имел в виду "удобнее компьютеру".
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 03:27
Собственно, служебную грамматическую информацию электронные словари давно используют и умеют анализировать.
Вот, например, пример выдачи латинско-английского словаря VERBA:
(http://puu.sh/6FvZW.png) (http://puu.sh/6FvZW.png)
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 03:32
ЦитироватьГде я писал, что человеку нужно будет их читать? Для человека массив отображается соответствующим привычным ему словом.
Я имел в виду "удобнее компьютеру".
Не вы. Я. Я подразумевал, что этот текст можно будет использовать без всяких ограничений на исходном языке. Обьяснения для транслятора — что-то сродни разметки на веб-странице.
Серьезно, если идти вашим путем, получится ложбан для перевода, который никто не будет знать.
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 03:40
То есть писать так же, как пишут в изданиях по генеративной лингвистике?
HeSUBJ-PRN-MASC-SG is3RD-SG-COP aART-DEF doctorNOUN-SG.
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 03:41
Цитата: Bhudh от февраля  1, 2014, 03:27
Собственно, служебную грамматическую информацию электронные словари давно используют и умеют анализировать.
Я и рассчитывал, что машина и так знает все, что можно понять из словоформы. Но транслятор должен попросить человека предоставить ему информацию, которая человеку была бы понятна из контекста, но тем не менее необходима для перевода.
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 03:44
Например?
«Доктор крикнул "Я лечу!" после того, как выбросился из окна»?
Или "кровать — это существительное, а не глагол, как это можно понять из словоформы, оканчивающейся на -ать"?

Вот, кстати, хвалёный гугл: http://goo.gl/6LPR0p
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 03:50
Цитата: Bhudh от февраля  1, 2014, 03:40
То есть писать так же, как пишут в изданиях по генеративной лингвистике?
HeSUBJ-PRN-MASC-SG is3RD-SG-COP aART-DEF doctorSUBST-SG.
Если нужно — да. Но здесь дополнительной информации вроде бы не надо. По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается). В обратном же порядке нужно было бы написать что-то вроде Он — докторНЕОПР.
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 03:54
Цитата: quez от февраля  1, 2014, 03:50По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается).
И тут же первая спотыкашка: русское «Он — доктор» не содержит способов определить тему и рему в предложении.
Иными словами, это предложение может отвечать на 2 вопроса: «Кто он?» и «Кто (здесь) доктор?»
Ответы, соответственно: «Он — доктор» и «Он — доктор».
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 04:04
Цитата: Bhudh от февраля  1, 2014, 03:54
Цитата: quez от февраля  1, 2014, 03:50По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается).
И тут же первая спотыкашка: русское «Он — доктор» не содержит способов определить тему и рему в предложении.
Иными словами, это предложение может отвечать на 2 вопроса: «Кто он?» и «Кто (здесь) доктор?»
Ответы, соответственно: «Он — доктор» и «Он — доктор».
Если я правильно понимаю, первое будет звучать He is a doctor, а второе — The doctor is he? Тогда ничего не поделаешь, нужно будет и их обозначить, если этой информации нет в явном обозначении неопределенности.
Название: Новый взгляд на машинный перевод
Отправлено: Pawlo от февраля 1, 2014, 04:10
Цитата: quez от февраля  1, 2014, 02:09
Несмотря на очень существенное развитие компьютерных технологий, машинный перевод часто являет собой очень печальное зрелище. Что тут скажешь, если, наверное, самая прогрессивная технология google translate берет грубой силой, а не умом. Люди с машинами говорят на разных языках, тут никуда не деться.

Но эта трудность предстает не впервые. Компьютерам сложно понимать человеческую речь так же, как и людям было сложно общаться с первыми компьютерами, на их же, компьютерном, языке. Очень сложно и неудобно. Поэтому были созданы языки программирования, сначала низкого, а потом и высокого уровня. Некоторые программы сейчас можно просто читать на английском без ущерба для понимания принципов ее работы. В каком-то приближении можно сказать, что компьютер заставили пойти на уступки человеку.

Суть идеи лежит в обратном: в текстах, которые подлежат переводу, уже человек идет на уступки компьютеру. Текст должен быть написан по некоторым правилам, которые исключают любые неоднозначности, например:

  • грамматически правильно
  • с дополнительной информацией, касающейся неоднозначностей
  • возможно, без использования различных сложностей вроде извращенных времен

Понятно, что ни о какой художественной литературе речь не идет. Но мне кажется, что так можно было бы переводить техническую литературу, возможно, даже публициистику. Что вы об этом думаете и не встречали ли вы чего-нибудь подобного раньше?
Предложение очнеь простое вы его высказали не первым. Но какой смысл людям мучать себя и писать нарочито примитивно лишь ради того чтобы кто то другой смог его проще перевести программой?
Название: Новый взгляд на машинный перевод
Отправлено: Pawlo от февраля 1, 2014, 04:12
Цитата: Bhudh от февраля  1, 2014, 02:27
Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Кстати, Вы зря считаете её "самой прогрессивной технологией" автоматического перевода.
Наоборот, у гугла самая примитивная его технология.
может и примитивная но из массовых програм и сервисов  у Гугла один из лучших результатов
Название: Новый взгляд на машинный перевод
Отправлено: quez от февраля 1, 2014, 04:16
ЦитироватьПредложение очнеь простое вы его высказали не первым. Но какой смысл людям мучать себя и писать нарочито примитивно лишь ради того чтобы кто то другой смог его проще перевести программой?
Об упрощении говорим лишь в последнюю очередь, лишь тогда, когда ничего больше не помогает. И не кто-то другой, а сам написал и сам, обозначив необходимые слова, перевел на нужные языки.
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 04:20
Цитата: Pawlo от февраля  1, 2014, 04:12из массовых програм и сервисов  у Гугла один из лучших результатов
Гугль тупо берёт и сравнивает, как вот это слово в одном тексте переведено с языка A на английский с тем, как слово переведено с языка B на английский.
И переводит их через английский. И получается, что "петух" по-хорватски penis (http://translate.google.com/#auto/hr/%D0%BF%D0%B5%D1%82%D1%83%D1%85). Потому, что на английском cock означает и то и другое. Гугл просто не умеет подставлять правильные синонимы.
Название: Новый взгляд на машинный перевод
Отправлено: Pawlo от февраля 1, 2014, 05:35
Цитата: Bhudh от февраля  1, 2014, 04:20
Цитата: Pawlo от февраля  1, 2014, 04:12из массовых програм и сервисов  у Гугла один из лучших результатов
Гугль тупо берёт и сравнивает, как вот это слово в одном тексте переведено с языка A на английский с тем, как слово переведено с языка B на английский.
И переводит их через английский. И получается, что "петух" по-хорватски penis (http://translate.google.com/#auto/hr/%D0%BF%D0%B5%D1%82%D1%83%D1%85). Потому, что на английском cock означает и то и другое. Гугл просто не умеет подставлять правильные синонимы.
Я с єтим не спорю просто гворю что из автопеереводчиков именно у ггула пчоему то первім начал получатсья более мене вменяемій результат
а что у них алгоритм примитивній я знаю
Название: Новый взгляд на машинный перевод
Отправлено: Bhudh от февраля 1, 2014, 06:14
А Вы как, вообще, много автопереводчиков-то знаете? Особенно из тех, что появились до Google translate online?
Название: Новый взгляд на машинный перевод
Отправлено: li-na от февраля 22, 2014, 19:45
Хочу задать вопрос отчасти по теме (не уверена, что для него нужна отдельная тема, хотя это и возможно): как Вы понимаете цель машинного перевода? Для чего он может быть нужен лично Вам? И, как следствие, для чего Вы его реально используете?
В контексте обсуждения качеств того или иного автопереводчика и вообще возможностей машинного перевода этот вопрос весьма принципиален.

Понятно, что машинный перевод может иметь чисто теоретическое значение: если удается построить модель, которая хорошо работает, значит более или менее понятно, как устроен исходный процесс. Но уже как будто очевидно, что заменить живой, человеческий перевод машинным практически нереально. Как следствие - сужение задач.
Так как Вы видите эти самые суженные задачи? И как Вы считаете, может ли какой-либо автопереводчик представлять реальный интерес и быть полезным тому, кто занимается изучением иностранных языков?
Название: Новый взгляд на машинный перевод
Отправлено: spawn от апреля 21, 2014, 21:57
Я не владею на достойном уровне ни одним иностранным языком, но по работе должен работать с текстами на английском, немецком, французском, испанском и итальянском. Тексты - журналистские, из СМИ. Должен сказать, что google translate дает приемлемый результат только при прямом переводе английский-русский. При переводе с других европейских языков лучший результат показывает майкрософтовский переводчик Bing. Переводчик Промт уступает им обоим. В принципе прогресса особого в алгоритмах этих программ за последние лет 5, что я этим занимаюсь, не заметил. Часто смысл даже при переводе с английского, не говоря уж про остальные, искажается до полной неузнаваемости и приходится разбирать предложение со словарем. Особенно это часто встречается когда автор пишет витиевато, что характерно для англоязычной прессы "для яйцеголовых", типа какого-нибудь журнала "Нью-Йоркер". 
Название: Новый взгляд на машинный перевод
Отправлено: Gleki Arxokuna от августа 12, 2014, 13:13
Какой язык удобнее для синтаксического анализа? (http://lingvoforum.net/index.php/topic,70942.0.html)