Лингвофорум

Теоретический раздел => Прикладная лингвистика => Компьютерная лингвистика => Topic started by: quez on February 1, 2014, 04:09

Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 04:09
Несмотря на очень существенное развитие компьютерных технологий, машинный перевод часто являет собой очень печальное зрелище. Что тут скажешь, если, наверное, самая прогрессивная технология google translate берет грубой силой, а не умом. Люди с машинами говорят на разных языках, тут никуда не деться.

Но эта трудность предстает не впервые. Компьютерам сложно понимать человеческую речь так же, как и людям было сложно общаться с первыми компьютерами, на их же, компьютерном, языке. Очень сложно и неудобно. Поэтому были созданы языки программирования, сначала низкого, а потом и высокого уровня. Некоторые программы сейчас можно просто читать на английском без ущерба для понимания принципов ее работы. В каком-то приближении можно сказать, что компьютер заставили пойти на уступки человеку.

Суть идеи лежит в обратном: в текстах, которые подлежат переводу, уже человек идет на уступки компьютеру. Текст должен быть написан по некоторым правилам, которые исключают любые неоднозначности, например:
Понятно, что ни о какой художественной литературе речь не идет. Но мне кажется, что так можно было бы переводить техническую литературу, возможно, даже публициистику. Что вы об этом думаете и не встречали ли вы чего-нибудь подобного раньше?
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 04:20
Баян (http://samlib.ru/w/wagapow_a_s/zhukov.shtml).
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 04:21
Quote from:
Высказывался ряд мнений, что грамматику языков надо упрощать, сжимать в объеме. Призыв упрощать родился из неверия в перспективу развития электронных машин. Поговаривали даже о том, что существующие обычные машины не годятся для перевода и надо создавать специализированную технику. Сначала это имело некоторый смысл. Машины еще не обладали большой памятью и быстродействием, и упрощение языка позволяло экономить машинное время. С совершенствованием машин появилась возможность предусматривать языковые тонкости, которые при математическом подходе отчасти теряются.
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 04:22
Баян.
Спасибо, ознакомлюсь.
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 04:24
Ознакомьтесь, ознакомьтесь… И не забывайте, придумав "новую, замечательную, свежую идею" в следующий раз, хорошенько погуглить на предмет наличия её уже в массах.
А то нехорошо получается — книжка-то старше меня будет…
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 04:26
Высказывался ряд мнений, что грамматику языков надо упрощать, сжимать в объеме. Призыв упрощать родился из неверия в перспективу развития электронных машин. Поговаривали даже о том, что существующие обычные машины не годятся для перевода и надо создавать специализированную технику. Сначала это имело некоторый смысл. Машины еще не обладали большой памятью и быстродействием, и упрощение языка позволяло экономить машинное время. С совершенствованием машин появилась возможность предусматривать языковые тонкости, которые при математическом подходе отчасти теряются.
Автор так пишет, будто это тогда были трудности, которые пытались преодолеть путем упрощения, но теперь эти трудности преодолены. Но ведь это не так.
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 04:27
Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Кстати, Вы зря считаете её "самой прогрессивной технологией" автоматического перевода.
Наоборот, у гугла самая примитивная его технология.
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 04:28
Ознакомьтесь, ознакомьтесь… И не забывайте, придумав "новую, замечательную, свежую идею" в следующий раз, хорошенько погуглить на предмет наличия её уже в массах.
А то нехорошо получается — книжка-то старше меня будет…
У меня нет привычки задавать вопросы, не погуглив. Но тут сформулировать запос у меня не получилось.
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 04:30
Я сформулировал запрос всего лишь из сочетания двух фраз: "машинный перевод" и "упрощение языка".
И получил искомое.
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 04:33
Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Простите, не верю. Они справляются с категориями, которые отсутствуют в исходном языке? Они не пугаются омонимов, понятных лишь из контекста?
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 04:34
И речь не идет об упрощении. Я его указал лишь как возможное.
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 04:40
Для отсутствующих категорий есть шаблоны перевода в существующие.
С омонимами, конечно, сложнее, но если есть контекст, помогает семантический анализ.
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 04:42
И речь не идет об упрощении.
У Вас речь идёт об упрощении грамматики.
В пределе — подогнать все предложения под один шаблон, причём неважно какой: SVO, SOV или VSO, главное, чтоб один и тот же.
Вот тогда машина не будет путаться.
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 04:51
И речь не идет об упрощении.
У Вас речь идёт об упрощении грамматики.
В пределе — подогнать все предложения под один шаблон, причём неважно какой: SVO, SOV или VSO, главное, чтоб один и тот же.
Вот тогда машина не будет путаться.
Вы приписываете мне слова, которых я не говорил.
Если предложение написано по-русски с свободным порядком, но правильными падежами, сможет ли машина определить subject, object и verb? В общем случае — да. Сможет переставить слова местами для английского? Да. Если машина путается, мы добавляем служебную информацию только для машины.
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 05:10
Хорошо, но в этом случае будет удобнее просто использовать вместо "слов" массивы сем, граммем и морфем, дабы при переводе подставлять наиболее полно совпадающие массивы.
К чему ограничиваться какой-то неполной "служебной информацией"? Если есть возможность, стоит заполнить все возможные слоты.
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 05:14
Удобнее? И как же вы потом будете читать эти семы, морфемы и графемы?
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 05:20
Где я писал, что человеку нужно будет их читать? Для человека массив отображается соответствующим привычным ему словом.
Я имел в виду "удобнее компьютеру".
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 05:27
Собственно, служебную грамматическую информацию электронные словари давно используют и умеют анализировать.
Вот, например, пример выдачи латинско-английского словаря VERBA:
(http://puu.sh/6FvZW.png) (http://puu.sh/6FvZW.png)
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 05:32
Quote
Где я писал, что человеку нужно будет их читать? Для человека массив отображается соответствующим привычным ему словом.
Я имел в виду "удобнее компьютеру".
Не вы. Я. Я подразумевал, что этот текст можно будет использовать без всяких ограничений на исходном языке. Обьяснения для транслятора — что-то сродни разметки на веб-странице.
Серьезно, если идти вашим путем, получится ложбан для перевода, который никто не будет знать.
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 05:40
То есть писать так же, как пишут в изданиях по генеративной лингвистике?
HeSUBJ-PRN-MASC-SG is3RD-SG-COP aART-DEF doctorNOUN-SG.
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 05:41
Собственно, служебную грамматическую информацию электронные словари давно используют и умеют анализировать.
Я и рассчитывал, что машина и так знает все, что можно понять из словоформы. Но транслятор должен попросить человека предоставить ему информацию, которая человеку была бы понятна из контекста, но тем не менее необходима для перевода.
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 05:44
Например?
«Доктор крикнул "Я лечу!" после того, как выбросился из окна»?
Или "кровать — это существительное, а не глагол, как это можно понять из словоформы, оканчивающейся на -ать"?

Вот, кстати, хвалёный гугл: http://goo.gl/6LPR0p
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 05:50
То есть писать так же, как пишут в изданиях по генеративной лингвистике?
HeSUBJ-PRN-MASC-SG is3RD-SG-COP aART-DEF doctorSUBST-SG.
Если нужно — да. Но здесь дополнительной информации вроде бы не надо. По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается). В обратном же порядке нужно было бы написать что-то вроде Он — докторНЕОПР.
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 05:54
По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается).
И тут же первая спотыкашка: русское «Он — доктор» не содержит способов определить тему и рему в предложении.
Иными словами, это предложение может отвечать на 2 вопроса: «Кто он?» и «Кто (здесь) доктор?»
Ответы, соответственно: «Он — доктор» и «Он — доктор».
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 06:04
По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается).
И тут же первая спотыкашка: русское «Он — доктор» не содержит способов определить тему и рему в предложении.
Иными словами, это предложение может отвечать на 2 вопроса: «Кто он?» и «Кто (здесь) доктор?»
Ответы, соответственно: «Он — доктор» и «Он — доктор».
Если я правильно понимаю, первое будет звучать He is a doctor, а второе — The doctor is he? Тогда ничего не поделаешь, нужно будет и их обозначить, если этой информации нет в явном обозначении неопределенности.
Title: Новый взгляд на машинный перевод
Post by: Pawlo on February 1, 2014, 06:10
Несмотря на очень существенное развитие компьютерных технологий, машинный перевод часто являет собой очень печальное зрелище. Что тут скажешь, если, наверное, самая прогрессивная технология google translate берет грубой силой, а не умом. Люди с машинами говорят на разных языках, тут никуда не деться.

Но эта трудность предстает не впервые. Компьютерам сложно понимать человеческую речь так же, как и людям было сложно общаться с первыми компьютерами, на их же, компьютерном, языке. Очень сложно и неудобно. Поэтому были созданы языки программирования, сначала низкого, а потом и высокого уровня. Некоторые программы сейчас можно просто читать на английском без ущерба для понимания принципов ее работы. В каком-то приближении можно сказать, что компьютер заставили пойти на уступки человеку.

Суть идеи лежит в обратном: в текстах, которые подлежат переводу, уже человек идет на уступки компьютеру. Текст должен быть написан по некоторым правилам, которые исключают любые неоднозначности, например:
  • грамматически правильно
  • с дополнительной информацией, касающейся неоднозначностей
  • возможно, без использования различных сложностей вроде извращенных времен

Понятно, что ни о какой художественной литературе речь не идет. Но мне кажется, что так можно было бы переводить техническую литературу, возможно, даже публициистику. Что вы об этом думаете и не встречали ли вы чего-нибудь подобного раньше?
Предложение очнеь простое вы его высказали не первым. Но какой смысл людям мучать себя и писать нарочито примитивно лишь ради того чтобы кто то другой смог его проще перевести программой?
Title: Новый взгляд на машинный перевод
Post by: Pawlo on February 1, 2014, 06:12
Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Кстати, Вы зря считаете её "самой прогрессивной технологией" автоматического перевода.
Наоборот, у гугла самая примитивная его технология.
может и примитивная но из массовых програм и сервисов  у Гугла один из лучших результатов
Title: Новый взгляд на машинный перевод
Post by: quez on February 1, 2014, 06:16
Quote
Предложение очнеь простое вы его высказали не первым. Но какой смысл людям мучать себя и писать нарочито примитивно лишь ради того чтобы кто то другой смог его проще перевести программой?
Об упрощении говорим лишь в последнюю очередь, лишь тогда, когда ничего больше не помогает. И не кто-то другой, а сам написал и сам, обозначив необходимые слова, перевел на нужные языки.
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 06:20
из массовых програм и сервисов  у Гугла один из лучших результатов
Гугль тупо берёт и сравнивает, как вот это слово в одном тексте переведено с языка A на английский с тем, как слово переведено с языка B на английский.
И переводит их через английский. И получается, что "петух" по-хорватски penis (http://translate.google.com/#auto/hr/петух). Потому, что на английском cock означает и то и другое. Гугл просто не умеет подставлять правильные синонимы.
Title: Новый взгляд на машинный перевод
Post by: Pawlo on February 1, 2014, 07:35
из массовых програм и сервисов  у Гугла один из лучших результатов
Гугль тупо берёт и сравнивает, как вот это слово в одном тексте переведено с языка A на английский с тем, как слово переведено с языка B на английский.
И переводит их через английский. И получается, что "петух" по-хорватски penis (http://translate.google.com/#auto/hr/петух). Потому, что на английском cock означает и то и другое. Гугл просто не умеет подставлять правильные синонимы.
Я с єтим не спорю просто гворю что из автопеереводчиков именно у ггула пчоему то первім начал получатсья более мене вменяемій результат
а что у них алгоритм примитивній я знаю
Title: Новый взгляд на машинный перевод
Post by: Bhudh on February 1, 2014, 08:14
А Вы как, вообще, много автопереводчиков-то знаете? Особенно из тех, что появились до Google translate online?
Title: Новый взгляд на машинный перевод
Post by: li-na on February 22, 2014, 21:45
Хочу задать вопрос отчасти по теме (не уверена, что для него нужна отдельная тема, хотя это и возможно): как Вы понимаете цель машинного перевода? Для чего он может быть нужен лично Вам? И, как следствие, для чего Вы его реально используете?
В контексте обсуждения качеств того или иного автопереводчика и вообще возможностей машинного перевода этот вопрос весьма принципиален.

Понятно, что машинный перевод может иметь чисто теоретическое значение: если удается построить модель, которая хорошо работает, значит более или менее понятно, как устроен исходный процесс. Но уже как будто очевидно, что заменить живой, человеческий перевод машинным практически нереально. Как следствие - сужение задач.
Так как Вы видите эти самые суженные задачи? И как Вы считаете, может ли какой-либо автопереводчик представлять реальный интерес и быть полезным тому, кто занимается изучением иностранных языков?
Title: Новый взгляд на машинный перевод
Post by: spawn on April 21, 2014, 22:57
Я не владею на достойном уровне ни одним иностранным языком, но по работе должен работать с текстами на английском, немецком, французском, испанском и итальянском. Тексты - журналистские, из СМИ. Должен сказать, что google translate дает приемлемый результат только при прямом переводе английский-русский. При переводе с других европейских языков лучший результат показывает майкрософтовский переводчик Bing. Переводчик Промт уступает им обоим. В принципе прогресса особого в алгоритмах этих программ за последние лет 5, что я этим занимаюсь, не заметил. Часто смысл даже при переводе с английского, не говоря уж про остальные, искажается до полной неузнаваемости и приходится разбирать предложение со словарем. Особенно это часто встречается когда автор пишет витиевато, что характерно для англоязычной прессы "для яйцеголовых", типа какого-нибудь журнала "Нью-Йоркер". 
Title: Новый взгляд на машинный перевод
Post by: Gleki Arxokuna on August 12, 2014, 14:13
Какой язык удобнее для синтаксического анализа? (http://lingvoforum.net/index.php/topic,70942.0.html)