Новый взгляд на машинный перевод

quez · февраля 1, 2014, 02:09

Несмотря на очень существенное развитие компьютерных технологий, машинный перевод часто являет собой очень печальное зрелище. Что тут скажешь, если, наверное, самая прогрессивная технология google translate берет грубой силой, а не умом. Люди с машинами говорят на разных языках, тут никуда не деться.

Но эта трудность предстает не впервые. Компьютерам сложно понимать человеческую речь так же, как и людям было сложно общаться с первыми компьютерами, на их же, компьютерном, языке. Очень сложно и неудобно. Поэтому были созданы языки программирования, сначала низкого, а потом и высокого уровня. Некоторые программы сейчас можно просто читать на английском без ущерба для понимания принципов ее работы. В каком-то приближении можно сказать, что компьютер заставили пойти на уступки человеку.

Суть идеи лежит в обратном: в текстах, которые подлежат переводу, уже человек идет на уступки компьютеру. Текст должен быть написан по некоторым правилам, которые исключают любые неоднозначности, например:

грамматически правильно
с дополнительной информацией, касающейся неоднозначностей
возможно, без использования различных сложностей вроде извращенных времен

Понятно, что ни о какой художественной литературе речь не идет. Но мне кажется, что так можно было бы переводить техническую литературу, возможно, даже публициистику. Что вы об этом думаете и не встречали ли вы чего-нибудь подобного раньше?

Bhudh · февраля 1, 2014, 02:20

Баян.

Bhudh · февраля 1, 2014, 02:21

Цитата: Высказывался ряд мнений, что грамматику языков надо упрощать, сжимать в объеме. Призыв упрощать родился из неверия в перспективу развития электронных машин. Поговаривали даже о том, что существующие обычные машины не годятся для перевода и надо создавать специализированную технику. Сначала это имело некоторый смысл. Машины еще не обладали большой памятью и быстродействием, и упрощение языка позволяло экономить машинное время. С совершенствованием машин появилась возможность предусматривать языковые тонкости, которые при математическом подходе отчасти теряются.

quez · февраля 1, 2014, 02:22

Цитата: Bhudh от февраля 1, 2014, 02:20
Баян.

Спасибо, ознакомлюсь.

Bhudh · февраля 1, 2014, 02:24

Ознакомьтесь, ознакомьтесь... И не забывайте, придумав "новую, замечательную, свежую идею" в следующий раз, хорошенько погуглить на предмет наличия её уже в массах.
А то нехорошо получается — книжка-то старше меня будет...

quez · февраля 1, 2014, 02:26

Цитата: Bhudh от февраля 1, 2014, 02:21
Высказывался ряд мнений, что грамматику языков надо упрощать, сжимать в объеме. Призыв упрощать родился из неверия в перспективу развития электронных машин. Поговаривали даже о том, что существующие обычные машины не годятся для перевода и надо создавать специализированную технику. Сначала это имело некоторый смысл. Машины еще не обладали большой памятью и быстродействием, и упрощение языка позволяло экономить машинное время. С совершенствованием машин появилась возможность предусматривать языковые тонкости, которые при математическом подходе отчасти теряются.

Автор так пишет, будто это тогда были трудности, которые пытались преодолеть путем упрощения, но теперь эти трудности преодолены. Но ведь это не так.

Bhudh · февраля 1, 2014, 02:27

Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Кстати, Вы зря считаете её "самой прогрессивной технологией" автоматического перевода.
Наоборот, у гугла самая примитивная его технология.

quez · февраля 1, 2014, 02:28

Цитата: Bhudh от февраля 1, 2014, 02:24
Ознакомьтесь, ознакомьтесь... И не забывайте, придумав "новую, замечательную, свежую идею" в следующий раз, хорошенько погуглить на предмет наличия её уже в массах.
А то нехорошо получается — книжка-то старше меня будет...

У меня нет привычки задавать вопросы, не погуглив. Но тут сформулировать запос у меня не получилось.

Bhudh · февраля 1, 2014, 02:30

Я сформулировал запрос всего лишь из сочетания двух фраз: "машинный перевод" и "упрощение языка".
И получил искомое.

quez · февраля 1, 2014, 02:33

Цитата: Bhudh от февраля 1, 2014, 02:27
Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.

Простите, не верю. Они справляются с категориями, которые отсутствуют в исходном языке? Они не пугаются омонимов, понятных лишь из контекста?

quez · февраля 1, 2014, 02:34

И речь не идет об упрощении. Я его указал лишь как возможное.

Bhudh · февраля 1, 2014, 02:40

Для отсутствующих категорий есть шаблоны перевода в существующие.
С омонимами, конечно, сложнее, но если есть контекст, помогает семантический анализ.

Bhudh · февраля 1, 2014, 02:42

Цитата: quez от февраля 1, 2014, 02:34И речь не идет об упрощении.

У Вас речь идёт об упрощении грамматики.
В пределе — подогнать все предложения под один шаблон, причём неважно какой: SVO, SOV или VSO, главное, чтоб один и тот же.
Вот тогда машина не будет путаться.

quez · февраля 1, 2014, 02:51

Цитата: Bhudh от февраля 1, 2014, 02:42
Цитата: quez от февраля 1, 2014, 02:34И речь не идет об упрощении.
У Вас речь идёт об упрощении грамматики.
В пределе — подогнать все предложения под один шаблон, причём неважно какой: SVO, SOV или VSO, главное, чтоб один и тот же.
Вот тогда машина не будет путаться.

Вы приписываете мне слова, которых я не говорил.
Если предложение написано по-русски с свободным порядком, но правильными падежами, сможет ли машина определить subject, object и verb? В общем случае — да. Сможет переставить слова местами для английского? Да. Если машина путается, мы добавляем служебную информацию только для машины.

Bhudh · февраля 1, 2014, 03:10

Хорошо, но в этом случае будет удобнее просто использовать вместо "слов" массивы сем, граммем и морфем, дабы при переводе подставлять наиболее полно совпадающие массивы.
К чему ограничиваться какой-то неполной "служебной информацией"? Если есть возможность, стоит заполнить все возможные слоты.

quez · февраля 1, 2014, 03:14

Удобнее? И как же вы потом будете читать эти семы, морфемы и графемы?

Bhudh · февраля 1, 2014, 03:20

Где я писал, что человеку нужно будет их читать? Для человека массив отображается соответствующим привычным ему словом.
Я имел в виду "удобнее компьютеру".

Bhudh · февраля 1, 2014, 03:27

Собственно, служебную грамматическую информацию электронные словари давно используют и умеют анализировать.
Вот, например, пример выдачи латинско-английского словаря VERBA:

quez · февраля 1, 2014, 03:32

ЦитироватьГде я писал, что человеку нужно будет их читать? Для человека массив отображается соответствующим привычным ему словом.
Я имел в виду "удобнее компьютеру".

Не вы. Я. Я подразумевал, что этот текст можно будет использовать без всяких ограничений на исходном языке. Обьяснения для транслятора — что-то сродни разметки на веб-странице.
Серьезно, если идти вашим путем, получится ложбан для перевода, который никто не будет знать.

Bhudh · февраля 1, 2014, 03:40

То есть писать так же, как пишут в изданиях по генеративной лингвистике?
He_{SUBJ-PRN-MASC-SG} is_3RD-SG-COP a_ART-DEF doctor_NOUN-SG.

quez · февраля 1, 2014, 03:41

Цитата: Bhudh от февраля 1, 2014, 03:27
Собственно, служебную грамматическую информацию электронные словари давно используют и умеют анализировать.

Я и рассчитывал, что машина и так знает все, что можно понять из словоформы. Но транслятор должен попросить человека предоставить ему информацию, которая человеку была бы понятна из контекста, но тем не менее необходима для перевода.

Bhudh · февраля 1, 2014, 03:44

Например?
«Доктор крикнул "Я лечу!" после того, как выбросился из окна»?
Или "кровать — это существительное, а не глагол, как это можно понять из словоформы, оканчивающейся на -ать"?

Вот, кстати, хвалёный гугл: http://goo.gl/6LPR0p

quez · февраля 1, 2014, 03:50

Цитата: Bhudh от февраля 1, 2014, 03:40
То есть писать так же, как пишут в изданиях по генеративной лингвистике?
He_{SUBJ-PRN-MASC-SG} is_3RD-SG-COP a_ART-DEF doctor_SUBST-SG.

Если нужно — да. Но здесь дополнительной информации вроде бы не надо. По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается). В обратном же порядке нужно было бы написать что-то вроде Он — доктор_НЕОПР.

Bhudh · февраля 1, 2014, 03:54

Цитата: quez от февраля 1, 2014, 03:50По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается).

И тут же первая спотыкашка: русское «Он — доктор» не содержит способов определить тему и рему в предложении.
Иными словами, это предложение может отвечать на 2 вопроса: «Кто он?» и «Кто (здесь) доктор?»
Ответы, соответственно: «Он — доктор» и «Он — доктор».

quez · февраля 1, 2014, 04:04

Цитата: Bhudh от февраля 1, 2014, 03:54
Цитата: quez от февраля 1, 2014, 03:50По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается).
И тут же первая спотыкашка: русское «Он — доктор» не содержит способов определить тему и рему в предложении.
Иными словами, это предложение может отвечать на 2 вопроса: «Кто он?» и «Кто (здесь) доктор?»
Ответы, соответственно: «Он — доктор» и «Он — доктор».

Если я правильно понимаю, первое будет звучать He is a doctor, а второе — The doctor is he? Тогда ничего не поделаешь, нужно будет и их обозначить, если этой информации нет в явном обозначении неопределенности.

Лингвофорум

Новый взгляд на машинный перевод

quez

Bhudh

Bhudh

quez

Bhudh

quez

Bhudh

quez

Bhudh

quez

quez

Bhudh

Bhudh

quez

Bhudh

quez

Bhudh

Bhudh

quez

Bhudh

quez

Bhudh

quez

Bhudh

quez

Быстрый ответ