Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Новый взгляд на машинный перевод

Автор quez, февраля 1, 2014, 02:09

0 Пользователи и 1 гость просматривают эту тему.

quez

Несмотря на очень существенное развитие компьютерных технологий, машинный перевод часто являет собой очень печальное зрелище. Что тут скажешь, если, наверное, самая прогрессивная технология google translate берет грубой силой, а не умом. Люди с машинами говорят на разных языках, тут никуда не деться.

Но эта трудность предстает не впервые. Компьютерам сложно понимать человеческую речь так же, как и людям было сложно общаться с первыми компьютерами, на их же, компьютерном, языке. Очень сложно и неудобно. Поэтому были созданы языки программирования, сначала низкого, а потом и высокого уровня. Некоторые программы сейчас можно просто читать на английском без ущерба для понимания принципов ее работы. В каком-то приближении можно сказать, что компьютер заставили пойти на уступки человеку.

Суть идеи лежит в обратном: в текстах, которые подлежат переводу, уже человек идет на уступки компьютеру. Текст должен быть написан по некоторым правилам, которые исключают любые неоднозначности, например:

  • грамматически правильно
  • с дополнительной информацией, касающейся неоднозначностей
  • возможно, без использования различных сложностей вроде извращенных времен

Понятно, что ни о какой художественной литературе речь не идет. Но мне кажется, что так можно было бы переводить техническую литературу, возможно, даже публициистику. Что вы об этом думаете и не встречали ли вы чего-нибудь подобного раньше?

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Bhudh

Цитата: Высказывался ряд мнений, что грамматику языков надо упрощать, сжимать в объеме. Призыв упрощать родился из неверия в перспективу развития электронных машин. Поговаривали даже о том, что существующие обычные машины не годятся для перевода и надо создавать специализированную технику. Сначала это имело некоторый смысл. Машины еще не обладали большой памятью и быстродействием, и упрощение языка позволяло экономить машинное время. С совершенствованием машин появилась возможность предусматривать языковые тонкости, которые при математическом подходе отчасти теряются.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо


Bhudh

Ознакомьтесь, ознакомьтесь... И не забывайте, придумав "новую, замечательную, свежую идею" в следующий раз, хорошенько погуглить на предмет наличия её уже в массах.
А то нехорошо получается — книжка-то старше меня будет...
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

quez

Цитата: Bhudh от февраля  1, 2014, 02:21
Высказывался ряд мнений, что грамматику языков надо упрощать, сжимать в объеме. Призыв упрощать родился из неверия в перспективу развития электронных машин. Поговаривали даже о том, что существующие обычные машины не годятся для перевода и надо создавать специализированную технику. Сначала это имело некоторый смысл. Машины еще не обладали большой памятью и быстродействием, и упрощение языка позволяло экономить машинное время. С совершенствованием машин появилась возможность предусматривать языковые тонкости, которые при математическом подходе отчасти теряются.
Автор так пишет, будто это тогда были трудности, которые пытались преодолеть путем упрощения, но теперь эти трудности преодолены. Но ведь это не так.

Bhudh

Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Кстати, Вы зря считаете её "самой прогрессивной технологией" автоматического перевода.
Наоборот, у гугла самая примитивная его технология.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

quez

Цитата: Bhudh от февраля  1, 2014, 02:24
Ознакомьтесь, ознакомьтесь... И не забывайте, придумав "новую, замечательную, свежую идею" в следующий раз, хорошенько погуглить на предмет наличия её уже в массах.
А то нехорошо получается — книжка-то старше меня будет...
У меня нет привычки задавать вопросы, не погуглив. Но тут сформулировать запос у меня не получилось.

Bhudh

Я сформулировал запрос всего лишь из сочетания двух фраз: "машинный перевод" и "упрощение языка".
И получил искомое.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

quez

Цитата: Bhudh от февраля  1, 2014, 02:27
Это не так у гугльтранслейта. Но есть и другие системы перевода, в которых многие гуглопроблемы разрешены.
Простите, не верю. Они справляются с категориями, которые отсутствуют в исходном языке? Они не пугаются омонимов, понятных лишь из контекста?

quez

И речь не идет об упрощении. Я его указал лишь как возможное.

Bhudh

Для отсутствующих категорий есть шаблоны перевода в существующие.
С омонимами, конечно, сложнее, но если есть контекст, помогает семантический анализ.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Bhudh

Цитата: quez от февраля  1, 2014, 02:34И речь не идет об упрощении.
У Вас речь идёт об упрощении грамматики.
В пределе — подогнать все предложения под один шаблон, причём неважно какой: SVO, SOV или VSO, главное, чтоб один и тот же.
Вот тогда машина не будет путаться.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

quez

Цитата: Bhudh от февраля  1, 2014, 02:42
Цитата: quez от февраля  1, 2014, 02:34И речь не идет об упрощении.
У Вас речь идёт об упрощении грамматики.
В пределе — подогнать все предложения под один шаблон, причём неважно какой: SVO, SOV или VSO, главное, чтоб один и тот же.
Вот тогда машина не будет путаться.
Вы приписываете мне слова, которых я не говорил.
Если предложение написано по-русски с свободным порядком, но правильными падежами, сможет ли машина определить subject, object и verb? В общем случае — да. Сможет переставить слова местами для английского? Да. Если машина путается, мы добавляем служебную информацию только для машины.

Bhudh

Хорошо, но в этом случае будет удобнее просто использовать вместо "слов" массивы сем, граммем и морфем, дабы при переводе подставлять наиболее полно совпадающие массивы.
К чему ограничиваться какой-то неполной "служебной информацией"? Если есть возможность, стоит заполнить все возможные слоты.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

quez

Удобнее? И как же вы потом будете читать эти семы, морфемы и графемы?

Bhudh

Где я писал, что человеку нужно будет их читать? Для человека массив отображается соответствующим привычным ему словом.
Я имел в виду "удобнее компьютеру".
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Bhudh

Собственно, служебную грамматическую информацию электронные словари давно используют и умеют анализировать.
Вот, например, пример выдачи латинско-английского словаря VERBA:
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

quez

ЦитироватьГде я писал, что человеку нужно будет их читать? Для человека массив отображается соответствующим привычным ему словом.
Я имел в виду "удобнее компьютеру".
Не вы. Я. Я подразумевал, что этот текст можно будет использовать без всяких ограничений на исходном языке. Обьяснения для транслятора — что-то сродни разметки на веб-странице.
Серьезно, если идти вашим путем, получится ложбан для перевода, который никто не будет знать.

Bhudh

То есть писать так же, как пишут в изданиях по генеративной лингвистике?
HeSUBJ-PRN-MASC-SG is3RD-SG-COP aART-DEF doctorNOUN-SG.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

quez

Цитата: Bhudh от февраля  1, 2014, 03:27
Собственно, служебную грамматическую информацию электронные словари давно используют и умеют анализировать.
Я и рассчитывал, что машина и так знает все, что можно понять из словоформы. Но транслятор должен попросить человека предоставить ему информацию, которая человеку была бы понятна из контекста, но тем не менее необходима для перевода.

Bhudh

Например?
«Доктор крикнул "Я лечу!" после того, как выбросился из окна»?
Или "кровать — это существительное, а не глагол, как это можно понять из словоформы, оканчивающейся на -ать"?

Вот, кстати, хвалёный гугл: http://goo.gl/6LPR0p
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

quez

Цитата: Bhudh от февраля  1, 2014, 03:40
То есть писать так же, как пишут в изданиях по генеративной лингвистике?
HeSUBJ-PRN-MASC-SG is3RD-SG-COP aART-DEF doctorSUBST-SG.
Если нужно — да. Но здесь дополнительной информации вроде бы не надо. По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается). В обратном же порядке нужно было бы написать что-то вроде Он — докторНЕОПР.

Bhudh

Цитата: quez от февраля  1, 2014, 03:50По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается).
И тут же первая спотыкашка: русское «Он — доктор» не содержит способов определить тему и рему в предложении.
Иными словами, это предложение может отвечать на 2 вопроса: «Кто он?» и «Кто (здесь) доктор?»
Ответы, соответственно: «Он — доктор» и «Он — доктор».
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

quez

Цитата: Bhudh от февраля  1, 2014, 03:54
Цитата: quez от февраля  1, 2014, 03:50По порядку слов определяются субъект (он), объект (доктор в винительном падеже) и глагол (есть, опускается).
И тут же первая спотыкашка: русское «Он — доктор» не содержит способов определить тему и рему в предложении.
Иными словами, это предложение может отвечать на 2 вопроса: «Кто он?» и «Кто (здесь) доктор?»
Ответы, соответственно: «Он — доктор» и «Он — доктор».
Если я правильно понимаю, первое будет звучать He is a doctor, а второе — The doctor is he? Тогда ничего не поделаешь, нужно будет и их обозначить, если этой информации нет в явном обозначении неопределенности.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр