(https://habrastorage.org/files/d13/72d/6f7/d1372d6f7b8c41e2a4988e7f5fcad3ea.png)
«Универсальный язык» нейронной сети Google Neural Machine Translation (GNMT). На левой иллюстрации разными цветами показаны кластеры значений каждого слова, справа внизу — смыслы слова, полученные для него из разных человеческих языков: английского, корейского и японского
За последние десять лет система автоматического перевода текстов Google Translate выросла с нескольких языков до 103, а сейчас она переводит 140 млрд слов ежедневно. В сентябре сообщалось, что разработчики приняли решение полностью перевести сервис Google Translate на глубинное обучение. У этого подхода есть много преимуществ. Перевод становится гораздо лучше. Более того, система может переводить тексты на языки, для которых никогда не видела переводов, то есть не обучалась специально для этой языковой пары.
Нейросеть Google для машинного перевода называется Google Neural Machine Translation (GNMT). От самого начала и до конца перевод текста теперь полностью выполняет нейросеть. Традиционно ИИ использовался в Google Translate в ограниченном режиме, для некоторых вспомогательных задач. Например, для сравнения текстов, доступных на нескольких языках, вроде официальных документов ООН или Европарламента. В таком режиме сравнивался перевод каждого слова в текстах.
Нейросеть NMTS работает на принципиально новом уровне. Она не только анализирует существующие варианты перевода в процессе обучения, но и выполняет интеллектуальный анализ предложений, разбивая их на «словарные сегменты». В определённой репрезентации внутри сети эти «словарные сегменты» соответствуют смыслам слов.
(https://habrastorage.org/files/39b/d24/66f/39bd2466fc414806bf14f7232a566ab2.png)
Модель архитектуры GNMT (Google's Neural Machine Translation). Слева сеть энкодера, справа — декодера, в середине модуль внимания. Нижний слой энкодера двусторонний: розовые модули собирают информацию слева направо, а зелёные — в обратном направлении
Эта внутренняя репрезентация внутри сети и является в каком-то определении универсальным языком человечества. К сожалению, люди не смогут разговаривать на этом универсальном языке. Он представляет собой машинный код, с которым происходит работа на внутреннем промежуточном уровне нейросети. Это машинный язык-посредник между любыми языковыми парами всех человеческих языков, поддерживаемых системой. Тем не менее, существование такой универсальной базы смыслов, которая объединяет все языки мира, впечатлит любого лингвиста. Вообще говоря, разработка подобной базы со всеми коннотациями, тщательным описанием всех возможных значений каждого слова, — это словно словно чаша Грааля в лингвистике. О ней мечтали десятилетиями. Благодаря нейросети Google эта мечта постепенно воплощается в жизнь. Нейросеть уже де-факто имеет такую базу смыслов внутри «чёрного ящика», с указанием возможных значений каждого слова. Проблема только в том, что пока что с этой базой умеет работать только она сама, эта нейросеть. Для человеческого понимания база смыслов в машинных кодах недоступна просто так, она требует специальной обработки.
(https://habrastorage.org/files/671/f92/af9/671f92af92df4418a95973929d5c34df.gif)
Новая универсальная архитектура GNMT, которая переводит любые языковые пары
Что самое интересное, благодаря универсальной базе смыслов всех человеческих слов нейросеть перевода может работать даже для тех языковых пар, на которых её не обучали. Возьмём пример на анимации. Система обучена для языковых пар «японский⇄английский» и «корейский⇄английский». После этого через универсальную составленную базу смыслов нейросеть сможет переводить также языковую пару «японский⇄корейский», хотя она не тренировалась на ней.
(https://habrastorage.org/files/302/d78/46c/302d7846c4fb4346b6f8701dce4d71f3.png)
Журналисты сразу же ухватились за эту тему и назвали служебную систему с базой смыслов «новым универсальным языком человечества». Например, известный российский маркетолог Андрей Себрант пишет: «Представление смыслов в универсальном виде, не привязанном к конкретному существующему языку, — это, фактически, создание нового универсального языка. Вот только не факт, что доступного человеку».
Действительно, «новый универсальный язык» — это звучит очень красиво и загадочно. Хотя на самом деле это просто единое многомерное пространство, составленное при помощи техники t-SNE, то есть методом нелинейного снижения размерности и визуализации многомерных переменных (t-distributed stochastic neighbor embedding).
Если говорить о практическом применении нейросети, то независимые специалисты признают, что разработка Google показывает «потрясающий» результат и наглядно демонстрирует, что нейронный перевод с помощью ИИ способен намного превзойти по качеству классические методы машинного перевода. Нейросеть Google явно улучшает качество перевода во многих отношениях.
Авторы новой научной работы добавляют, что универсальная архитектура, которая переводит любые языковые пары, в реальности показывает более высокую эффективность, чем нейросеть, тренированная только на одной языковой паре. По какой-то причине знание посторонних языков помогает нейросети более качественно переводить с данного конкретного языка.
На интуитивном уровне этот эффект понятен: человек тоже начинает лучше понимать чужой язык, если знает и другие языки той же группы. Таким образом он расширяет пространство смыслов в своём мозге. Он осознаёт смыслы, которым не соответствует ни одно слово из его родного языка.
Новый метод универсального перевода, названный разработчиками "Zero-Shot Translation", не требует никаких изменений в архитектуре нейросети Google Neural Machine Translation.
Научная работа с описанием многоязычной системы машинного перевода Neural Machine Translation System на базе нейросети за авторством Мелвина Джонсона, Максима Крикуна и других сотрудников Google опубликована 14 ноября 2016 года в открытом доступе.
Цитата: listengort88 от ноября 27, 2016, 21:25
(https://habrastorage.org/files/302/d78/46c/302d7846c4fb4346b6f8701dce4d71f3.png)
Гм. :what:
Цитата: listengort88 от ноября 27, 2016, 21:25
Научная работа с описанием многоязычной системы машинного перевода Neural Machine Translation System на базе нейросети за авторством Мелвина Джонсона, Максима Крикуна и других сотрудников Google опубликована 14 ноября 2016 года в открытом доступе.
«Революция, о необходимости которой все время говорили большевики, совершилась!»
Ура, товарищи! Психилингвисты скоро оставят лингвистов без работы... :umnik:
"Смысл" это, на их языке, что? Какой-то кластер в структуре корреляций между употреблениями соответствующих слов в разных языках... даже не выразиться по человечески. :no:
Есть ссылка на статью? Вот это, что ли: https://arxiv.org/abs/1611.04558?
Цитата: Wolliger Mensch от ноября 27, 2016, 21:49
Цитата: listengort88 от ноября 27, 2016, 21:25
(https://habrastorage.org/files/302/d78/46c/302d7846c4fb4346b6f8701dce4d71f3.png)
Гм. :what:
ЦитироватьTable 7 shows examples of mixed target language using three different multilingual models. It is interesting
that in the first example (Russian/Belarusian) the model switches from Russian to Ukrainian (underlined) as
target language first before finally switching to Belarusian. In the second example (Japanese/Korean), we
observe an even more interesting transition from Japanese to Korean, where the model gradually changes the
grammar from Japanese to Korean. At wko = 0.58, the model translates the source sentence into a mix of
Japanese and Korean at the beginning of the target sentence. At wko = 0.60, the source sentence is translated
into full Korean, where all of the source words are captured, however, the ordering of the words does not look
natural. Interestingly, when the wko is increased up to 0.7, the model starts to translate the source sentence
into a Korean sentence that sounds more natural.3
Цитата: Sirko от ноября 28, 2016, 07:13
ЦитироватьTable 7 shows examples of mixed target language using three different multilingual models. It is interesting
that in the first example (Russian/Belarusian) the model switches from Russian to Ukrainian (underlined) as
target language first before finally switching to Belarusian. In the second example (Japanese/Korean), we
observe an even more interesting transition from Japanese to Korean, where the model gradually changes the
grammar from Japanese to Korean. At wko = 0.58, the model translates the source sentence into a mix of
Japanese and Korean at the beginning of the target sentence. At wko = 0.60, the source sentence is translated
into full Korean, where all of the source words are captured, however, the ordering of the words does not look
natural. Interestingly, when the wko is increased up to 0.7, the model starts to translate the source sentence
into a Korean sentence that sounds more natural.3
В вашей цитате нет объяснения:
1) Почему разные доли у одних и тех же форм.
2) Почему, скажем, в русско-белорусском примере во время перевода меняется само предложение.
Я именно об этом. Появление украинского в русско-белорусском переводе говорит просто о том, что ребята пытаются разработать теорию перевод на иных принципах, чем это есть сейчас — вообще без лингвистики. Уже были такие попытки, что-то не слыхать об успехах.
Сугубо донаучная "картезианская лингвистика" в духе грамматики Пор-Рояля.
Что за оси на первой картинке?
Где там оси? Там линии (взаимо)связи.
Цитата: Wolliger Mensch от ноября 28, 2016, 08:36
Появление украинского в русско-белорусском переводе говорит просто о том, что ребята пытаются разработать теорию перевод на иных принципах, чем это есть сейчас — вообще без лингвистики.
"Вообще без лингвистики" не получится, естественно. Точно так же не получится и "чисто лингвистически, без эмоций" — об этом, пройденном, этапе пути создания автомата-переводчика следует забыть, как о кошмарном сне...
Цитата: Bhudh от ноября 28, 2016, 22:50
Там линии (взаимо)связи.
Именно:
взаимосвязи; центральный блок — «Attention» (!)
>Где там оси? Там линии (взаимо)связи.
А какого рода связи и чем определяется расстояние между точками на рисунке?
Цитата: Alone Coder от ноября 29, 2016, 17:05
А 1 какого рода связи и 2 чем определяется расстояние между точками на рисунке?
1) На Рис. 2. (блок-схеме, если хотите) — реализация левой части иллюстрации схемы GNMT Рис. 1., где разными цветами показаны кластеры значений каждого слова, — показаны направленные связи:
прямые (в эн-кодере — между розовыми), в каждом слое последовательно, по ходу (прямое , + направление) считывания элементов, сбора информации в Long short-term memory (LSTM-s) (https://uk.wikipedia.org/wiki/%D0%94%D0%BE%D0%B2%D0%B3%D0%B0_%D0%BA%D0%BE%D1%80%D0%BE%D1%82%D0%BA%D0%BE%D1%87%D0%B0%D1%81%D0%BD%D0%B0_%D0%BF%D0%B0%D0%BC%27%D1%8F%D1%82%D1%8C) и передачи её в «модуль внимания», который внемлет, анализирует и засылает свои свои измышления
прямо в де-кодер. Это об характере связей: прямые они, положительные, последовательные и параллельные; но в нижнем слое эн-кодера сбор идет в обратном направлении — (-)-е обратные связи.
2) Конкретизируйте, пожалуйста, свой вопрос: расстояния на схеме даны приблизительно (схематично) и от того что вы понимаете под расстоянием, ответы могут малость разни́ться.
PS. Популярно здесь: Нейросеть Google Translate составила единую базу смыслов человеческих слов (http://www.nanonewsnet.ru/news/2016/neiroset-google-translate-sostavila-edinuyu-bazu-smyslov-chelovecheskikh-slov)
Там написано, что переводчик google translate стал лучше переводить благодаря этим нейросетям?
Я заставил его перевести на английский и обратно на русский "однажды в студёную зимнюю пору я из лесу вышел, был сильный мороз", получил "Холодный день в зимнее время я вышел из леса, был сильный мороз". Сомневаюсь, что переводчик стал лучше.
А для русского её пока и не используют. И вообще это ещё бета-версия.
Цитата: Asker15 от декабря 8, 2016, 09:10
Там написано, что переводчик google translate стал лучше переводить благодаря этим нейросетям?
Я заставил его перевести на английский и обратно на русский "однажды в студёную зимнюю пору я из лесу вышел, был сильный мороз", получил "Холодный день в зимнее время я вышел из леса, был сильный мороз". Сомневаюсь, что переводчик стал лучше.
ну во первых, непонятен смысл таких манипуляций, во вторых, придирки излишни.
английский перевод предложения совершенно правилен и не только не имеет ни единой ошибки, но даже написан в рифму и обладает несомненной художественной ценностью (99% английских стихов хуже по качеству)
The cold day
in winter time
I came out of the forest,
there was a strong frost
:)
Обратный перевод на русский тоже ошибок не имеет, если не считать отсутствия запятой после "зимнее время".
ставлю по переводу пятерку
Холодный день в зимнее время - как с японского переводили.
"Холодный зимний день из леса, был сильный мороз" - зулусский и обратно
"Холодная погода в зимнее время я вышел из леса, был сильный мороз" - африкаанс и обратно
на африкаанс кстати тоже в рифму
Die koue dag
in die winter tyd
wat ek uit die bos kom,
was daar 'n sterk ryp
знатоки, проверьте пожалуйста грамматику (wat на правильном месте стоит?)
Цитата: Цитатель от декабря 8, 2016, 10:21
ставлю по переводу пятерку
Вот вам ещё перевод:
У попа была собака, он её любил -> Попа была собака, он ее любил
Концептуально однако ;)
Всё, я уже исправила гуглю перевод на "у попа" ;D
Цитата: Wolliger Mensch от ноября 28, 2016, 08:36
В вашей цитате нет объяснения:
1) Почему разные доли у одних и тех же форм.
2) Почему, скажем, в русско-белорусском примере во время перевода меняется само предложение.
Я именно об этом. Появление украинского в русско-белорусском переводе говорит просто о том, что ребята пытаются разработать теорию перевод на иных принципах, чем это есть сейчас — вообще без лингвистики. Уже были такие попытки, что-то не слыхать об успехах.
ЦитироватьWeighted Target Language Selection
In this section we test what happens when we mix target languages. We take a multilingual model trained
with multiple target languages, for example, English→{Japanese, Korean}. Then instead of feeding the
embedding vector for "<2ja>" to the bottom layer of the encoder LSTM, we feed a linear combination
(1 − w)<2ja> + w<2ko>
Т. е. украинский текст появляется при доле белорусской модели 30-48%.
Цитата: Sirko от декабря 9, 2016, 01:54
Т. е. украинский текст появляется при доле белорусской модели 30-48%.
подпишусь
Цитата: _Swetlana от декабря 8, 2016, 19:04
Всё, я уже исправила гуглю перевод на "у попа" ;D
Я вначале подумал, что вы работаете в google, но переводчик переводит по-прежнему.
Кстати, на другом форуме написали, что фразу "У попа была собака, он её любил" раньше переводчик переводил так: "Священнослужитель имел собаку, ему это нравилось". Выглядит по-лучше.
Ещё раз исправила, теперь уже другой кнопочкой. Тут можно прямо сказать, что перевод неправильный.
Пусть каждый, кто зайдёт в эту тему, сделает то же самое :)
"The priest had a dog, he loved her" = "У попа была собака, он её любил" ок.
Цитата: _Swetlana от декабря 9, 2016, 09:08
Ещё раз исправила, теперь уже другой кнопочкой. Тут можно прямо сказать, что перевод неправильный.
Пусть каждый, кто зайдёт в эту тему, сделает то же самое :)
Поясните, как попасть на форму из вашего скриншота?
Они всё равно пока статистику в стопицод голосов не наберут, перевод не поменяют.
Цитата: Bhudh от декабря 9, 2016, 09:30
Они всё равно пока статистику в стопицод голосов не наберут, перевод не поменяют.
поменяли уже
Цитата: _Swetlana от декабря 9, 2016, 09:08
Пусть каждый, кто зайдёт в эту тему, сделает то же самое
Ну вот делать мне больше нечего!
Цитата: Asker15 от декабря 9, 2016, 09:28
Цитата: _Swetlana от декабря 9, 2016, 09:08
Ещё раз исправила, теперь уже другой кнопочкой. Тут можно прямо сказать, что перевод неправильный.
Пусть каждый, кто зайдёт в эту тему, сделает то же самое :)
Поясните, как попасть на форму из вашего скриншота?
https://translate.google.com/?hl=ru#en/ru/The%20priest%20had%20a%20dog
Нажимаете "предложить исправление".
Я ещё попробовал переводить фразы с помощью переводчика Google, и пришёл к следующим выводам:
1) К переводчику действительно теперь подключили нейросеть
2) Качество перевода от этого стало хуже
Вот некоторые переводы:
У попа была собака, он её любил -> The priest had a dog, he loved her
The priest had a dog, he loved her -> Попа была собака, он ее любил
the priest had a dog, he loved her -> священник была собака, он ее любил
a priest had a dog, he loved her -> священник была собака, он ее любил
priest had a dog, he loved her -> У попа была собака, он ее любил
Взбесилась ведьма злая, и снегу ухватя, пустила, убегая, в прекрасное дитя –>
He enraged the wicked witch, and grabbed the snow, let, running in a beautiful child ->
Он разгневан злая ведьма, и схватил снег, пусть, работает в красивый ребенок
Очевидно, это некая типа "заумная" нейросеть определяет, в каких случаях переводить priest как "священник", а в каких как "поп". Надо полагать, выбор основан на научении нейросети по разным переводам и исправлениям. Никакой логики в этом научении я не вижу. Хотя, по идее, если миллионы пользователей будут вносить исправления, постепенно перевод будет становиться всё лучше и лучше. И всё равно мне кажется, что такой подход изначально неправилен.
Нормальный переводчик должен переводить priest как священник и никак иначе, разве только если по контексту можно угадать, что priest имеет отрицательную коннотацию (но только не в данном случае - в моём примере из фразы нельзя угадать коннотацию).
Цитата: Цитатель от декабря 8, 2016, 10:21
английский перевод предложения совершенно правилен и не только не имеет ни единой ошибки, но даже написан в рифму и обладает несомненной художественной ценностью (99% английских стихов хуже по качеству)
Если в google загрузили размеченные библии на всех языках и теперь он отлично переводит библейские тексты, то следующий шаг очевиден: загружать переводы художественных произведений. Возможно ли, что это тот самый случай (google распознал, что стихотворение уже переведено и выдал готовый перевод)?
Нашёл на каком-то форуме перевод с опечаткой ('у' пропущено) и выдает его под видом своего.
Цитата: Asker15 от декабря 8, 2016, 11:40
У попа была собака, он её любил
牧师有一只狗,他爱她 ( Mùshī yǒuyī zhǐ gǒu, tā ài tā) Пастор была собака, он ее любит
Ммда. Время согласовывать упорно отказывается...
У попа была собака, он ее любил. The priest had a dog, he loved her. Попа была собака, он ее любил.
Предложил перевод: У попа была собака, он ее любил.
Цитата: pomogosha от декабря 10, 2016, 17:03
У попа была собака, он ее любил. The priest had a dog, he loved her. Попа была собака, он ее любил.
Предложил перевод: У попа была собака, он ее любил.
Я же говорю, что фразу The priest had a dog, he loved her правильно переводить "У священника", а не "У попа" .
Чтобы перевести priest как "поп", надо увидеть по контексту негативный оттенок, или коннотацию, у этого слова. В данном случае фраза слишком маленькая, чтобы уловить коннотацию.
Цитата: Asker15 от декабря 10, 2016, 17:16
The priest had a dog, he loved her
Тогда какое слово у англофонов в обиходе для называния
священника со слегка негативной коннотацией (эквивалент: ру.
поп, а не ру.
священник)?
Цитата: pomogosha от декабря 12, 2016, 17:01
Цитата: Asker15 от декабря 10, 2016, 17:16
The priest had a dog, he loved her
Тогда какое слово у англофонов в обиходе для называния священника со слегка негативной коннотацией (эквивалент: ру. поп, а не ру. священник)?
Ну, наверно выражение "A stupid priest" можно перевести как "Глупый поп".
Не знаю, сюда или нет, но картинка любопытная :)
(https://pp.vk.me/c631518/v631518257/33475/FuYzQ8TdbzQ.jpg)
Классно! Я работаю в Berlitz, так здесь от учебников отказались ещё со дня основании фирмы, а это уже полтора века. В том и состоит главный принцип методики Берлиц: разговор, разговор, разговор - учителя с учениками, а затем - учеников между собой. Учитель не учит, а показывает пример, даёт говорить, а затем направляет: как лучше сказать, на что обратить внимание и т.п. Но когда идёт "разбор полётов", люди уже кое-что сказали, уже поговорили. С первых же занятий появляется уверенность и кайф, а что ещё нужно?
:) По кайфу, в общем
Цитата: Rafiki от декабря 14, 2016, 19:42
Не знаю, сюда или нет, но картинка любопытная :)
А можно эту картинку в разрешении побольше?
Можно. ПКМ → «Открыть изображение (в новом окне)»