Нейросеть Google Translate составила единую базу смыслов человеческих слов

Автор listengort88, ноября 27, 2016, 21:25

0 Пользователи и 1 гость просматривают эту тему.

listengort88


«Универсальный язык» нейронной сети Google Neural Machine Translation (GNMT). На левой иллюстрации разными цветами показаны кластеры значений каждого слова, справа внизу — смыслы слова, полученные для него из разных человеческих языков: английского, корейского и японского

За последние десять лет система автоматического перевода текстов Google Translate выросла с нескольких языков до 103, а сейчас она переводит 140 млрд слов ежедневно. В сентябре сообщалось, что разработчики приняли решение полностью перевести сервис Google Translate на глубинное обучение. У этого подхода есть много преимуществ. Перевод становится гораздо лучше. Более того, система может переводить тексты на языки, для которых никогда не видела переводов, то есть не обучалась специально для этой языковой пары.

Нейросеть Google для машинного перевода называется Google Neural Machine Translation (GNMT). От самого начала и до конца перевод текста теперь полностью выполняет нейросеть. Традиционно ИИ использовался в Google Translate в ограниченном режиме, для некоторых вспомогательных задач. Например, для сравнения текстов, доступных на нескольких языках, вроде официальных документов ООН или Европарламента. В таком режиме сравнивался перевод каждого слова в текстах.

Нейросеть NMTS работает на принципиально новом уровне. Она не только анализирует существующие варианты перевода в процессе обучения, но и выполняет интеллектуальный анализ предложений, разбивая их на «словарные сегменты». В определённой репрезентации внутри сети эти «словарные сегменты» соответствуют смыслам слов.

Модель архитектуры GNMT (Google's Neural Machine Translation). Слева сеть энкодера, справа — декодера, в середине модуль внимания. Нижний слой энкодера двусторонний: розовые модули собирают информацию слева направо, а зелёные — в обратном направлении

Эта внутренняя репрезентация внутри сети и является в каком-то определении универсальным языком человечества. К сожалению, люди не смогут разговаривать на этом универсальном языке. Он представляет собой машинный код, с которым происходит работа на внутреннем промежуточном уровне нейросети. Это машинный язык-посредник между любыми языковыми парами всех человеческих языков, поддерживаемых системой. Тем не менее, существование такой универсальной базы смыслов, которая объединяет все языки мира, впечатлит любого лингвиста. Вообще говоря, разработка подобной базы со всеми коннотациями, тщательным описанием всех возможных значений каждого слова, — это словно словно чаша Грааля в лингвистике. О ней мечтали десятилетиями. Благодаря нейросети Google эта мечта постепенно воплощается в жизнь. Нейросеть уже де-факто имеет такую базу смыслов внутри «чёрного ящика», с указанием возможных значений каждого слова. Проблема только в том, что пока что с этой базой умеет работать только она сама, эта нейросеть. Для человеческого понимания база смыслов в машинных кодах недоступна просто так, она требует специальной обработки.

Новая универсальная архитектура GNMT, которая переводит любые языковые пары

Что самое интересное, благодаря универсальной базе смыслов всех человеческих слов нейросеть перевода может работать даже для тех языковых пар, на которых её не обучали. Возьмём пример на анимации. Система обучена для языковых пар «японский⇄английский» и «корейский⇄английский». После этого через универсальную составленную базу смыслов нейросеть сможет переводить также языковую пару «японский⇄корейский», хотя она не тренировалась на ней.

Журналисты сразу же ухватились за эту тему и назвали служебную систему с базой смыслов «новым универсальным языком человечества». Например, известный российский маркетолог Андрей Себрант пишет: «Представление смыслов в универсальном виде, не привязанном к конкретному существующему языку, — это, фактически, создание нового универсального языка. Вот только не факт, что доступного человеку».

Действительно, «новый универсальный язык» — это звучит очень красиво и загадочно. Хотя на самом деле это просто единое многомерное пространство, составленное при помощи техники t-SNE, то есть методом нелинейного снижения размерности и визуализации многомерных переменных (t-distributed stochastic neighbor embedding).
Если говорить о практическом применении нейросети, то независимые специалисты признают, что разработка Google показывает «потрясающий» результат и наглядно демонстрирует, что нейронный перевод с помощью ИИ способен намного превзойти по качеству классические методы машинного перевода. Нейросеть Google явно улучшает качество перевода во многих отношениях.

Авторы новой научной работы добавляют, что универсальная архитектура, которая переводит любые языковые пары, в реальности показывает более высокую эффективность, чем нейросеть, тренированная только на одной языковой паре. По какой-то причине знание посторонних языков помогает нейросети более качественно переводить с данного конкретного языка.

На интуитивном уровне этот эффект понятен: человек тоже начинает лучше понимать чужой язык, если знает и другие языки той же группы. Таким образом он расширяет пространство смыслов в своём мозге. Он осознаёт смыслы, которым не соответствует ни одно слово из его родного языка.

Новый метод универсального перевода, названный разработчиками "Zero-Shot Translation", не требует никаких изменений в архитектуре нейросети Google Neural Machine Translation.

Научная работа с описанием многоязычной системы машинного перевода Neural Machine Translation System на базе нейросети за авторством Мелвина Джонсона, Максима Крикуна и других сотрудников Google опубликована 14 ноября 2016 года в открытом доступе.
Книга "Новый Этап Пробуждения" Александра Листенгорта: Маяк в океане поисков Души!.. Добро Пожаловать, בברכה, Բարի գալուստ, Hoşgeldiniz, Willkommen, Bienvenido!!!

Wolliger Mensch

«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

pomogosha

Цитата: listengort88 от ноября 27, 2016, 21:25
Научная работа с описанием многоязычной системы машинного перевода Neural Machine Translation System на базе нейросети за авторством Мелвина Джонсона, Максима Крикуна и других сотрудников Google опубликована 14 ноября 2016 года в открытом доступе.
«Революция, о необходимости которой все время говорили большевики, совершилась!»
Ура, товарищи! Психилингвисты скоро оставят лингвистов без работы...  :umnik:
Не говори — не прикусишь язык!
                                             мудрость
Эгоизм vs Альтруизм
http://www.pesni.ru/song/2207/
http://www.kalen-dar.ru/today/

yurifromspb

"Смысл" это, на их языке, что? Какой-то кластер в структуре корреляций между употреблениями соответствующих слов в разных языках... даже не выразиться по человечески.  :no:
Есть ссылка на статью? Вот это, что ли: https://arxiv.org/abs/1611.04558?
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Sirko

Цитата: Wolliger Mensch от ноября 27, 2016, 21:49
Цитата: listengort88 от ноября 27, 2016, 21:25


Гм. :what:
ЦитироватьTable 7 shows examples of mixed target language using three different multilingual models. It is interesting
that in the first example (Russian/Belarusian) the model switches from Russian to Ukrainian (underlined) as
target language first before finally switching to Belarusian. In the second example (Japanese/Korean), we
observe an even more interesting transition from Japanese to Korean, where the model gradually changes the
grammar from Japanese to Korean. At wko = 0.58, the model translates the source sentence into a mix of
Japanese and Korean at the beginning of the target sentence. At wko = 0.60, the source sentence is translated
into full Korean, where all of the source words are captured, however, the ordering of the words does not look
natural. Interestingly, when the wko is increased up to 0.7, the model starts to translate the source sentence
into a Korean sentence that sounds more natural.3

Wolliger Mensch

Цитата: Sirko от ноября 28, 2016, 07:13
ЦитироватьTable 7 shows examples of mixed target language using three different multilingual models. It is interesting
that in the first example (Russian/Belarusian) the model switches from Russian to Ukrainian (underlined) as
target language first before finally switching to Belarusian. In the second example (Japanese/Korean), we
observe an even more interesting transition from Japanese to Korean, where the model gradually changes the
grammar from Japanese to Korean. At wko = 0.58, the model translates the source sentence into a mix of
Japanese and Korean at the beginning of the target sentence. At wko = 0.60, the source sentence is translated
into full Korean, where all of the source words are captured, however, the ordering of the words does not look
natural. Interestingly, when the wko is increased up to 0.7, the model starts to translate the source sentence
into a Korean sentence that sounds more natural.3

В вашей цитате нет объяснения:
1) Почему разные доли у одних и тех же форм.
2) Почему, скажем, в русско-белорусском примере во время перевода меняется само предложение.

Я именно об этом. Появление украинского в русско-белорусском переводе говорит просто о том, что ребята пытаются разработать теорию перевод на иных принципах, чем это есть сейчас — вообще без лингвистики. Уже были такие попытки, что-то не слыхать об успехах.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

ameshavkin



Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

pomogosha

Цитата: Wolliger Mensch от ноября 28, 2016, 08:36
Появление украинского в русско-белорусском переводе говорит просто о том, что ребята пытаются разработать теорию перевод на иных принципах, чем это есть сейчас — вообще без лингвистики.
"Вообще без лингвистики" не получится, естественно. Точно так же не получится и "чисто лингвистически, без эмоций" — об этом, пройденном, этапе пути создания автомата-переводчика следует забыть, как о кошмарном сне...
Не говори — не прикусишь язык!
                                             мудрость
Эгоизм vs Альтруизм
http://www.pesni.ru/song/2207/
http://www.kalen-dar.ru/today/

pomogosha

Не говори — не прикусишь язык!
                                             мудрость
Эгоизм vs Альтруизм
http://www.pesni.ru/song/2207/
http://www.kalen-dar.ru/today/

Alone Coder

>Где там оси? Там линии (взаимо)связи.
А какого рода связи и чем определяется расстояние между точками на рисунке?

pomogosha

Цитата: Alone Coder от ноября 29, 2016, 17:05
А 1 какого рода связи и 2 чем определяется расстояние между точками на рисунке?
1)  На  Рис. 2. (блок-схеме, если хотите) — реализация левой части иллюстрации схемы GNMT  Рис. 1., где разными цветами показаны кластеры значений каждого слова, — показаны направленные связи: прямые (в эн-кодере  — между розовыми), в каждом слое последовательно, по ходу (прямое , + направление) считывания элементов, сбора информации в Long short-term memory (LSTM-s) и передачи её в «модуль внимания», который внемлет, анализирует и засылает свои свои измышления прямо в де-кодер. Это об характере связей: прямые они, положительные, последовательные и параллельные; но в нижнем слое эн-кодера сбор идет в обратном направлении — (-)-е обратные связи.
  2) Конкретизируйте, пожалуйста, свой вопрос: расстояния на схеме даны приблизительно (схематично) и от того что вы понимаете под расстоянием, ответы могут малость разни́ться.
Offtop
Цитата: Alone Coder от ноября 29, 2016, 17:05
чем определяется вообще? конкретно на этом рисунке? или ещё что-то, вами подразумеваемое?
Не говори — не прикусишь язык!
                                             мудрость
Эгоизм vs Альтруизм
http://www.pesni.ru/song/2207/
http://www.kalen-dar.ru/today/

pomogosha

Не говори — не прикусишь язык!
                                             мудрость
Эгоизм vs Альтруизм
http://www.pesni.ru/song/2207/
http://www.kalen-dar.ru/today/

Asker15

Там написано, что переводчик google translate стал лучше переводить благодаря этим нейросетям?
Я заставил его перевести на английский и обратно на русский "однажды в студёную зимнюю пору я из лесу вышел, был сильный мороз", получил "Холодный день в зимнее время я вышел из леса, был сильный мороз". Сомневаюсь, что переводчик стал лучше.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Цитатель

Цитата: Asker15 от декабря  8, 2016, 09:10
Там написано, что переводчик google translate стал лучше переводить благодаря этим нейросетям?
Я заставил его перевести на английский и обратно на русский "однажды в студёную зимнюю пору я из лесу вышел, был сильный мороз", получил "Холодный день в зимнее время я вышел из леса, был сильный мороз". Сомневаюсь, что переводчик стал лучше.

ну во первых, непонятен смысл таких манипуляций, во вторых, придирки излишни.

английский перевод предложения совершенно правилен и не только не имеет ни единой ошибки, но даже написан в рифму и обладает несомненной художественной ценностью (99% английских стихов хуже по качеству)

The cold day
in winter time
I came out of the forest,
there was a strong frost

:)

Обратный перевод на русский тоже ошибок не имеет, если не считать отсутствия запятой после "зимнее время".

ставлю по переводу пятерку

_Swetlana

🐇

Цитатель

"Холодный зимний день из леса, был сильный мороз" - зулусский и обратно
"Холодная погода в зимнее время я вышел из леса, был сильный мороз" - африкаанс и обратно

на африкаанс кстати тоже в рифму

Die koue dag
in die winter tyd
wat ek uit die bos kom,
was daar 'n sterk ryp

знатоки, проверьте пожалуйста грамматику (wat на правильном месте стоит?)

Asker15

Цитата: Цитатель от декабря  8, 2016, 10:21
ставлю по переводу пятерку

Вот вам ещё перевод:
У попа была собака, он её любил -> Попа была собака, он ее любил
Концептуально однако ;)


Sirko

Цитата: Wolliger Mensch от ноября 28, 2016, 08:36

В вашей цитате нет объяснения:
1) Почему разные доли у одних и тех же форм.
2) Почему, скажем, в русско-белорусском примере во время перевода меняется само предложение.

Я именно об этом. Появление украинского в русско-белорусском переводе говорит просто о том, что ребята пытаются разработать теорию перевод на иных принципах, чем это есть сейчас — вообще без лингвистики. Уже были такие попытки, что-то не слыхать об успехах.
ЦитироватьWeighted Target Language Selection
In this section we test what happens when we mix target languages. We take a multilingual model trained
with multiple target languages, for example, English→{Japanese, Korean}. Then instead of feeding the
embedding vector for "<2ja>" to the bottom layer of the encoder LSTM, we feed a linear combination
(1 − w)<2ja> + w<2ko>
Т. е. украинский текст появляется при доле белорусской модели 30-48%.

sagwa_gae

«СКАЗКА О ПОПЕ И О РАБОТНИКЕ ЕГО БАЛДЕ» А.С. Пушкин, гениальный русский поэт!

Asker15

Цитата: _Swetlana от декабря  8, 2016, 19:04
Всё, я уже исправила гуглю перевод на "у попа"  ;D

Я вначале подумал, что вы работаете в google, но переводчик переводит по-прежнему.
Кстати, на другом форуме написали, что фразу "У попа была собака, он её любил" раньше переводчик переводил так: "Священнослужитель имел собаку, ему это нравилось". Выглядит по-лучше.

_Swetlana

Ещё раз исправила, теперь уже другой кнопочкой. Тут можно прямо сказать, что перевод неправильный.
Пусть каждый, кто зайдёт в эту тему, сделает то же самое  :)
🐇

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр