Author Topic: Нейросеть Google Translate составила единую базу смыслов человеческих слов  (Read 2178 times)

0 Members and 1 Guest are viewing this topic.

Offline listengort88

  • Posts: 533
  • בברכה, Բարի գալուստ, Hoşgeldiniz, Bienvenido!
    • Новый Этап Пробуждения

«Универсальный язык» нейронной сети Google Neural Machine Translation (GNMT). На левой иллюстрации разными цветами показаны кластеры значений каждого слова, справа внизу — смыслы слова, полученные для него из разных человеческих языков: английского, корейского и японского

За последние десять лет система автоматического перевода текстов Google Translate выросла с нескольких языков до 103, а сейчас она переводит 140 млрд слов ежедневно. В сентябре сообщалось, что разработчики приняли решение полностью перевести сервис Google Translate на глубинное обучение. У этого подхода есть много преимуществ. Перевод становится гораздо лучше. Более того, система может переводить тексты на языки, для которых никогда не видела переводов, то есть не обучалась специально для этой языковой пары.

Нейросеть Google для машинного перевода называется Google Neural Machine Translation (GNMT). От самого начала и до конца перевод текста теперь полностью выполняет нейросеть. Традиционно ИИ использовался в Google Translate в ограниченном режиме, для некоторых вспомогательных задач. Например, для сравнения текстов, доступных на нескольких языках, вроде официальных документов ООН или Европарламента. В таком режиме сравнивался перевод каждого слова в текстах.

Нейросеть NMTS работает на принципиально новом уровне. Она не только анализирует существующие варианты перевода в процессе обучения, но и выполняет интеллектуальный анализ предложений, разбивая их на «словарные сегменты». В определённой репрезентации внутри сети эти «словарные сегменты» соответствуют смыслам слов.

Модель архитектуры GNMT (Google’s Neural Machine Translation). Слева сеть энкодера, справа — декодера, в середине модуль внимания. Нижний слой энкодера двусторонний: розовые модули собирают информацию слева направо, а зелёные — в обратном направлении

Эта внутренняя репрезентация внутри сети и является в каком-то определении универсальным языком человечества. К сожалению, люди не смогут разговаривать на этом универсальном языке. Он представляет собой машинный код, с которым происходит работа на внутреннем промежуточном уровне нейросети. Это машинный язык-посредник между любыми языковыми парами всех человеческих языков, поддерживаемых системой. Тем не менее, существование такой универсальной базы смыслов, которая объединяет все языки мира, впечатлит любого лингвиста. Вообще говоря, разработка подобной базы со всеми коннотациями, тщательным описанием всех возможных значений каждого слова, — это словно словно чаша Грааля в лингвистике. О ней мечтали десятилетиями. Благодаря нейросети Google эта мечта постепенно воплощается в жизнь. Нейросеть уже де-факто имеет такую базу смыслов внутри «чёрного ящика», с указанием возможных значений каждого слова. Проблема только в том, что пока что с этой базой умеет работать только она сама, эта нейросеть. Для человеческого понимания база смыслов в машинных кодах недоступна просто так, она требует специальной обработки.

Новая универсальная архитектура GNMT, которая переводит любые языковые пары

Что самое интересное, благодаря универсальной базе смыслов всех человеческих слов нейросеть перевода может работать даже для тех языковых пар, на которых её не обучали. Возьмём пример на анимации. Система обучена для языковых пар «японский⇄английский» и «корейский⇄английский». После этого через универсальную составленную базу смыслов нейросеть сможет переводить также языковую пару «японский⇄корейский», хотя она не тренировалась на ней.

Журналисты сразу же ухватились за эту тему и назвали служебную систему с базой смыслов «новым универсальным языком человечества». Например, известный российский маркетолог Андрей Себрант пишет: «Представление смыслов в универсальном виде, не привязанном к конкретному существующему языку, — это, фактически, создание нового универсального языка. Вот только не факт, что доступного человеку».

Действительно, «новый универсальный язык» — это звучит очень красиво и загадочно. Хотя на самом деле это просто единое многомерное пространство, составленное при помощи техники t-SNE, то есть методом нелинейного снижения размерности и визуализации многомерных переменных (t-distributed stochastic neighbor embedding).
Если говорить о практическом применении нейросети, то независимые специалисты признают, что разработка Google показывает «потрясающий» результат и наглядно демонстрирует, что нейронный перевод с помощью ИИ способен намного превзойти по качеству классические методы машинного перевода. Нейросеть Google явно улучшает качество перевода во многих отношениях.

Авторы новой научной работы добавляют, что универсальная архитектура, которая переводит любые языковые пары, в реальности показывает более высокую эффективность, чем нейросеть, тренированная только на одной языковой паре. По какой-то причине знание посторонних языков помогает нейросети более качественно переводить с данного конкретного языка.

На интуитивном уровне этот эффект понятен: человек тоже начинает лучше понимать чужой язык, если знает и другие языки той же группы. Таким образом он расширяет пространство смыслов в своём мозге. Он осознаёт смыслы, которым не соответствует ни одно слово из его родного языка.

Новый метод универсального перевода, названный разработчиками "Zero-Shot Translation", не требует никаких изменений в архитектуре нейросети Google Neural Machine Translation.

Научная работа с описанием многоязычной системы машинного перевода Neural Machine Translation System на базе нейросети за авторством Мелвина Джонсона, Максима Крикуна и других сотрудников Google опубликована 14 ноября 2016 года в открытом доступе.
Книга "Новый Этап Пробуждения" Александра Листенгорта: Маяк в океане поисков Души!.. Добро Пожаловать, בברכה, Բարի գալուստ, Hoşgeldiniz, Willkommen, Bienvenido!!!

Offline Wolliger Mensch

  • Global Moderator
  • *
  • Posts: 48550
  • Haariger Affe
    • Подушка
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: „рулетке“ — „выпечке“?? Тем более, что сей ляпсус я сам совершил…», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО … ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики…», Авал

Offline pomogosha

  • Posts: 3787
  • Язык — подвижный мышечный орган в полости рта.
Научная работа с описанием многоязычной системы машинного перевода Neural Machine Translation System на базе нейросети за авторством Мелвина Джонсона, Максима Крикуна и других сотрудников Google опубликована 14 ноября 2016 года в открытом доступе.
    «Революция, о необходимости которой все время говорили большевики, совершилась!»
Ура, товарищи! Психилингвисты скоро оставят лингвистов без работы...  :umnik:
Не говори — не прикусишь язык!
                                             мудрость
Эгоизм vs Альтруизм
http://www.pesni.ru/song/2207/
http://www.kalen-dar.ru/today/

Offline yurifromspb

  • Posts: 653
"Смысл" это, на их языке, что? Какой-то кластер в структуре корреляций между употреблениями соответствующих слов в разных языках... даже не выразиться по человечески.  :no:
Есть ссылка на статью? Вот это, что ли: https://arxiv.org/abs/1611.04558?
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Offline Sirko

  • Posts: 2453
Quote
Table 7 shows examples of mixed target language using three different multilingual models. It is interesting
that in the first example (Russian/Belarusian) the model switches from Russian to Ukrainian (underlined) as
target language first before finally switching to Belarusian. In the second example (Japanese/Korean), we
observe an even more interesting transition from Japanese to Korean, where the model gradually changes the
grammar from Japanese to Korean. At wko = 0.58, the model translates the source sentence into a mix of
Japanese and Korean at the beginning of the target sentence. At wko = 0.60, the source sentence is translated
into full Korean, where all of the source words are captured, however, the ordering of the words does not look
natural. Interestingly, when the wko is increased up to 0.7, the model starts to translate the source sentence
into a Korean sentence that sounds more natural.3

Offline Wolliger Mensch

  • Global Moderator
  • *
  • Posts: 48550
  • Haariger Affe
    • Подушка
Quote
Table 7 shows examples of mixed target language using three different multilingual models. It is interesting
that in the first example (Russian/Belarusian) the model switches from Russian to Ukrainian (underlined) as
target language first before finally switching to Belarusian. In the second example (Japanese/Korean), we
observe an even more interesting transition from Japanese to Korean, where the model gradually changes the
grammar from Japanese to Korean. At wko = 0.58, the model translates the source sentence into a mix of
Japanese and Korean at the beginning of the target sentence. At wko = 0.60, the source sentence is translated
into full Korean, where all of the source words are captured, however, the ordering of the words does not look
natural. Interestingly, when the wko is increased up to 0.7, the model starts to translate the source sentence
into a Korean sentence that sounds more natural.3

В вашей цитате нет объяснения:
1) Почему разные доли у одних и тех же форм.
2) Почему, скажем, в русско-белорусском примере во время перевода меняется само предложение.

Я именно об этом. Появление украинского в русско-белорусском переводе говорит просто о том, что ребята пытаются разработать теорию перевод на иных принципах, чем это есть сейчас — вообще без лингвистики. Уже были такие попытки, что-то не слыхать об успехах.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: „рулетке“ — „выпечке“?? Тем более, что сей ляпсус я сам совершил…», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО … ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики…», Авал

Offline ameshavkin

  • Posts: 947
Сугубо донаучная "картезианская лингвистика" в духе грамматики Пор-Рояля.

Offline Alone Coder

  • Posts: 22548
    • Орфовики
Что за оси на первой картинке?

Offline Bhudh

  • Posts: 48593
  • aka 蝎
    • Сайты по языкознанию
Где там оси? Там линии (взаимо)связи.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline pomogosha

  • Posts: 3787
  • Язык — подвижный мышечный орган в полости рта.
Появление украинского в русско-белорусском переводе говорит просто о том, что ребята пытаются разработать теорию перевод на иных принципах, чем это есть сейчас — вообще без лингвистики.
    "Вообще без лингвистики" не получится, естественно. Точно так же не получится и "чисто лингвистически, без эмоций" — об этом, пройденном, этапе пути создания автомата-переводчика следует забыть, как о кошмарном сне...
Не говори — не прикусишь язык!
                                             мудрость
Эгоизм vs Альтруизм
http://www.pesni.ru/song/2207/
http://www.kalen-dar.ru/today/

Там линии (взаимо)связи.
    Именно: взаимосвязи; центральный блок — «Attention» (!)
Не говори — не прикусишь язык!
                                             мудрость
Эгоизм vs Альтруизм
http://www.pesni.ru/song/2207/
http://www.kalen-dar.ru/today/

Offline Alone Coder

  • Posts: 22548
    • Орфовики
>Где там оси? Там линии (взаимо)связи.
А какого рода связи и чем определяется расстояние между точками на рисунке?

Offline pomogosha

  • Posts: 3787
  • Язык — подвижный мышечный орган в полости рта.
А 1 какого рода связи и 2 чем определяется расстояние между точками на рисунке?
   1)  На  Рис. 2. (блок-схеме, если хотите) — реализация левой части иллюстрации схемы GNMT  Рис. 1., где разными цветами показаны кластеры значений каждого слова, — показаны направленные связи: прямые (в эн-кодере  — между розовыми), в каждом слое последовательно, по ходу (прямое , + направление) считывания элементов, сбора информации в Long short-term memory (LSTM-s) и передачи её в «модуль внимания», который внемлет, анализирует и засылает свои свои измышления прямо в де-кодер. Это об характере связей: прямые они, положительные, последовательные и параллельные; но в нижнем слое эн-кодера сбор идет в обратном направлении — (-)-е обратные связи.
  2) Конкретизируйте, пожалуйста, свой вопрос: расстояния на схеме даны приблизительно (схематично) и от того что вы понимаете под расстоянием, ответы могут малость разни́ться.
Offtop
чем определяется вообще? конкретно на этом рисунке? или ещё что-то, вами подразумеваемое?
Не говори — не прикусишь язык!
                                             мудрость
Эгоизм vs Альтруизм
http://www.pesni.ru/song/2207/
http://www.kalen-dar.ru/today/


Offline Asker15

  • Posts: 103
Там написано, что переводчик google translate стал лучше переводить благодаря этим нейросетям?
Я заставил его перевести на английский и обратно на русский "однажды в студёную зимнюю пору я из лесу вышел, был сильный мороз", получил "Холодный день в зимнее время я вышел из леса, был сильный мороз". Сомневаюсь, что переводчик стал лучше.

Offline Bhudh

  • Posts: 48593
  • aka 蝎
    • Сайты по языкознанию
А для русского её пока и не используют. И вообще это ещё бета-версия.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Цитатель

  • Posts: 1052
Там написано, что переводчик google translate стал лучше переводить благодаря этим нейросетям?
Я заставил его перевести на английский и обратно на русский "однажды в студёную зимнюю пору я из лесу вышел, был сильный мороз", получил "Холодный день в зимнее время я вышел из леса, был сильный мороз". Сомневаюсь, что переводчик стал лучше.

ну во первых, непонятен смысл таких манипуляций, во вторых, придирки излишни.

английский перевод предложения совершенно правилен и не только не имеет ни единой ошибки, но даже написан в рифму и обладает несомненной художественной ценностью (99% английских стихов хуже по качеству)

The cold day
in winter time
I came out of the forest,
there was a strong frost

:)

Обратный перевод на русский тоже ошибок не имеет, если не считать отсутствия запятой после "зимнее время".

ставлю по переводу пятерку

Offline _Swetlana

  • Posts: 14086
Холодный день в зимнее время - как с японского переводили.
Ὁ λόγος τῆς νοήσεως ἐλπίς ἐστιν.
Талбишектә үстем мин дә, сизелми мени бер дә?
Bless the Beasts and Children.

Offline Цитатель

  • Posts: 1052
"Холодный зимний день из леса, был сильный мороз" - зулусский и обратно
"Холодная погода в зимнее время я вышел из леса, был сильный мороз" - африкаанс и обратно

на африкаанс кстати тоже в рифму

Die koue dag
in die winter tyd
wat ek uit die bos kom,
was daar 'n sterk ryp

знатоки, проверьте пожалуйста грамматику (wat на правильном месте стоит?)

Offline Asker15

  • Posts: 103
ставлю по переводу пятерку

Вот вам ещё перевод:
У попа была собака, он её любил -> Попа была собака, он ее любил
Концептуально однако ;)

Offline _Swetlana

  • Posts: 14086
Всё, я уже исправила гуглю перевод на "у попа"  ;D
Ὁ λόγος τῆς νοήσεως ἐλπίς ἐστιν.
Талбишектә үстем мин дә, сизелми мени бер дә?
Bless the Beasts and Children.

Offline Sirko

  • Posts: 2453

В вашей цитате нет объяснения:
1) Почему разные доли у одних и тех же форм.
2) Почему, скажем, в русско-белорусском примере во время перевода меняется само предложение.

Я именно об этом. Появление украинского в русско-белорусском переводе говорит просто о том, что ребята пытаются разработать теорию перевод на иных принципах, чем это есть сейчас — вообще без лингвистики. Уже были такие попытки, что-то не слыхать об успехах.
Quote
Weighted Target Language Selection
In this section we test what happens when we mix target languages. We take a multilingual model trained
with multiple target languages, for example, English→{Japanese, Korean}. Then instead of feeding the
embedding vector for “<2ja>” to the bottom layer of the encoder LSTM, we feed a linear combination
(1 − w)<2ja> + w<2ko>
Т. е. украинский текст появляется при доле белорусской модели 30-48%.

Offline sagwa_gae

  • Posts: 662
  • я злостный атеист, а это значит...
    • Стихи.ру_Проза.ру/Юрий Василич
Т. е. украинский текст появляется при доле белорусской модели 30-48%.
подпишусь
«СКАЗКА О ПОПЕ И О РАБОТНИКЕ ЕГО БАЛДЕ» А.С. Пушкин, гениальный русский поэт!

Offline Asker15

  • Posts: 103
Всё, я уже исправила гуглю перевод на "у попа"  ;D

Я вначале подумал, что вы работаете в google, но переводчик переводит по-прежнему.
Кстати, на другом форуме написали, что фразу "У попа была собака, он её любил" раньше переводчик переводил так: "Священнослужитель имел собаку, ему это нравилось". Выглядит по-лучше.

Offline _Swetlana

  • Posts: 14086
Ещё раз исправила, теперь уже другой кнопочкой. Тут можно прямо сказать, что перевод неправильный.
Пусть каждый, кто зайдёт в эту тему, сделает то же самое  :)
Ὁ λόγος τῆς νοήσεως ἐλπίς ἐστιν.
Талбишектә үстем мин дә, сизелми мени бер дә?
Bless the Beasts and Children.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: