Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Автоматизация языкотворчества

Автор Tanri, августа 28, 2019, 14:10

0 Пользователи и 1 гость просматривают эту тему.

Wolliger Mensch

Цитата: wandrien от января  2, 2020, 12:48
Машина это может сделать статистическим анализом. А человек ещё и анализом прагматической стороны высказывания. Первый способ очевидно слабее, чем первый плюс второй.

Читаем:
ЦитироватьПрагматический анализ текста вытекает из функционального, логически продолжает и развивает его. Греч. pragmatos (дело, действие) - область науки (семиотики, языкознания), в которой изучается функционирование языковых знаков в речи. В прагматику лингвистическую включаются вопросы, связанные с субъектом (автором текста), адресатом (читателем) и - главное - с их взаимодействием в акте коммуникации.

Два противоположных вопроса:
1) Что из этого нельзя заложить в программу?
2) А каким это образом читатель может провести прагматический анализ текста, если исходить из определения этого анализа? Вы что, читая любой текст, можете ответить на поставленные в определении вопросы? Вот, я выше дал пример двух предложений. Проведите их прагматический анализ. :pop:

Дело не в прагматике, а в том, что вы, как примеры живого читателя, даете себе бо́льшую свободу для ошибок, чем умозрительно разрешаете это делать программе перевода. Вы, видимо, рассуждаете так: ну я ошибся, я научиться могу. А что мешает программе учиться? — Тут всё возвращается к Будовым терафлопсам и петабайтам — памяти и производительности компьютеров достаточно — учите их, хоть всему на свете. Чем больше заложите, тем точнее будет перевод. Что, собственно, уже и есть: гуглоперевод с английского на русский (другие языки не берём из-за особенностей гуглопереводчика) уже сейчас в большинстве случаев лучше, чем могут перевести многие люди, которые знают английский (хотя бы в силу ограничений в эрудиции конкретного человека).
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Wolliger Mensch

Ещё два важных момента:
1) Способность человека оценить качество перевода.
и связанным с ним вопрос
2) Правильность оценки ошибок в переводе.

По п. (1) — как вы воспринимаете перевод, сделанный человеческим переводчиком, с неизвестного вам языка? У вас нет возможности с ходу оценить его правильность, что вы делаете в таком случае?
По п. (2) — представьте себе человеческого переводчика с иностранного на русский, который говорит по русски с акцентом и с грамматическими ошибками. Как вы оцениваете его работу?
Дело в том, что грамматически, стилистически и т. д. отточенный текст на русском языке — это не эквивалент правильности перевода как такового. А слушатели и читатели судят о переводе именно по качеству конечного текста, а адекватно оценить правильность перевода могут оценить только те, кому перевод и не нужен — знатоки языка и переводческого ремесла.

Отсюда мораль: большинство претензий к современным программам-переводчикам либо несправедливы (люди ошибаются так же), либо основаны на непонимании того, как «простой человек с улицы» оценивает переводы живых переводчиков.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Bhudh

Кстати, в выражениях Больной XXX вызвал врача и Больной XXX вызвал некроз вообще глаголы разные.

И GT уже это понимает.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Mona

Вы тут на анализ живых языков скатились, что интересно. Но речь шла о языкотворчестве. Мне вот тоже не хватает инструментов, чтобы быстренько можно было опробовать какие-то варианты, автоматически перестроив или подсветив остальную часть системы, которая не бьется с нововведением.

Что касается анализа текстов, я лично воочию наблюдаю деградацию. Буквально час назад пытался написать отзыв на статью в //vz.ru, зарегистрировавшись, как положено. Система мне сообщила, что я использую ненормативную лексику, хотя самым ненормативным словом в моем посте был "Билайн".

А что касается гугла, то помню с пяток лет назад, как они декларировали новые прорывные алгоритмы перевода, а по факту и сегодня все межъязыковые переводы идут через английский, что легко проверяется.

И да, стебель не может вызвать врача, т.к. стебель не является антропоморфным существом, по опыту знаю. А компьютеру это вообще-то без ИИ легко объясняется рядом свойств объекта, одушевленный-неодушевленный хотя бы, ну еще парочкой для надежности. Одушевленный может вызвать врача. Неодушевленный может вызвать сепсис.

Mona

Цитата: Bhudh от января  2, 2020, 17:17
Кстати, в выражениях Больной XXX вызвал врача и Больной XXX вызвал некроз вообще глаголы разные.

И GT уже это понимает.

Не факт, он просто понимает, что со словом necrosis в позиции дополнения часто сочетается предикат to cause, а с doctor - to call. При этом в обоих случаях субъектом остается patient, и гугл ни капли не смущает, что пациенты обычно не являются причиной некроза. Гугл думает, что субъектом любого из этих двух сказуемых может быть пациент и еще 100500 существительных, возможно.

Awwal12

Цитата: Wolliger Mensch от января  2, 2020, 12:39
Цитата: Awwal12 от января  2, 2020, 00:41
Так анализ частотности будет давать некорректные результаты. Естественно, редко, но притом с роковой неизбежностью - что с современными нейросетями и происходит. У человека же в мозгу анализ и синтез синтаксиса зашит на аппаратном уровне, а для определения корректной семантики он использует не миллиард текстов, а опыт жизни в реальном мире.

Не частотности, а частотности сочетаемости. И человек, как один из способов, тоже так делает. Как вы отличаете, скажем, семантику слова больной в предложениях Больной стебель отсох и Больной вызвал врача? Как вы можете доказать, что во втором предложении речь не о стебле? :P
Потому что действия, подразумевающие волевые акты, для неодушевленных субъектов крайне не характерны, что следует не из языковой реальности самой по себе, а из жизненного опыта. Я, например, мог и не слышать ни разу в жизни фразы "техник вызвал врача" или "Джамшут вызвал врача". Анализируется смысловое содержание слов и их связей - иначе, восстанавливается их ожидаемый  прообраз в реальном мире, что невозможно адекватно проделать без опыта жизни в таковом мире.
Фашиствующий имперец, асексуал и многожёнец, татарофоб, заслуженный функционер РПЦ. Слушает радио "Радонеж" и терпеть не может счастливых людей.

"Да здравствуют ДОЯРКИ!! Потому что доярки - это раса сверхчеловеков. За ними будущее планеты. Они переживут даже атомную войну, потому что доярки вечны, ибо хтоничны. И дадут потомство, которое тоже будет доярами и доярками. Ура, товарищи!.." (c) Awwal12

asiaron

Цитата: Awwal12 от января 14, 2020, 23:17
"Джамшут вызвал врача".
Джамшут - неодушевлённое? *Добавил в список идей для конланга*
Предпочитаю обращение на ты

По-Чешски "Pozor" - внимание,
А по-Русски "Позор" - ганьба,
Это значитъ, господа,
Что славистика - [ценз.]ня.

Mona

Цитата: Awwal12 от января 14, 2020, 23:17
Я, например, мог и не слышать ни разу в жизни фразы "техник вызвал врача" или "Джамшут вызвал врача". Анализируется смысловое содержание слов и их связей - иначе, восстанавливается их ожидаемый  прообраз в реальном мире, что невозможно адекватно проделать без опыта жизни в таковом мире.

Вы все же знаете из _языкового_ опыта, что Джамшут - имя человека, техник - профессия человека (вы могли в жизни с ними ни разу не встречаться). Что мешает сообщить компьютеру, что Джамшут, техник, имбецил, бабай и премьер - скорее всего, люди? А бабайка, техника и премьера - предметы...

Awwal12

Цитата: Mona от января 17, 2020, 20:55
Вы все же знаете из _языкового_ опыта, что Джамшут - имя человека, техник - профессия человека
В языке нет таких категорий, как имя или профессия. Это категории реального мира.
Фашиствующий имперец, асексуал и многожёнец, татарофоб, заслуженный функционер РПЦ. Слушает радио "Радонеж" и терпеть не может счастливых людей.

"Да здравствуют ДОЯРКИ!! Потому что доярки - это раса сверхчеловеков. За ними будущее планеты. Они переживут даже атомную войну, потому что доярки вечны, ибо хтоничны. И дадут потомство, которое тоже будет доярами и доярками. Ура, товарищи!.." (c) Awwal12

Mona

Цитата: Awwal12 от января 17, 2020, 21:08
Цитата: Mona от января 17, 2020, 20:55
Вы все же знаете из _языкового_ опыта, что Джамшут - имя человека, техник - профессия человека
В языке нет таких категорий, как имя или профессия. Это категории реального мира.

Как это в языке нет имен и профессий? :o Это у компьютера в голове нет имен и профессий, если мы ему не скажем. Что мешает объяснить компьютеру, что есть две категории предметов, одни способны действовать по своему усмотрению (список1 деятелей, список2 действий), другие - нет (список3 неодушевленных деятелей, список4 действий неодушевленных деятелей)?

Awwal12

Цитата: Mona от января 17, 2020, 23:59
Что мешает объяснить компьютеру, что есть две категории предметов, одни способны действовать по своему усмотрению (список1 деятелей, список2 действий), другие - нет (список3 неодушевленных деятелей, список4 действий неодушевленных деятелей)?
То, что это открытые категории? (Заметьте: вы при этом объясняете компьютеру экстралингвистические категории. Слова не есть предметы.)
Фашиствующий имперец, асексуал и многожёнец, татарофоб, заслуженный функционер РПЦ. Слушает радио "Радонеж" и терпеть не может счастливых людей.

"Да здравствуют ДОЯРКИ!! Потому что доярки - это раса сверхчеловеков. За ними будущее планеты. Они переживут даже атомную войну, потому что доярки вечны, ибо хтоничны. И дадут потомство, которое тоже будет доярами и доярками. Ура, товарищи!.." (c) Awwal12

asiaron

Цитата: Awwal12 от января 18, 2020, 09:52
То, что это открытые категории? (Заметьте: вы при этом объясняете компьютеру экстралингвистические категории. Слова не есть предметы.)
Словоупотребления не являются частью языка?
Предпочитаю обращение на ты

По-Чешски "Pozor" - внимание,
А по-Русски "Позор" - ганьба,
Это значитъ, господа,
Что славистика - [ценз.]ня.

Bhudh

В естественном языке словоупотребление и словосочетание в принципе свободны.
Послушайте каких-нибудь философских рокеров или почитайте символистов.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Mona

Цитата: Awwal12 от января 18, 2020, 09:52
Цитата: Mona от января 17, 2020, 23:59
Что мешает объяснить компьютеру, что есть две категории предметов, одни способны действовать по своему усмотрению (список1 деятелей, список2 действий), другие - нет (список3 неодушевленных деятелей, список4 действий неодушевленных деятелей)?
То, что это открытые категории? (Заметьте: вы при этом объясняете компьютеру экстралингвистические категории. Слова не есть предметы.)

Да нет, я компьютеру ничего такого экстралингвистического не объясняю, я ему просто разные списки скармливаю для базы данных, чтобы у него стебель не мог вызвать врача. Для списка из таких-то субъектов и таких-то объектов выбирай, пожалуйста, глаголы из этого списка, а вот к этому списку глаголов прилагаются вот эти списки возможных субъектов и объектов. В реальности это несколько иначе реализуется, конечно же.

Разумеется, списки открытые. Разумеется, в сказках животные разговаривают, а в фантастических рассказах ничто не мешает растению вызвать врача, но это не меняет принципа. Компьютеру, по большому счету, и на математику плевать, и на физику, что не мешает их успешно использовать.

asiaron

Цитата: Bhudh от января 18, 2020, 14:45
В естественном языке словоупотребление и словосочетание в принципе свободны.
Но есть реальное словоупотребление и нереальное.
Предпочитаю обращение на ты

По-Чешски "Pozor" - внимание,
А по-Русски "Позор" - ганьба,
Это значитъ, господа,
Что славистика - [ценз.]ня.

Bhudh

Что Вы называете реальным и нереальным?
«Красный смех гуляет по стране» это реальное употребление или нереальное?
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

asiaron

Цитата: Bhudh от января 18, 2020, 22:28
«Красный смех гуляет по стране» это реальное употребление или нереальное?
Это точно нужно для конлагерской утилиты? Да и человеку переводить творчество проблематично
Предпочитаю обращение на ты

По-Чешски "Pozor" - внимание,
А по-Русски "Позор" - ганьба,
Это значитъ, господа,
Что славистика - [ценз.]ня.

Mona

Цитата: Bhudh от января 18, 2020, 22:28
Что Вы называете реальным и нереальным?
«Красный смех гуляет по стране» это реальное употребление или нереальное?

Что у человека, что у компьютера, правильно запрограммированного человеком, в ответ на эту фразу возникает сигнал о нештатной ситуации. Человек далее начинает анализировать: а что это за жанр? - ах, поэзия! ну все понятно. Лиса вдруг с волком разговаривает, - опять включается такой же анализ, потому что лиса с волком в том списке, где не разговаривают. Элементарно же.

Bhudh

Реалистичной поэзии не бывает, что ли? Да она у того же всего нашего вся, кроме сказок, реалистичная.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Mona

При анализе реалистичной поэзии просто не зазвенит сигнал тревоги, т.к. всё будет штатно анализироваться.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр