Не знаете, какие есть подвижки в автоматизации языкотворчества?
При текущем уровне развития техники мне кажется кажется вполне реальным написать ПО, способное по заданному алфавиту генерировать емкий и благозвучный словарик (основываясь на частотном и лексическом словарях). Хотя бы по произвольно взятым авторами ПО базовым понятиям. И наверняка можно сделать гораздо больше. Те же нейросети способны на удивительные вещи.
На форуме несколько лет назад регулярно выкладывались самописные программы–генераторы языков.
Насчёт благозвучности — это, знаете ли, понятие субъективное.
И на какие-такие удивительные вещи способны нейросети в плане генерации языков, Вы их с сильным ИИ не путаете?
Vulgar is a constructed language (conlang) generator (https://www.vulgarlang.com/)
Do you know conlang software tools? (http://verduria.org/viewtopic.php?f=3&t=139)
Vulgar выглядит точь-в-точь как Вадимиев LangGen.
И за это они просят 10 баксов?!
Генерировать словарик можно простейшей программкой, написанной на коленке, по заданным правилам.
Я не вижу, где тут может быть прорыв или подвижки.
А вот инструмент, который позволял бы при внесении изменений в грамматику перегенерировать некий корпус текстов, выделяя возникающие при этом противоречия и нестыковки, не помешал бы. Но таких, по-моему, не существует.
Не говоря уже о том, чтобы генерировать сами тексты по заданным правилам грамматики из заданного словаря. Вот где, прорывчик и подвижечки могли бы быть. Но это ж надо вкалывать, а это нынче не в моде и не в тренде.
Генераторами текстов ещё в совецкие времена баловались на всяких БЭСМах.
Сейчас тоже балуются, но балуются.
А инструмента создания языка с таким "баловством" я еще не встречал.
Правил слишком много. Как раз сейчас советскую книжку 70-х годов читаю, там на парсинг полтыщи правил шло.
А на генерацию может быть и того больше.
Необходимо согласование и совместимость всех морфем, граммем, семем и лексем. А то и фразем, но это уже к стилизации ближе.
Цитата: Bhudh от сентября 25, 2019, 23:49
Генераторами текстов ещё в совецкие времена баловались на всяких БЭСМах.
Собственно, генератор случайных последовательностей букв по неким условно взятым критериям благозвучия можно создать и без использования компьютера — в виде бумажных таблиц переходов и кубика в качестве генератора случайных чисел. Когда-то, не имея еще компьютера, делал что-то такое для генерации имен фантастических персонажей.
А можете плиз накидать по этой теме, в плане, что уже сделано и ету советскую книжку?
http://www.frathwiki.com/Software_tools_for_conlanging
Такой софт должен уметь
I. исправить текст на моем языке
1. Если я меняю правило в орфографии.
2. Если я меняю какие-то грамматические маркеры.
3. Если я меняю одну морфему на другую в словаре.
II.
1. Подсвечивать разного рода конфликты: омонимы, синонимы, омографы.
2. Подсвечивать грамматические ошибки, насколько позволяет далеко не искусственный и не интеллект.
III.
1. Структурно анализировать текст (парсить), показывая, что есть что, с точки зрения текущих правил грамматики.
...
Соответственно, такая программа должна обладать средствами описания ЛЮБЫХ МЫСЛИМЫХ языков. Боюсь, такой программы не будет, пока не будет системы, позволяющей решать такие задачи. Мне кажется, что такой системы в современной лингвистике нет.
Ну, всё, кроме II.2, в принципе уже возможно сделать.
Осталось реализовать это в одной программе (и приклепать ИИ для II.2 ;D).
Цитата: Mona от декабря 29, 2019, 22:23
Такой софт должен уметь
I. исправить текст на моем языке
1. Если я меняю правило в орфографии.
2. Если я меняю какие-то грамматические маркеры.
3. Если я меняю одну морфему на другую в словаре.
II.
1. Подсвечивать разного рода конфликты: омонимы, синонимы, омографы.
2. Подсвечивать грамматические ошибки, насколько позволяет далеко не искусственный и не интеллект.
III.
1. Структурно анализировать текст (парсить), показывая, что есть что, с точки зрения текущих правил грамматики.
...
Соответственно, такая программа должна обладать средствами описания ЛЮБЫХ МЫСЛИМЫХ языков. Боюсь, такой программы не будет, пока не будет системы, позволяющей решать такие задачи. Мне кажется, что такой системы в современной лингвистике нет.
Экак вы губу раскатали ;D Доказать невозможность такой программы сходу не берусь, но могу точно сказать, что быстрее и проще руками переправить все слова во всех текстах, чем пытаться писать такую программу.
Не, ну find/replace в Ворде (и даже notepad'e) в принципе неплохо работает.
Проверка грамматики в том же ворде - похуже, но иногда бывает полезна. Только эта подсистема - закрытая, в ней свой язык не определишь.
Проблема в том, что синтаксис часто упирается в семантику. Здесь и находится один из основных подводных камней. Переводить любые тексты в семантический метаязык и обратно - задача не для современной техники.
Почему? Как раз для современной с её терафлопсами и петабайтами.
Каждое слово разделить на семы и граммемы, для перевода выбирать слово с максимально совпадающим множеством сем и граммем.
Причём не терять их по ходу многократного перевода, а держать в уме.
Цитата: Bhudh от января 1, 2020, 22:56
Почему? Как раз для современной с её терафлопсами и петабайтами.
Как минимум потому, что никакая программа не способна ликвидировать неоднозначности по смыслу. Это ИИ нужен.
Не говоря уже о том, что в самой теории общего синтаксиса всё не очень здорово.
Цитата: Awwal12 от января 1, 2020, 23:04никакая программа не способна ликвидировать неоднозначности по смыслу
Контекст. То бишь анализ частотности сочетаемости слов.
Ну и многократное моделирование по каждой ветви.
Цитата: Awwal12 от января 1, 2020, 23:04Не говоря уже о том, что в самой теории общего синтаксиса всё не очень здорово.
Опять же заменяем теорию статистикой, как GT делает.
Цитата: Awwal12 от января 1, 2020, 22:28
Переводить любые тексты в семантический метаязык
Литературные тексты 19 века плохо размечаются автоматически? А большего и не надо, т.к. задачи анализа конланга с известными правилами, а не современного, вечно изменяющегося языка
Цитата: asiaron от января 2, 2020, 00:26
А большего и не надо, т.к. задачи анализа конланга с известными правилами
С
заранее не определенными правилами.
Цитата: Bhudh от января 1, 2020, 23:09
Цитата: Awwal12 от никакая программа не способна ликвидировать неоднозначности по смыслу
Контекст. То бишь анализ частотности сочетаемости слов.
Так анализ частотности будет давать некорректные результаты. Естественно, редко, но притом с роковой неизбежностью - что с современными нейросетями и происходит. У человека же в мозгу анализ и синтез синтаксиса зашит на аппаратном уровне, а для определения корректной семантики он использует не миллиард текстов, а опыт жизни в реальном мире.
Цитата: Awwal12 от января 1, 2020, 23:04
Цитата: Bhudh от января 1, 2020, 22:56
Почему? Как раз для современной с её терафлопсами и петабайтами.
Как минимум потому, что никакая программа не способна ликвидировать неоднозначности по смыслу. Это ИИ нужен.
Не говоря уже о том, что в самой теории общего синтаксиса всё не очень здорово.
Это, Авал, эзотерика. Буд правильно ответил вам — нужно сделать так же, как определяет семантику человек. Как вы, сферический Авал в вакууме, определяете семантику прочитанного слова? Вы часто с семантикой прочитанного слова ошибаетесь? — Смею полагать, что иногда такое случается и с вами. Так что. :no: :yes: :P
Цитата: Awwal12 от января 2, 2020, 00:41
Так анализ частотности будет давать некорректные результаты. Естественно, редко, но притом с роковой неизбежностью - что с современными нейросетями и происходит. У человека же в мозгу анализ и синтез синтаксиса зашит на аппаратном уровне, а для определения корректной семантики он использует не миллиард текстов, а опыт жизни в реальном мире.
Не частотности, а частотности сочетаемости. И человек, как один из способов, тоже так делает. Как вы отличаете, скажем, семантику слова
больной в предложениях
Больной стебель отсох и
Больной вызвал врача? Как вы можете доказать, что во втором предложении речь не о стебле? :P
Я словарь составляю в тестовом файле, стараясь придерживаться некоторого формата, а потом паршу скриптом на предмет внутренних несогласованностей.
Текст поморфемно разбирать слишком много работы.....
Цитата: Wolliger Mensch от января 2, 2020, 12:39
Цитата: Awwal12 от января 2, 2020, 00:41
Так анализ частотности будет давать некорректные результаты. Естественно, редко, но притом с роковой неизбежностью - что с современными нейросетями и происходит. У человека же в мозгу анализ и синтез синтаксиса зашит на аппаратном уровне, а для определения корректной семантики он использует не миллиард текстов, а опыт жизни в реальном мире.
Не частотности, а частотности сочетаемости. И человек, как один из способов, тоже так делает. Как вы отличаете, скажем, семантику слова больной в предложениях Больной стебель отсох и Больной вызвал врача? Как вы можете доказать, что во втором предложении речь не о стебле? :P
Машина это может сделать статистическим анализом. А человек ещё и анализом прагматической стороны высказывания. Первый способ очевидно слабее, чем первый плюс второй.
Цитата: wandrien от января 2, 2020, 12:48
Машина это может сделать статистическим анализом. А человек ещё и анализом прагматической стороны высказывания. Первый способ очевидно слабее, чем первый плюс второй.
Читаем:
ЦитироватьПрагматический анализ текста вытекает из функционального, логически продолжает и развивает его. Греч. pragmatos (дело, действие) - область науки (семиотики, языкознания), в которой изучается функционирование языковых знаков в речи. В прагматику лингвистическую включаются вопросы, связанные с субъектом (автором текста), адресатом (читателем) и - главное - с их взаимодействием в акте коммуникации.
Два противоположных вопроса:
1) Что из этого нельзя заложить в программу?
2) А каким это образом читатель может провести прагматический анализ текста, если исходить из определения этого анализа? Вы что, читая любой текст, можете ответить на поставленные в определении вопросы? Вот, я выше дал пример двух предложений. Проведите их прагматический анализ. :pop:
Дело не в прагматике, а в том, что вы, как примеры живого читателя, даете себе бо́льшую свободу для ошибок, чем умозрительно разрешаете это делать программе перевода. Вы, видимо, рассуждаете так: ну я ошибся, я научиться могу. А что мешает программе учиться? — Тут всё возвращается к Будовым терафлопсам и петабайтам — памяти и производительности компьютеров достаточно — учите их, хоть всему на свете. Чем больше заложите, тем точнее будет перевод. Что, собственно, уже и есть: гуглоперевод с английского на русский (другие языки не берём из-за особенностей гуглопереводчика) уже сейчас в большинстве случаев лучше, чем могут перевести многие люди, которые знают английский (хотя бы в силу ограничений в эрудиции конкретного человека).
Ещё два важных момента:
1) Способность человека оценить качество перевода.
и связанным с ним вопрос
2) Правильность оценки ошибок в переводе.
По п. (1) — как вы воспринимаете перевод, сделанный человеческим переводчиком, с неизвестного вам языка? У вас нет возможности с ходу оценить его правильность, что вы делаете в таком случае?
По п. (2) — представьте себе человеческого переводчика с иностранного на русский, который говорит по русски с акцентом и с грамматическими ошибками. Как вы оцениваете его работу?
Дело в том, что грамматически, стилистически и т. д. отточенный текст на русском языке — это не эквивалент правильности перевода как такового. А слушатели и читатели судят о переводе именно по качеству конечного текста, а адекватно оценить правильность перевода могут оценить только те, кому перевод и не нужен — знатоки языка и переводческого ремесла.
Отсюда мораль: большинство претензий к современным программам-переводчикам либо несправедливы (люди ошибаются так же), либо основаны на непонимании того, как «простой человек с улицы» оценивает переводы живых переводчиков.
Кстати, в выражениях Больной XXX вызвал врача и Больной XXX вызвал некроз вообще глаголы разные.
И GT уже это понимает (https://translate.google.ru/#view=home&op=translate&sl=ru&tl=en&text=%D0%91%D0%BE%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9%20XXX%20%D0%B2%D1%8B%D0%B7%D0%B2%D0%B0%D0%BB%20%D0%B2%D1%80%D0%B0%D1%87%D0%B0.%0A%D0%91%D0%BE%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9%20XXX%20%D0%B2%D1%8B%D0%B7%D0%B2%D0%B0%D0%BB%20%D0%BD%D0%B5%D0%BA%D1%80%D0%BE%D0%B7.).
Вы тут на анализ живых языков скатились, что интересно. Но речь шла о языкотворчестве. Мне вот тоже не хватает инструментов, чтобы быстренько можно было опробовать какие-то варианты, автоматически перестроив или подсветив остальную часть системы, которая не бьется с нововведением.
Что касается анализа текстов, я лично воочию наблюдаю деградацию. Буквально час назад пытался написать отзыв на статью в vz.ru, зарегистрировавшись, как положено. Система мне сообщила, что я использую ненормативную лексику, хотя самым ненормативным словом в моем посте был "Билайн".
А что касается гугла, то помню с пяток лет назад, как они декларировали новые прорывные алгоритмы перевода, а по факту и сегодня все межъязыковые переводы идут через английский, что легко проверяется.
И да, стебель не может вызвать врача, т.к. стебель не является антропоморфным существом, по опыту знаю. А компьютеру это вообще-то без ИИ легко объясняется рядом свойств объекта, одушевленный-неодушевленный хотя бы, ну еще парочкой для надежности. Одушевленный может вызвать врача. Неодушевленный может вызвать сепсис.
Цитата: Bhudh от января 2, 2020, 17:17
Кстати, в выражениях Больной XXX вызвал врача и Больной XXX вызвал некроз вообще глаголы разные.
И GT уже это понимает (https://translate.google.ru/#view=home&op=translate&sl=ru&tl=en&text=%D0%91%D0%BE%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9%20XXX%20%D0%B2%D1%8B%D0%B7%D0%B2%D0%B0%D0%BB%20%D0%B2%D1%80%D0%B0%D1%87%D0%B0.%0A%D0%91%D0%BE%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9%20XXX%20%D0%B2%D1%8B%D0%B7%D0%B2%D0%B0%D0%BB%20%D0%BD%D0%B5%D0%BA%D1%80%D0%BE%D0%B7.).
Не факт, он просто понимает, что со словом necrosis в позиции дополнения часто сочетается предикат to cause, а с doctor - to call. При этом в обоих случаях субъектом остается patient, и гугл ни капли не смущает, что пациенты обычно не являются причиной некроза. Гугл думает, что субъектом любого из этих двух сказуемых может быть пациент и еще 100500 существительных, возможно.
Цитата: Wolliger Mensch от января 2, 2020, 12:39
Цитата: Awwal12 от января 2, 2020, 00:41
Так анализ частотности будет давать некорректные результаты. Естественно, редко, но притом с роковой неизбежностью - что с современными нейросетями и происходит. У человека же в мозгу анализ и синтез синтаксиса зашит на аппаратном уровне, а для определения корректной семантики он использует не миллиард текстов, а опыт жизни в реальном мире.
Не частотности, а частотности сочетаемости. И человек, как один из способов, тоже так делает. Как вы отличаете, скажем, семантику слова больной в предложениях Больной стебель отсох и Больной вызвал врача? Как вы можете доказать, что во втором предложении речь не о стебле? :P
Потому что действия, подразумевающие волевые акты, для неодушевленных субъектов крайне не характерны, что следует не из языковой реальности самой по себе, а из жизненного опыта. Я, например, мог и не слышать ни разу в жизни фразы "техник вызвал врача" или "Джамшут вызвал врача". Анализируется смысловое содержание слов и их связей - иначе, восстанавливается их ожидаемый прообраз в реальном мире, что невозможно адекватно проделать без опыта жизни в таковом мире.
Цитата: Awwal12 от января 14, 2020, 23:17
"Джамшут вызвал врача".
Джамшут - неодушевлённое? *Добавил в список идей для конланга*
Цитата: Awwal12 от января 14, 2020, 23:17
Я, например, мог и не слышать ни разу в жизни фразы "техник вызвал врача" или "Джамшут вызвал врача". Анализируется смысловое содержание слов и их связей - иначе, восстанавливается их ожидаемый прообраз в реальном мире, что невозможно адекватно проделать без опыта жизни в таковом мире.
Вы все же знаете из _языкового_ опыта, что Джамшут - имя человека, техник - профессия человека (вы могли в жизни с ними ни разу не встречаться). Что мешает сообщить компьютеру, что Джамшут, техник, имбецил, бабай и премьер - скорее всего, люди? А бабайка, техника и премьера - предметы...
Цитата: Mona от января 17, 2020, 20:55
Вы все же знаете из _языкового_ опыта, что Джамшут - имя человека, техник - профессия человека
В языке нет таких категорий, как имя или профессия. Это категории реального мира.
Цитата: Awwal12 от января 17, 2020, 21:08
Цитата: Mona от января 17, 2020, 20:55
Вы все же знаете из _языкового_ опыта, что Джамшут - имя человека, техник - профессия человека
В языке нет таких категорий, как имя или профессия. Это категории реального мира.
Как это в языке нет имен и профессий? :o Это у компьютера в голове нет имен и профессий, если мы ему не скажем. Что мешает объяснить компьютеру, что есть две категории предметов, одни способны действовать по своему усмотрению (список1 деятелей, список2 действий), другие - нет (список3 неодушевленных деятелей, список4 действий неодушевленных деятелей)?
Цитата: Mona от января 17, 2020, 23:59
Что мешает объяснить компьютеру, что есть две категории предметов, одни способны действовать по своему усмотрению (список1 деятелей, список2 действий), другие - нет (список3 неодушевленных деятелей, список4 действий неодушевленных деятелей)?
То, что это открытые категории? (Заметьте: вы при этом объясняете компьютеру экстралингвистические категории. Слова не есть предметы.)
Цитата: Awwal12 от января 18, 2020, 09:52
То, что это открытые категории? (Заметьте: вы при этом объясняете компьютеру экстралингвистические категории. Слова не есть предметы.)
Словоупотребления не являются частью языка?
В естественном языке словоупотребление и словосочетание в принципе свободны.
Послушайте каких-нибудь философских рокеров или почитайте символистов.
Цитата: Awwal12 от января 18, 2020, 09:52
Цитата: Mona от января 17, 2020, 23:59
Что мешает объяснить компьютеру, что есть две категории предметов, одни способны действовать по своему усмотрению (список1 деятелей, список2 действий), другие - нет (список3 неодушевленных деятелей, список4 действий неодушевленных деятелей)?
То, что это открытые категории? (Заметьте: вы при этом объясняете компьютеру экстралингвистические категории. Слова не есть предметы.)
Да нет, я компьютеру ничего такого экстралингвистического не объясняю, я ему просто разные списки скармливаю для базы данных, чтобы у него стебель не мог вызвать врача. Для списка из таких-то субъектов и таких-то объектов выбирай, пожалуйста, глаголы из этого списка, а вот к этому списку глаголов прилагаются вот эти списки возможных субъектов и объектов. В реальности это несколько иначе реализуется, конечно же.
Разумеется, списки открытые. Разумеется, в сказках животные разговаривают, а в фантастических рассказах ничто не мешает растению вызвать врача, но это не меняет принципа. Компьютеру, по большому счету, и на математику плевать, и на физику, что не мешает их успешно использовать.
Цитата: Bhudh от января 18, 2020, 14:45
В естественном языке словоупотребление и словосочетание в принципе свободны.
Но есть реальное словоупотребление и нереальное.
Что Вы называете реальным и нереальным?
«Красный смех гуляет по стране (https://amdm.ru/akkordi/grajdanskaa_oborona/5072/krasniy_smeh/)» это реальное употребление или нереальное?
Цитата: Bhudh от января 18, 2020, 22:28
«Красный смех гуляет по стране» это реальное употребление или нереальное?
Это точно нужно для конлагерской утилиты? Да и человеку переводить творчество проблематично
Цитата: Bhudh от января 18, 2020, 22:28
Что Вы называете реальным и нереальным?
«Красный смех гуляет по стране (https://amdm.ru/akkordi/grajdanskaa_oborona/5072/krasniy_smeh/)» это реальное употребление или нереальное?
Что у человека, что у компьютера, правильно запрограммированного человеком, в ответ на эту фразу возникает сигнал о нештатной ситуации. Человек далее начинает анализировать: а что это за жанр? - ах, поэзия! ну все понятно. Лиса вдруг с волком разговаривает, - опять включается такой же анализ, потому что лиса с волком в том списке, где не разговаривают. Элементарно же.
Реалистичной поэзии не бывает, что ли? Да она у того же всего нашего вся, кроме сказок, реалистичная.
При анализе реалистичной поэзии просто не зазвенит сигнал тревоги, т.к. всё будет штатно анализироваться.