Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Автоматизация языкотворчества

Автор Tanri, августа 28, 2019, 14:10

0 Пользователи и 1 гость просматривают эту тему.

Tanri

Не знаете, какие есть подвижки в автоматизации языкотворчества?
При текущем уровне развития техники мне кажется кажется вполне реальным написать ПО, способное по заданному алфавиту генерировать емкий и благозвучный словарик (основываясь на частотном и лексическом словарях). Хотя бы по произвольно взятым авторами ПО базовым понятиям. И наверняка можно сделать гораздо больше. Те же нейросети способны на удивительные вещи.

Bhudh

На форуме несколько лет назад регулярно выкладывались самописные программы–генераторы языков.
Насчёт благозвучности — это, знаете ли, понятие субъективное.
И на какие-такие удивительные вещи способны нейросети в плане генерации языков, Вы их с сильным ИИ не путаете?
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо


Bhudh

Vulgar выглядит точь-в-точь как Вадимиев LangGen.
И за это они просят 10 баксов?!
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Mona

Генерировать словарик можно простейшей программкой, написанной на коленке, по заданным правилам.
Я не вижу, где тут может быть прорыв или подвижки.
А вот инструмент, который позволял бы при внесении изменений в грамматику перегенерировать некий корпус текстов, выделяя возникающие при этом противоречия и нестыковки, не помешал бы. Но таких, по-моему, не существует.
Не говоря уже о том, чтобы генерировать сами тексты по заданным правилам грамматики из заданного словаря. Вот где, прорывчик и подвижечки могли бы быть. Но это ж надо вкалывать, а это нынче не в моде и не в тренде.

Bhudh

Генераторами текстов ещё в совецкие времена баловались на всяких БЭСМах.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Mona

Сейчас тоже балуются, но балуются.
А инструмента создания языка с таким "баловством" я еще не встречал.

Bhudh

Правил слишком много. Как раз сейчас советскую книжку 70-х годов читаю, там на парсинг полтыщи правил шло.
А на генерацию может быть и того больше.
Необходимо согласование и совместимость всех морфем, граммем, семем и лексем. А то и фразем, но это уже к стилизации ближе.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Python

Цитата: Bhudh от сентября 25, 2019, 23:49
Генераторами текстов ещё в совецкие времена баловались на всяких БЭСМах.
Собственно, генератор случайных последовательностей букв по неким условно взятым критериям благозвучия можно создать и без использования компьютера — в виде бумажных таблиц переходов и кубика в качестве генератора случайных чисел. Когда-то, не имея еще компьютера, делал что-то такое для генерации имен фантастических персонажей.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

asiaron

А можете плиз накидать по этой теме, в плане, что уже сделано и ету советскую книжку?
Предпочитаю обращение на ты

По-Чешски "Pozor" - внимание,
А по-Русски "Позор" - ганьба,
Это значитъ, господа,
Что славистика - [ценз.]ня.


Mona

Такой софт должен уметь
I. исправить текст на моем языке
1. Если я меняю правило в орфографии.
2. Если я меняю какие-то грамматические маркеры.
3. Если я меняю одну морфему на другую в словаре.
II.
1. Подсвечивать разного рода конфликты: омонимы, синонимы, омографы.
2. Подсвечивать грамматические ошибки, насколько позволяет далеко не искусственный и не интеллект.
III.
1. Структурно анализировать текст (парсить), показывая, что есть что, с точки зрения текущих правил грамматики.
...

Соответственно, такая программа должна обладать средствами описания ЛЮБЫХ МЫСЛИМЫХ языков.  Боюсь, такой программы не будет, пока не будет системы, позволяющей решать такие задачи. Мне кажется, что такой системы в современной лингвистике нет.

Bhudh

Ну, всё, кроме II.2, в принципе уже возможно сделать.
Осталось реализовать это в одной программе (и приклепать ИИ для II.2 ;D).
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

basta

Цитата: Mona от декабря 29, 2019, 22:23
Такой софт должен уметь
I. исправить текст на моем языке
1. Если я меняю правило в орфографии.
2. Если я меняю какие-то грамматические маркеры.
3. Если я меняю одну морфему на другую в словаре.
II.
1. Подсвечивать разного рода конфликты: омонимы, синонимы, омографы.
2. Подсвечивать грамматические ошибки, насколько позволяет далеко не искусственный и не интеллект.
III.
1. Структурно анализировать текст (парсить), показывая, что есть что, с точки зрения текущих правил грамматики.
...

Соответственно, такая программа должна обладать средствами описания ЛЮБЫХ МЫСЛИМЫХ языков.  Боюсь, такой программы не будет, пока не будет системы, позволяющей решать такие задачи. Мне кажется, что такой системы в современной лингвистике нет.
Экак вы губу раскатали ;D Доказать невозможность такой программы сходу не берусь, но могу точно сказать, что быстрее и проще руками переправить все слова во всех текстах, чем пытаться писать такую программу.

Mona

Не, ну find/replace в Ворде (и даже notepad'e) в принципе неплохо работает.
Проверка грамматики в том же ворде - похуже, но иногда бывает полезна. Только эта подсистема - закрытая, в ней свой язык не определишь.

Awwal12

Проблема в том, что синтаксис часто упирается в семантику. Здесь и находится один из основных подводных камней. Переводить любые тексты в семантический метаязык и обратно - задача не для современной техники.
Фашиствующий имперец, асексуал и многожёнец, татарофоб, заслуженный функционер РПЦ. Слушает радио "Радонеж" и терпеть не может счастливых людей.

"Да здравствуют ДОЯРКИ!! Потому что доярки - это раса сверхчеловеков. За ними будущее планеты. Они переживут даже атомную войну, потому что доярки вечны, ибо хтоничны. И дадут потомство, которое тоже будет доярами и доярками. Ура, товарищи!.." (c) Awwal12

Bhudh

Почему? Как раз для современной с её терафлопсами и петабайтами.
Каждое слово разделить на семы и граммемы, для перевода выбирать слово с максимально совпадающим множеством сем и граммем.
Причём не терять их по ходу многократного перевода, а держать в уме.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Awwal12

Цитата: Bhudh от января  1, 2020, 22:56
Почему? Как раз для современной с её терафлопсами и петабайтами.
Как минимум потому, что никакая программа не способна ликвидировать неоднозначности по смыслу. Это ИИ нужен.
Не говоря уже о том, что в самой теории общего синтаксиса всё не очень здорово.
Фашиствующий имперец, асексуал и многожёнец, татарофоб, заслуженный функционер РПЦ. Слушает радио "Радонеж" и терпеть не может счастливых людей.

"Да здравствуют ДОЯРКИ!! Потому что доярки - это раса сверхчеловеков. За ними будущее планеты. Они переживут даже атомную войну, потому что доярки вечны, ибо хтоничны. И дадут потомство, которое тоже будет доярами и доярками. Ура, товарищи!.." (c) Awwal12

Bhudh

Цитата: Awwal12 от января  1, 2020, 23:04никакая программа не способна ликвидировать неоднозначности по смыслу
Контекст. То бишь анализ частотности сочетаемости слов.
Ну и многократное моделирование по каждой ветви.

Цитата: Awwal12 от января  1, 2020, 23:04Не говоря уже о том, что в самой теории общего синтаксиса всё не очень здорово.
Опять же заменяем теорию статистикой, как GT делает.

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

asiaron

Цитата: Awwal12 от января  1, 2020, 22:28
Переводить любые тексты в семантический метаязык
Литературные тексты 19 века плохо размечаются автоматически? А большего и не надо, т.к. задачи анализа конланга с известными правилами, а не современного, вечно изменяющегося языка
Предпочитаю обращение на ты

По-Чешски "Pozor" - внимание,
А по-Русски "Позор" - ганьба,
Это значитъ, господа,
Что славистика - [ценз.]ня.

Awwal12

Цитата: asiaron от января  2, 2020, 00:26
А большего и не надо, т.к. задачи анализа конланга с известными правилами
С заранее не определенными правилами.
Цитата: Bhudh от января  1, 2020, 23:09
Цитата: Awwal12 от никакая программа не способна ликвидировать неоднозначности по смыслу
Контекст. То бишь анализ частотности сочетаемости слов.
Так анализ частотности будет давать некорректные результаты. Естественно, редко, но притом с роковой неизбежностью - что с современными нейросетями и происходит. У человека же в мозгу анализ и синтез синтаксиса зашит на аппаратном уровне, а для определения корректной семантики он использует не миллиард текстов, а опыт жизни в реальном мире.
Фашиствующий имперец, асексуал и многожёнец, татарофоб, заслуженный функционер РПЦ. Слушает радио "Радонеж" и терпеть не может счастливых людей.

"Да здравствуют ДОЯРКИ!! Потому что доярки - это раса сверхчеловеков. За ними будущее планеты. Они переживут даже атомную войну, потому что доярки вечны, ибо хтоничны. И дадут потомство, которое тоже будет доярами и доярками. Ура, товарищи!.." (c) Awwal12

Wolliger Mensch

Цитата: Awwal12 от января  1, 2020, 23:04
Цитата: Bhudh от января  1, 2020, 22:56
Почему? Как раз для современной с её терафлопсами и петабайтами.
Как минимум потому, что никакая программа не способна ликвидировать неоднозначности по смыслу. Это ИИ нужен.
Не говоря уже о том, что в самой теории общего синтаксиса всё не очень здорово.

Это, Авал, эзотерика. Буд правильно ответил вам — нужно сделать так же, как определяет семантику человек. Как вы, сферический Авал в вакууме, определяете семантику прочитанного слова? Вы часто с семантикой прочитанного слова ошибаетесь? — Смею полагать, что иногда такое случается и с вами. Так что. :no: :yes: :P
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Wolliger Mensch

Цитата: Awwal12 от января  2, 2020, 00:41
Так анализ частотности будет давать некорректные результаты. Естественно, редко, но притом с роковой неизбежностью - что с современными нейросетями и происходит. У человека же в мозгу анализ и синтез синтаксиса зашит на аппаратном уровне, а для определения корректной семантики он использует не миллиард текстов, а опыт жизни в реальном мире.

Не частотности, а частотности сочетаемости. И человек, как один из способов, тоже так делает. Как вы отличаете, скажем, семантику слова больной в предложениях Больной стебель отсох и Больной вызвал врача? Как вы можете доказать, что во втором предложении речь не о стебле? :P
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

wandrien

Я словарь составляю в тестовом файле, стараясь придерживаться некоторого формата, а потом паршу скриптом на предмет внутренних несогласованностей.

Текст поморфемно разбирать слишком много работы.....

wandrien

Цитата: Wolliger Mensch от января  2, 2020, 12:39
Цитата: Awwal12 от января  2, 2020, 00:41
Так анализ частотности будет давать некорректные результаты. Естественно, редко, но притом с роковой неизбежностью - что с современными нейросетями и происходит. У человека же в мозгу анализ и синтез синтаксиса зашит на аппаратном уровне, а для определения корректной семантики он использует не миллиард текстов, а опыт жизни в реальном мире.

Не частотности, а частотности сочетаемости. И человек, как один из способов, тоже так делает. Как вы отличаете, скажем, семантику слова больной в предложениях Больной стебель отсох и Больной вызвал врача? Как вы можете доказать, что во втором предложении речь не о стебле? :P
Машина это может сделать статистическим анализом. А человек ещё и анализом прагматической стороны высказывания. Первый способ очевидно слабее, чем первый плюс второй.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр