Приветствую.
В связи с работой над знаковой системой для разных языков, у меня образовалась программка, которая берёт на вход текст на русском языке и может выдать на выходе перекодированный текст. На вход ей подаётся размеченный текст (я сейчас беру размеченный текст из http://opencorpora.org со снятой омонимией), список морфем (символов) и список перекодировки русских слов в означенные морфемы (символы). Например, для морфем
ir # идти
-ant- ПРИЧ.
-i ГЛАГОЛ
-a ПРИЛАГАТЕЛЬНОЕ
-o СУЩЕСТВИТЕЛЬНОЕ
-j МНОЖЕСТВЕННОЕ ЧИСЛО
и правила
идти ir|i
оно переведёт (размеченное) слово "идущие" как ir-ant-a-j (поскольку его грамматические аттрибуты известны из разметки), ну и заодно подсчитает как часто используются те или иные знаки (буквы, иероглифы и пр.) и какой процент удалось перевести.
Собственно, если поработать над этим инструментом дальше, то можно сделать (полу)автоматический переводчик с русского на несложный конланг. Задать правила перестановки слов для языков с фиксированным порядком слов в предложении, или задать правила грамматического словообразования, дать на вход список с переводом русских слов, и получить на выходе текст на конланге.
Насколько вам будет такая программа интересна? (а то вдруг окажется, что на вашем конланге можно сказать всего несколько фраз ;)
Есть ли пожелания и предложения по формату входящих файлов?
PS А может форумчане уже делали подобную программу?
Что программка будет делать, если ей попадётся морф (http://ru.wikipedia.org/wiki/%D0%9C%D0%BE%D1%80%D1%84%D0%B5%D0%BC%D0%B0), выражающий граммему (http://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B0%D0%BC%D0%BC%D0%B5%D0%BC%D0%B0), которой в языке, на который переводят, нет?
Что программка будет делать, если в языке, на который переводят, есть граммемы, которых в языке-источнике нет?
Решение единственное: переводить не напрямую с языка A на язык Z, а через язык-посредник P, в котором имеется максимально возможное число граммем.
Или хотя бы такой, который представляет из себя сумму граммем языков A и Z с правилами перевода каждой из них, включая те, что не имеются в одном из языков.
По моему, ответ очевиден.
1. Если ей попадётся слово, для которого нет перевода - она оставит слово как есть (захотите - в кавычки возьмёт), а в итоговом результате укажет, что было переведено 99%, а не 100%.
2. Эти слова не понадобятся, если не будут использованы заданными правилами ("школа любви" -> "lernejo de amo", падеж заменён на предлог, несуществующий в русском).
А у вас есть другие предложения?
Цитата: mkizub от апреля 28, 2016, 06:25Если ей попадётся слово, для которого нет перевода
Я не писал «слово». Я писал «морф». Как Вы переведёте, скажем, форму двойственного числа на русский язык, в котором его нет?
Или пересказывательное наклонение? Или эссив какой-нибудь? Так можно дойти до того, что "не переведено" будет процентов 50 текста.
Цитата: mkizub от апреля 28, 2016, 06:25Эти слова не понадобятся, если не будут использованы заданными правилами
И по каким правилам будут, например, расставляться артикли? Или рематические частицы типа японской
wa?
В русском языке ведь ни одно слово не будет указывать на их присутствие.
Цитата: Bhudh от апреля 28, 2016, 07:28
Как Вы переведёте, скажем, форму двойственного числа на русский язык, в котором его нет?
И по каким правилам будут, например, расставляться артикли? Или рематические частицы типа японской wa?
В русском языке ведь ни одно слово не будет указывать на их присутствие.
1. Никак. Пока речь идёт о переводе размеченного корпуса русского языка на конланг, а не на русский язык. Речь идёт о полноте конланга, а не русского языка. Когда у меня будет достаточно полная знаковая система - я озабочусь и обратной задачей, но не сейчас.
2. Я же написал - по заданным составителем конланга. Привел пример с падежом. Если автор конланга сможет формализовать использование артикля - так и будет использоваться. Телепатического блока в этом переводчике не будет, узнать (из контекста?) степень вежливости обращения - не его задача.
Это простой инструмент, который позволяет оценить мощность конлага (уровень покрытия текста). Увидеть кучу слов/понятий, которые не выражены на конланге. Это не переводчик с полным пониманием текста и искусственным интеллектом. Не вешайте на него свои проекции.
Цитата: mkizub от апреля 28, 2016, 08:06Это простой инструмент, который позволяет оценить мощность конлага (уровень покрытия текста).
В чём его отличие от простого словаря в таком случае?
P. S. Частица
wa не имеет отношения к степеням вежливости.
Цитата: Bhudh от апреля 28, 2016, 08:14
Цитата: mkizub от апреля 28, 2016, 08:06Это простой инструмент, который позволяет оценить мощность конлага (уровень покрытия текста).
В чём его отличие от простого словаря в таком случае?
P. S. Частица wa не имеет отношения к степеням вежливости.
Чем подстрочный перевод отличается от словаря, стоящего на полке? Выполнением рутинной части работы, которую может сделать компьютер, чтоб помочь человеку.
И я не смотрел в словарь про wa. Какая разница на что употреблять телепатический блок кода - главное, что его пока не предвидится.
Цитата: mkizub от апреля 28, 2016, 09:28Чем подстрочный перевод отличается от словаря, стоящего на полке?
Явно не степенью оценки мощности уровня покрытия текста.
Bhudh вам такая программа нужна? Судя по всему - нет. Зачем вы тратите своё и моё время?