Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Переводчик с русского на ваш конланг

Автор mkizub, апреля 27, 2016, 19:36

0 Пользователи и 1 гость просматривают эту тему.

mkizub

Приветствую.

В связи с работой над знаковой системой для разных языков, у меня образовалась программка, которая берёт на вход текст на русском языке и может выдать на выходе перекодированный текст. На вход ей подаётся размеченный текст (я сейчас беру размеченный текст из http://opencorpora.org со снятой омонимией), список морфем (символов) и список перекодировки русских слов в означенные морфемы (символы). Например, для морфем

ir      # идти
-ant- ПРИЧ.
-i      ГЛАГОЛ
-a     ПРИЛАГАТЕЛЬНОЕ
-o     СУЩЕСТВИТЕЛЬНОЕ
-j      МНОЖЕСТВЕННОЕ ЧИСЛО

и правила

идти   ir|i

оно переведёт (размеченное) слово "идущие" как ir-ant-a-j (поскольку его грамматические аттрибуты известны из разметки), ну и заодно подсчитает как часто используются те или иные знаки (буквы, иероглифы и пр.) и какой процент удалось перевести.

Собственно, если поработать над этим инструментом дальше, то можно сделать (полу)автоматический переводчик с русского на несложный конланг. Задать правила перестановки слов для языков с фиксированным порядком слов в предложении, или задать правила грамматического словообразования, дать на вход список с переводом русских слов, и получить на выходе текст на конланге.

Насколько вам будет такая программа интересна? (а то вдруг окажется, что на вашем конланге можно сказать всего несколько фраз ;)
Есть ли пожелания и предложения по формату входящих файлов?


PS А может форумчане уже делали подобную программу?

Bhudh

Что программка будет делать, если ей попадётся морф, выражающий граммему, которой в языке, на который переводят, нет?
Что программка будет делать, если в языке, на который переводят, есть граммемы, которых в языке-источнике нет?

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

mkizub

По моему, ответ очевиден.
1. Если ей попадётся слово, для которого нет перевода - она оставит слово как есть (захотите - в кавычки возьмёт), а в итоговом результате укажет, что было переведено 99%, а не 100%.
2. Эти слова не понадобятся, если не будут использованы заданными правилами ("школа любви" -> "lernejo de amo", падеж заменён на предлог, несуществующий в русском).

А у вас есть другие предложения?

Bhudh

Цитата: mkizub от апреля 28, 2016, 06:25Если ей попадётся слово, для которого нет перевода
Я не писал «слово». Я писал «морф». Как Вы переведёте, скажем, форму двойственного числа на русский язык, в котором его нет?
Или пересказывательное наклонение? Или эссив какой-нибудь? Так можно дойти до того, что "не переведено" будет процентов 50 текста.

Цитата: mkizub от апреля 28, 2016, 06:25Эти слова не понадобятся, если не будут использованы заданными правилами
И по каким правилам будут, например, расставляться артикли? Или рематические частицы типа японской wa?
В русском языке ведь ни одно слово не будет указывать на их присутствие.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

mkizub

Цитата: Bhudh от апреля 28, 2016, 07:28
Как Вы переведёте, скажем, форму двойственного числа на русский язык, в котором его нет?

И по каким правилам будут, например, расставляться артикли? Или рематические частицы типа японской wa?
В русском языке ведь ни одно слово не будет указывать на их присутствие.
1. Никак. Пока речь идёт о переводе размеченного корпуса русского языка на конланг, а не на русский язык. Речь идёт о полноте конланга, а не русского языка. Когда у меня будет достаточно полная знаковая система - я озабочусь и обратной задачей, но не сейчас.
2. Я же написал - по заданным составителем конланга. Привел пример с падежом. Если автор конланга сможет формализовать использование артикля - так и будет использоваться. Телепатического блока в этом переводчике не будет, узнать (из контекста?) степень вежливости обращения - не его задача.

Это простой инструмент, который позволяет оценить мощность конлага (уровень покрытия текста). Увидеть кучу слов/понятий, которые не выражены на конланге. Это не переводчик с полным пониманием текста и искусственным интеллектом. Не вешайте на него свои проекции.

Bhudh

Цитата: mkizub от апреля 28, 2016, 08:06Это простой инструмент, который позволяет оценить мощность конлага (уровень покрытия текста).
В чём его отличие от простого словаря в таком случае?

P. S. Частица wa не имеет отношения к степеням вежливости.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

mkizub

Цитата: Bhudh от апреля 28, 2016, 08:14
Цитата: mkizub от апреля 28, 2016, 08:06Это простой инструмент, который позволяет оценить мощность конлага (уровень покрытия текста).
В чём его отличие от простого словаря в таком случае?

P. S. Частица wa не имеет отношения к степеням вежливости.

Чем подстрочный перевод отличается от словаря, стоящего на полке? Выполнением рутинной части работы, которую может сделать компьютер, чтоб помочь человеку.

И я не смотрел в словарь про wa. Какая разница на что употреблять телепатический блок кода - главное, что его пока не предвидится.

Bhudh

Цитата: mkizub от апреля 28, 2016, 09:28Чем подстрочный перевод отличается от словаря, стоящего на полке?
Явно не степенью оценки мощности уровня покрытия текста.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

mkizub

Bhudh вам такая программа нужна? Судя по всему - нет. Зачем вы тратите своё и моё время?

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр