Транслитерационная латиница-26

Автор Devorator linguarum, марта 4, 2015, 16:04

0 Пользователи и 1 гость просматривают эту тему.

Devorator linguarum

Исходим из такого технического задания. Во-первых, это латиница-26 без диакритик; во-вторых, транслитерационная, т.е. преобразование туда и обратно должно происходить простой заменой букв без учета позиционной составляющей; в-третьих, все это должно выглядеть более-менее естественно, не перегружено диграфами и вообще читабельно.

а = a
б = b
в = v
г = g
д = d
е = e
ж = zs
з = z
и = i
й= j
к = k
л = l
м = m
н = n
о = o
п = p
р = r
с = s
т = t
у = u
ф = f
х = x
ц = c
ч = cz
ш = sz
щ = zc
ъ = q
ы = hi
ь = y
э = he
ю = yu
я = ya

Czto vhi dumaete ob takoj sisteme? Reszaet li ona postavlennuyu zadaczu? Naskolyko legko czitaetsya? Po hekonomicznosti, po-moemu, luczsze i prozce hetoj latinichi sdelaty trudno.

Тайльнемер

Цитата: Devorator linguarum от марта  4, 2015, 16:04
Reszaet li ona postavlennuyu zadaczu?
Net:
Цитата: Devorator linguarum от марта  4, 2015, 16:04
преобразование туда и обратно должно происходить простой заменой букв без учета позиционной составляющей
Obratnoe preobrazovanie zagnetsya na digrafax.

Цитата: Devorator linguarum от марта  4, 2015, 16:04
Naskolyko legko czitaetsya?
Bolee-menee.

Цитата: Devorator linguarum от марта  4, 2015, 16:04
Po hekonomicznosti, po-moemu, luczsze i prozce hetoj latinichi sdelaty trudno.
Sravnimhix bhilo mnogo.


Тайльнемер

Диграфы с буквой h (ч = ch, ш = sh, ж = zh) и выглядят привычнее и обеспечат однозначность.
Для щ можно придумать что-нибудь типа xh — это плохо, но не хуже предложенного zc, как мне кажется.

С ya, yu тоже надо что-то сделать.
Для однозначности преобразований и экономии хорошим вариантом будет:
ы = ih
э = eh
ю = uh
я = ah

Но с точки зрения удобочитаемости, правда, не очень.

Devorator linguarum

Цитата: Тайльнемер от марта  4, 2015, 16:25
Диграфы с буквой h (ч = ch, ш = sh, ж = zh) и выглядят привычнее и обеспечат однозначность.
Для щ можно придумать что-нибудь типа xh — это плохо, но не хуже предложенного zc, как мне кажется.
Pozhaluj, da. Mne voobxhe-to xotelosy exhe ujti ot chrezmernoj anglizacii, no v sochetanii sz, k sozhaleniyu, dejstvitelyno obrazuyutsya neodnoznachnosti.


Цитата: Тайльнемер от марта  4, 2015, 16:25
С ya, yu тоже надо что-то сделать.
Для однозначности преобразований и экономии хорошим вариантом будет:
ы = ih
э = eh
ю = uh
я = ah

Но с точки зрения удобочитаемости, правда, не очень.
Ya, yu, po-moemu, vpolne prigodnwi, t.k. v russkom yazwike йа, йу nikogda ne pishetsya. A na meste э i ы mozhno togda pisaty we i wi, chtobwi ne poluchalosy yazhik = ? яжик.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Devorator linguarum



Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Тайльнемер

Цитата: Devorator linguarum от марта  4, 2015, 17:15
Ya, yu, po-moemu, vpolne prigodnwi, t.k. v russkom yazwike йа, йу nikogda ne pishetsya.
Кстати, ya, yu — это не йа, йу, а ьа, ьу.
Да, не пишутся, но если уж задаться целью обратимости, то лучше такое не оставлять.

Bhudh

Главный принцип был изложен ещё тогда:
Цитата: Bhudh от сентября 19, 2012, 23:4726-ую использовать в качестве элемента (левого или правого — неважно, желательно только, чтобы везде одинаково)
1) То есть 1 букву не использовать нигде, кроме как в диграфах, иначе она будет неоднозначна при обратной транслитерации;
2) Диграфы с ней должны быть однонаправленны, чтобы не возникало
Цитата: Devorator linguarum от марта  4, 2015, 17:15yazhik = ? яжик.
То есть нужна однозначность при встрече диграфов.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Ыняша

Для простой машинной взаимно обратной транслитерации нужны 33 различных символа или сочетаний символов, причём ни один символ в сочетании не должен быть префиксом (постфиксом) в другом.
Количество символов / сочетаний можно оптимизировать.
Мой номер на ЛФ #43854 — ура, я чётник! Чётники лучше нечётников.
С точностью до полпроцента в нановеке — пи секунд.

Bhudh

Если надо, чтобы все 1056 русских двубуквосочетаний однозначно транслитерировались туда-обратно, оптимизации чреваты.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Ыняша

Покуда выполняется префиксальность — пофиг. Это необходимое и достаточное условие :3
Оптимизация влияет только на общую длину сообщения и алфавита.
Можно дать каждому русскому символу в соответствие английский, тогда большой алфавит.
Можно записать нулями и единицами — тогда длинное сообщение.

Оптимизировать код по частотности можно Хаффманом, например. Я когда-то на теории информации писал эти кодировщики.
Мой номер на ЛФ #43854 — ура, я чётник! Чётники лучше нечётников.
С точностью до полпроцента в нановеке — пи секунд.

Ыняша

И да, можно кодировать блоками по два (и больше) русских символа, на сколько это будет выгоднее — надо считать. Можно делать код с плавающим окном и пересчитывать энтропию после закодированного блока :3 Так поступают архиваторы.
Мой номер на ЛФ #43854 — ура, я чётник! Чётники лучше нечётников.
С точностью до полпроцента в нановеке — пи секунд.

Wolliger Mensch

«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest


Bhudh

Цитата: Wolliger Mensch от марта  4, 2015, 20:00vie
Цитата: Wolliger Mensch от марта  4, 2015, 20:00aje
Обозначение одной и той же самой частотной буквы двумя различными диграфами — это ещё тот велосипед. Большегрузный, прямо скажем.

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Wolliger Mensch

Цитата: Bhudh от марта  4, 2015, 21:18
Цитата: Wolliger Mensch от марта  4, 2015, 20:00vie
Цитата: Wolliger Mensch от марта  4, 2015, 20:00aje
Обозначение одной и той же самой частотной буквы двумя различными диграфами — это ещё тот велосипед. Большегрузный, прямо скажем.

Ja uzhe mnogokratno opiysyval prieymushiestva y niedostatky svojej piysimiennostiy. Chto vy yz siebia celomudrienniycu tut yzobrazhajetie? :no:
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

Ыняша

Вот у WM не префиксальный и не оптимальный код :3

Хотя, наверное он ужэ описывал это в недостаткых.
Мой номер на ЛФ #43854 — ура, я чётник! Чётники лучше нечётников.
С точностью до полпроцента в нановеке — пи секунд.

Toman

Цитата: Bhudh от марта  4, 2015, 21:18
Обозначение одной и той же самой частотной буквы двумя различными диграфами — это ещё тот велосипед. Большегрузный, прямо скажем.
Можно обозначать и одним диграфом - ie. Одной буквой, конечно, тоже можно - но будет смотреться как-то совсем уж по-казахски. То, что наша кириллица выглядит по-казахски, мы как бы уже привыкли, но в латинице никто ни из славян, ни из балтов, вроде, таким не занимается. И вообще, это нарушит логичность и простоту. Так что диграф неизбежен.
Во́зле до́ма хо́лм с куля́ми - вы́йду на́ холм, ку́ль поставлю.
В славном городе Miami тётки мерялись ногтями, тик иң озын завсегда у Фиделя борода!

Karakurt


Toman

А вот совсем лютый вариант, по приколу:
A B BH G D IE IO ZH Z Y IH K L M N O P R S T V F X C CH SH SHH VHH VH YH E IV IA
Во́зле до́ма хо́лм с куля́ми - вы́йду на́ холм, ку́ль поставлю.
В славном городе Miami тётки мерялись ногтями, тик иң озын завсегда у Фиделя борода!

Toman

Цитата: Karakurt от марта  4, 2015, 23:41
Вы о чем? И рус. и каз. "е" по факту [je] ?
Вот именно об этом! При этом казахская начальная "е" соответствует нейотированной "е" в остальных стандартнотюркских языках (где нет перебоя гласных), поэтому её хоть в кириллице, хоть в латинице естественно писать одной буквой, притом одинаково выглядящей в обоих алфавитах. В славянских как-то тотально произошло аналогичное явление, но все латинописьменные славяне йот выписывают явным образом, а нейотирующих близких родственников вроде как не осталось. Поэтому невыписывание йота сделает такую латиницу нетипично-читаемой среди других славянских - подобно именно нетипично-читаемому казахскому среди других стандартнотюркских.
Во́зле до́ма хо́лм с куля́ми - вы́йду на́ холм, ку́ль поставлю.
В славном городе Miami тётки мерялись ногтями, тик иң озын завсегда у Фиделя борода!

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр