Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

[ПлачЪ] румынская кириллица и юникод.

Автор Oleg Grom, октября 8, 2011, 22:34

0 Пользователи и 1 гость просматривают эту тему.

Hellerick

Цитата: Python от октября 15, 2011, 15:25
ТеХовская разметка громоздковата, как и htmlевская.

Ну, можно определить, что после того, как была введена метка \cyr, любой текст в фигурных скобках будет интерпретироваться как кириллица, пока не будет введена новая метка. Типа такого:


Russian:
\cyr{koshka} = cat
{sobaka} = dog
{xomyachok} = evil monster

Japanese:
\hir{neko} = cat
{inu} = dog


Так что получится негромоздко.

Каждой системе письменности полагается иметь свой код и правила интерпретации его параметров. Желательно, чтобы эти правила были максимально подобны друг другу.

Python

Цитата: Bhudh от октября 15, 2011, 15:49
Цитата: Hellerick от \cyr{simvol}
Цитата: Python от &@cyr;

Цитата: Python от ТеХовская разметка громоздковата
:what:
Изначально задумывалось как набор виртуальных символов-переключателей, дополняющих html - отсюда и форма &....;
В html подобным образом кодируется отдельный символ, что для текста, полностью состоящего из таких символов, неудобно. ТеХ ближе к идеалу, но блочная структура имеет смысл лишь при вложении (что в нашем случае не требуется).
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Demetrius

Я бы скорее коды для языков. Два очевидных плюса:
  • cyr сложно будет сделать одновременно и универсальной, и интуитивной для русского, белорусского и украинского (хотя бы i, y, ye);
  • можно будет делать преобразователи в нужную кодировку (так, Валентин В. сможет в \rus{} выводить его странную письменность, а Олег Гром сможет заставить \rum{} выводить сабж).; хотя при этом должен быть эталонный конвертор, который для \rus выводит кириллицу, а для \rum—латиницу.

    Да, мороки больше, и, по-хорошему, можно бы и комбинировать эти два подхода как-нибудь...

Python

ЦитироватьЯ бы скорее коды для языков.
Собственно, я для языков ее и делал. Хотя эту систему можно приспособить для чего-угодно — и для отдельных языков, и для обобщенных графических систем, типа кириллицы или расширенной латиницы.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Hellerick

Цитата: Demetrius от октября 15, 2011, 16:29Я бы скорее коды для языков.

Проблема в том, что языки придется указывать вручную.
Появится в английском тексте одинокая кириллическая «Ш», и гадай, какой тут код ставить.

Можно сделать аргументы, изменяющие интерепретицию символов в зивисимости от языка (ну, я там не знаю, \cyr\ua{lis}, например). В частности, это помогло бы указывать национальные варианты символов, например, разницу между китайскими и японскими иероглифами.

Python

ЦитироватьПоявится в английском тексте одинокая кириллическая «Ш», и гадай, какой тут код ставить.
Обычно американцы не отличают кириллицу от русского алфавита.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Demetrius

Цитата: Hellerick от октября 15, 2011, 16:34
Появится в английском тексте одинокая кириллическая «Ш», и гадай, какой тут код
ставить.
а) Во-первых, такие случаи сравнительно редки. Обычно всё-таки язык известен.
б) Даже одинокая кириллическая ш может выглядеть по-разному, если она курсивная. Язык не будет лишним.

А вообще, я предлагаю комбинировать подходы:
\eng{The letter <i>\cyrl{sh}</i> is usually trasncribed...} (если речь именно о кириллице)

\eng{The word <i>\bel{kachan'nie...}</i>...} (может быть отображено и кириллицей, и латиницей, в зависимости от предпочтений читателя)

Да, проблема будет с WYSIWIG-редакторами и конверторами из уникода в наш код. Но, с другой стороны, в старых кодировках была проблема с кодированием беты и эсцета одинаково—и ничего, вручную-таки правили.

Ну, и при автоматической конвератции можно всего использовать \cyrl{} и не мучаться.

Python

ЦитироватьНо, с другой стороны, в старых кодировках была проблема с кодированием беты и эсцета одинаково—и ничего, вручную-таки правили.
Можно и автоматизировать. Например, если рядом с «бетой» стоит латинская буква, то это ß, иначе — β. Впрочем, там еще загвоздка с математическими формулами, в которых ß не бывает...
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Квас

Цитата: Hellerick от октября 15, 2011, 16:34
(ну, я там не знаю, \cyr\ua{lis}, например)

Или \сyr[ua]{lis}.

Транслит — это очень классный способ хранения текста (например, beta code тот же). Обработку и вывод тоже можно сделать какие угодно (например, сделать для ТеХа шрифты с поддержкой румынских письмён и ваять прекрасные документы). Но писать транслитом? :o
Пишите письма! :)

Demetrius

Ах, да, мне видится такая система. Каждый шрифт—программный модуль (типа DLL/shared library). Функции довольно низкоуровневые (получить выосоту для строки, отрисовать строку...). Это позволит потом дополнять систему египетскими иероглифами, например, без внесения существенных изменений.

Demetrius

Цитата: Квас от октября 15, 2011, 16:47
Но писать транслитом?
А в чём собственно проблема? Не Вы ли предлагали Тойво писать тайский транслитом?

Тайльнемер


Искандер

Цитата: Demetrius от октября 15, 2011, 15:58
Цитата: Hellerick от октября 15, 2011, 15:22
Вообще, я думаю, нужно делать не Юникод, а «язык универсальной разметки символов», который позволит в ASCII строках кодировать любые символы. В том числе и средствами стандартизированной транслитерации. Например, слово «символ» могло бы в нем кодироваться как «\cyr{simvol}».
Это не интересно. Такая разметка у каждого будет своя. Мне, например, было бы удобнее кодировать иероглифы кродами ЦанЦзе (например, \cj{hqi bbpe ino}), а кому-то будет удобнее что-то другое...
Так а **** *** вы **********???
Сделаймы стандарт, поддерживающий несколько различных более-менее стандартных способов, команд, транслитов. А в расширение вбубениваем либо как в тексе -- пользовательские подлючамые пакеты, либо настраиваемый компилятор, выдающий на ваш подогнанный под личные выпендрёжи код нормальный стандартный код.
"Niech żyją POLACY!! Ponieważ polacy są rasej nadczłowieków. Od nich jest przyszłość planety. Oni przeżyją nawet wojną atomowę, dlatego, że polacy są wieczni, bo chtoniczni. I dadzą potomstwo, które też będzie polakami i polkami. Niech żyjemy, hura!.." (c) Awwal12

Oleg Grom

Цитата: Demetrius от октября 15, 2011, 16:48
Ах, да, мне видится такая система. Каждый шрифт—программный модуль (типа DLL/shared library).
И сделать шревты платформозависимыми? Нафиг, нафиг!!!

Hellerick

Цитата: Demetrius от октября 15, 2011, 16:43
(может быть отображено и кириллицей, и латиницей, в зависимости от предпочтений читателя)

Не дай бог! Что это за кодировка такая, если она не обеспечивает однозначного перевода своего кода в строку символов, а начинает изучать «предпочтения читателей»?

Искандер

Короче оптимальный вариант -- сношать почту Юникода.
Они на потыкивания от частных лиц как, интересно,-- реагируют?
"Niech żyją POLACY!! Ponieważ polacy są rasej nadczłowieków. Od nich jest przyszłość planety. Oni przeżyją nawet wojną atomowę, dlatego, że polacy są wieczni, bo chtoniczni. I dadzą potomstwo, które też będzie polakami i polkami. Niech żyjemy, hura!.." (c) Awwal12

Python

Цитата: Oleg Grom от октября 15, 2011, 17:03
Цитата: Demetrius от октября 15, 2011, 16:48
Ах, да, мне видится такая система. Каждый шрифт—программный модуль (типа DLL/shared library).
И сделать шревты платформозависимыми? Нафиг, нафиг!!!
+1.
Средства отображения символов должны быть портабельными. И еще было бьі неплохо дополнить их неким глобальным репозиторием, из которого автоматически подгружались бы отсутствующие в системе шрифты, таблицы транслитерации и т.п.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Искандер

Цитата: Hellerick от октября 15, 2011, 16:03
Каждой системе письменности полагается иметь свой код и правила интерпретации его параметров. Желательно, чтобы эти правила были максимально подобны друг другу.
можно использовать языковые коды тупо. А уж для конкретного языка всегда можно соорудить единые непротиворечивые правила.
"Niech żyją POLACY!! Ponieważ polacy są rasej nadczłowieków. Od nich jest przyszłość planety. Oni przeżyją nawet wojną atomowę, dlatego, że polacy są wieczni, bo chtoniczni. I dadzą potomstwo, które też będzie polakami i polkami. Niech żyjemy, hura!.." (c) Awwal12

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Квас

Цитата: Demetrius от октября 15, 2011, 16:49
Цитата: Квас от октября 15, 2011, 16:47Но писать транслитом?
А в чём собственно проблема? Не Вы ли предлагали Тойво писать тайский транслитом?

Когда привыкаешь к графической системе так, что она «в крови», пользоваться транслитом — издевательство. Например, русский транслит не выношу. Несколько другой пример — математика в ТеХе: как известно, этот typesetting engine позволяет высококлассно набирать формулы, но в исходном коде они абсолютно нечитаемы (если речь о чём-то более сложном, чем a+b=c). Поэтому приходится либо смириться с тем, что работаешь вслепую, либо искать другие решения: например, редакторы, которые обеспечивают визуальный ввод формул.

С Тойво так: я не думаю, что тайскую письменность он собирается осваивать на уровне русской и даже вряд ли на уровне английской; набирать же наверняка приходится только пару слов раз в пятилетку. В такой ситуации транслит уместен. Кроме того, мой скрипт позволяет получать аутпут одновременно с печатанием.
Пишите письма! :)

Квас

Язык важен для внешнего вида символов: ещё один пример — умлауты в немецком сидят сравнительно низко.

Есть ещё всякие типографские конвенции, которые неплохо бы учитывать: например, в режиме французского языка TeX автоматически использует French spacing.
Пишите письма! :)

Hellerick

Цитата: Квас от октября 15, 2011, 21:43
Когда привыкаешь к графической системе так, что она «в крови», пользоваться транслитом — издевательство.

Лично я подразумевал, что обычная работа с текстом должна быть в WYSIWYG режиме, с привычными для вашей крови системами ввода.

Транслитный же код будет позволять редактировать текст в том числе и в случае технической недоступности специфических шрифтов, IME и интерпретаторов Лингвокода.

Квас

Если дело касается русского или даже древнегреческого с политоникой, то проблем нет: WYSIWYG или нет, но благодаря юникоду есть возможность видеть текст как он есть.

А если юникод не помогает, как в случае с сабжем или церковнославянским? Для последнего HIP является опробованной и всех устраивающей кодировкой; можно представить, что HIP-текст красиво обрабатывается для вывода на печать (что действительно можно делать в ворде или ТеХе), но работать с исходниками типа
Гд\сь просвjьще'нiе мое` и= сп~си'тель мо'й
как-то не очень.

Для себя я различаю «вводимый текст», «хранимый текст» и «текст для печати». Что делать с «вводимым», если юникод не решение, а хочется видеть перед собой нечто похожее на текст? Наверно, костыли придумывать: например, вводить настоящую ять, которая преобразуется в HIP «jь».
Пишите письма! :)

Demetrius

Цитата: Hellerick от октября 15, 2011, 17:09
Цитата: Demetrius от октября 15, 2011, 16:43
(может быть отображено и кириллицей, и латиницей, в зависимости от предпочтений читателя)

Не дай бог! Что это за кодировка такая, если она не обеспечивает однозначного перевода своего кода в строку символов, а начинает изучать «предпочтения читателей»?
Никакая не обеспечивает. Что значит &laquo;однозначного&raquo;? Уникод вон, как Bhudh показал, неоднозначен. Более того, даже такая банальная вещь, как e с &laquo;огоньком&raquo; (как там его правильно положено называть?) по-разному должна выглядеть в польском и средневековой латыни (читал в описании какого-то шрифта, кажется, Junicode или Cardo, не помню). Какая попадется&mdash;зависит только от случая.

А мне кажется, что кодировка, которая позволяет представить себя в нужном виде&mdash;правильная кодировка.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр