Author Topic: [ПлачЪ] румынская кириллица и юникод.  (Read 24496 times)

0 Members and 1 Guest are viewing this topic.

Online Hellerick

  • Posts: 28632
  • Gender: Male
ТеХовская разметка громоздковата, как и htmlевская.

Ну, можно определить, что после того, как была введена метка \cyr, любой текст в фигурных скобках будет интерпретироваться как кириллица, пока не будет введена новая метка. Типа такого:

Code: [Select]
Russian:
\cyr{koshka} = cat
{sobaka} = dog
{xomyachok} = evil monster

Japanese:
\hir{neko} = cat
{inu} = dog

Так что получится негромоздко.

Каждой системе письменности полагается иметь свой код и правила интерпретации его параметров. Желательно, чтобы эти правила были максимально подобны друг другу.

Offline Python

  • Posts: 41869
  • Gender: Male
  • Aluarium agent
\cyr{simvol}
&@cyr;

ТеХовская разметка громоздковата
:what:
Изначально задумывалось как набор виртуальных символов-переключателей, дополняющих html - отсюда и форма &....;
В html подобным образом кодируется отдельный символ, что для текста, полностью состоящего из таких символов, неудобно. ТеХ ближе к идеалу, но блочная структура имеет смысл лишь при вложении (что в нашем случае не требуется).
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Offline Bhudh

  • Posts: 57165
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Число символов одынакое…
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Demetrius

  • Posts: 12390
  • Бес джинн фея колдунчик
Я бы скорее коды для языков. Два очевидных плюса:
  • cyr сложно будет сделать одновременно и универсальной, и интуитивной для русского, белорусского и украинского (хотя бы i, y, ye);
  • можно будет делать преобразователи в нужную кодировку (так, Валентин В. сможет в \rus{} выводить его странную письменность, а Олег Гром сможет заставить \rum{} выводить сабж).; хотя при этом должен быть эталонный конвертор, который для \rus выводит кириллицу, а для \rum—латиницу.

    Да, мороки больше, и, по-хорошему, можно бы и комбинировать эти два подхода как-нибудь...
«Честного не жди слова, // Я тебя предам снова»

Offline Python

  • Posts: 41869
  • Gender: Male
  • Aluarium agent
Quote
Я бы скорее коды для языков.
Собственно, я для языков ее и делал. Хотя эту систему можно приспособить для чего-угодно — и для отдельных языков, и для обобщенных графических систем, типа кириллицы или расширенной латиницы.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Online Hellerick

  • Posts: 28632
  • Gender: Male
Я бы скорее коды для языков.

Проблема в том, что языки придется указывать вручную.
Появится в английском тексте одинокая кириллическая «Ш», и гадай, какой тут код ставить.

Можно сделать аргументы, изменяющие интерепретицию символов в зивисимости от языка (ну, я там не знаю, \cyr\ua{lis}, например). В частности, это помогло бы указывать национальные варианты символов, например, разницу между китайскими и японскими иероглифами.

Offline Python

  • Posts: 41869
  • Gender: Male
  • Aluarium agent
Quote
Появится в английском тексте одинокая кириллическая «Ш», и гадай, какой тут код ставить.
Обычно американцы не отличают кириллицу от русского алфавита.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Offline Demetrius

  • Posts: 12390
  • Бес джинн фея колдунчик
Появится в английском тексте одинокая кириллическая «Ш», и гадай, какой тут код
ставить.
а) Во-первых, такие случаи сравнительно редки. Обычно всё-таки язык известен.
б) Даже одинокая кириллическая ш может выглядеть по-разному, если она курсивная. Язык не будет лишним.

А вообще, я предлагаю комбинировать подходы:
\eng{The letter <i>\cyrl{sh}</i> is usually trasncribed...} (если речь именно о кириллице)

\eng{The word <i>\bel{kachan'nie...}</i>...} (может быть отображено и кириллицей, и латиницей, в зависимости от предпочтений читателя)

Да, проблема будет с WYSIWIG-редакторами и конверторами из уникода в наш код. Но, с другой стороны, в старых кодировках была проблема с кодированием беты и эсцета одинаково—и ничего, вручную-таки правили.

Ну, и при автоматической конвератции можно всего использовать \cyrl{} и не мучаться.
«Честного не жди слова, // Я тебя предам снова»

Offline Python

  • Posts: 41869
  • Gender: Male
  • Aluarium agent
Quote
Но, с другой стороны, в старых кодировках была проблема с кодированием беты и эсцета одинаково—и ничего, вручную-таки правили.
Можно и автоматизировать. Например, если рядом с «бетой» стоит латинская буква, то это ß, иначе — β. Впрочем, там еще загвоздка с математическими формулами, в которых ß не бывает...
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Offline Квас

  • Posts: 9530
  • Gender: Male
    • Международный ЛФ
(ну, я там не знаю, \cyr\ua{lis}, например)

Или \сyr[ua]{lis}.

Транслит — это очень классный способ хранения текста (например, beta code тот же). Обработку и вывод тоже можно сделать какие угодно (например, сделать для ТеХа шрифты с поддержкой румынских письмён и ваять прекрасные документы). Но писать транслитом? :o
Пишите письма! :)

Offline Demetrius

  • Posts: 12390
  • Бес джинн фея колдунчик
Ах, да, мне видится такая система. Каждый шрифт—программный модуль (типа DLL/shared library). Функции довольно низкоуровневые (получить выосоту для строки, отрисовать строку...). Это позволит потом дополнять систему египетскими иероглифами, например, без внесения существенных изменений.
«Честного не жди слова, // Я тебя предам снова»

Но писать транслитом?
А в чём собственно проблема? Не Вы ли предлагали Тойво писать тайский транслитом?
«Честного не жди слова, // Я тебя предам снова»

Offline Тайльнемер

  • Posts: 12736
  • Σοι υν βυρρο. Ix bin æn ézl
Каждый шрифт—программный модуль (типа DLL/shared library)
Появятся шрифтовирусы…

Offline Искандер

  • Posts: 19347
  • Gender: Male
  • звезду, кому звезду!
Вообще, я думаю, нужно делать не Юникод, а «язык универсальной разметки символов», который позволит в ASCII строках кодировать любые символы. В том числе и средствами стандартизированной транслитерации. Например, слово «символ» могло бы в нем кодироваться как «\cyr{simvol}».
Это не интересно. Такая разметка у каждого будет своя. Мне, например, было бы удобнее кодировать иероглифы кродами ЦанЦзе (например, \cj{hqi bbpe ino}), а кому-то будет удобнее что-то другое...
Так а **** *** вы **********???
Сделаймы стандарт, поддерживающий несколько различных более-менее стандартных способов, команд, транслитов. А в расширение вбубениваем либо как в тексе -- пользовательские подлючамые пакеты, либо настраиваемый компилятор, выдающий на ваш подогнанный под личные выпендрёжи код нормальный стандартный код.
"Niech żyją POLACY!! Ponieważ polacy są rasej nadczłowieków. Od nich jest przyszłość planety. Oni przeżyją nawet wojną atomowę, dlatego, że polacy są wieczni, bo chtoniczni. I dadzą potomstwo, które też będzie polakami i polkami. Niech żyjemy, hura!.." (c) Awwal12

Offline Oleg Grom

  • Blogger
  • *
  • Posts: 13038
Ах, да, мне видится такая система. Каждый шрифт—программный модуль (типа DLL/shared library).
И сделать шревты платформозависимыми? Нафиг, нафиг!!!

Online Hellerick

  • Posts: 28632
  • Gender: Male
(может быть отображено и кириллицей, и латиницей, в зависимости от предпочтений читателя)

Не дай бог! Что это за кодировка такая, если она не обеспечивает однозначного перевода своего кода в строку символов, а начинает изучать «предпочтения читателей»?

Offline Искандер

  • Posts: 19347
  • Gender: Male
  • звезду, кому звезду!
Короче оптимальный вариант -- сношать почту Юникода.
Они на потыкивания от частных лиц как, интересно,-- реагируют?
"Niech żyją POLACY!! Ponieważ polacy są rasej nadczłowieków. Od nich jest przyszłość planety. Oni przeżyją nawet wojną atomowę, dlatego, że polacy są wieczni, bo chtoniczni. I dadzą potomstwo, które też będzie polakami i polkami. Niech żyjemy, hura!.." (c) Awwal12

Offline Python

  • Posts: 41869
  • Gender: Male
  • Aluarium agent
Ах, да, мне видится такая система. Каждый шрифт—программный модуль (типа DLL/shared library).
И сделать шревты платформозависимыми? Нафиг, нафиг!!!
+1.
Средства отображения символов должны быть портабельными. И еще было бьі неплохо дополнить их неким глобальным репозиторием, из которого автоматически подгружались бы отсутствующие в системе шрифты, таблицы транслитерации и т.п.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Offline Искандер

  • Posts: 19347
  • Gender: Male
  • звезду, кому звезду!
Каждой системе письменности полагается иметь свой код и правила интерпретации его параметров. Желательно, чтобы эти правила были максимально подобны друг другу.
можно использовать языковые коды тупо. А уж для конкретного языка всегда можно соорудить единые непротиворечивые правила.
"Niech żyją POLACY!! Ponieważ polacy są rasej nadczłowieków. Od nich jest przyszłość planety. Oni przeżyją nawet wojną atomowę, dlatego, że polacy są wieczni, bo chtoniczni. I dadzą potomstwo, które też będzie polakami i polkami. Niech żyjemy, hura!.." (c) Awwal12

Offline Bhudh

  • Posts: 57165
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию


lang:rus vs lang:srp
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Квас

  • Posts: 9530
  • Gender: Male
    • Международный ЛФ
Но писать транслитом?
А в чём собственно проблема? Не Вы ли предлагали Тойво писать тайский транслитом?

Когда привыкаешь к графической системе так, что она «в крови», пользоваться транслитом — издевательство. Например, русский транслит не выношу. Несколько другой пример — математика в ТеХе: как известно, этот typesetting engine позволяет высококлассно набирать формулы, но в исходном коде они абсолютно нечитаемы (если речь о чём-то более сложном, чем a+b=c). Поэтому приходится либо смириться с тем, что работаешь вслепую, либо искать другие решения: например, редакторы, которые обеспечивают визуальный ввод формул.

С Тойво так: я не думаю, что тайскую письменность он собирается осваивать на уровне русской и даже вряд ли на уровне английской; набирать же наверняка приходится только пару слов раз в пятилетку. В такой ситуации транслит уместен. Кроме того, мой скрипт позволяет получать аутпут одновременно с печатанием.
Пишите письма! :)

Язык важен для внешнего вида символов: ещё один пример — умлауты в немецком сидят сравнительно низко.

Есть ещё всякие типографские конвенции, которые неплохо бы учитывать: например, в режиме французского языка TeX автоматически использует French spacing.
Пишите письма! :)

Online Hellerick

  • Posts: 28632
  • Gender: Male
Когда привыкаешь к графической системе так, что она «в крови», пользоваться транслитом — издевательство.

Лично я подразумевал, что обычная работа с текстом должна быть в WYSIWYG режиме, с привычными для вашей крови системами ввода.

Транслитный же код будет позволять редактировать текст в том числе и в случае технической недоступности специфических шрифтов, IME и интерпретаторов Лингвокода.

Offline Квас

  • Posts: 9530
  • Gender: Male
    • Международный ЛФ
Если дело касается русского или даже древнегреческого с политоникой, то проблем нет: WYSIWYG или нет, но благодаря юникоду есть возможность видеть текст как он есть.

А если юникод не помогает, как в случае с сабжем или церковнославянским? Для последнего HIP является опробованной и всех устраивающей кодировкой; можно представить, что HIP-текст красиво обрабатывается для вывода на печать (что действительно можно делать в ворде или ТеХе), но работать с исходниками типа
Гд\сь просвjьще'нiе мое` и= сп~си'тель мо'й
как-то не очень.

Для себя я различаю «вводимый текст», «хранимый текст» и «текст для печати». Что делать с «вводимым», если юникод не решение, а хочется видеть перед собой нечто похожее на текст? Наверно, костыли придумывать: например, вводить настоящую ять, которая преобразуется в HIP «jь».
Пишите письма! :)

Offline Demetrius

  • Posts: 12390
  • Бес джинн фея колдунчик
(может быть отображено и кириллицей, и латиницей, в зависимости от предпочтений читателя)

Не дай бог! Что это за кодировка такая, если она не обеспечивает однозначного перевода своего кода в строку символов, а начинает изучать «предпочтения читателей»?
Никакая не обеспечивает. Что значит &laquo;однозначного&raquo;? Уникод вон, как Bhudh показал, неоднозначен. Более того, даже такая банальная вещь, как e с &laquo;огоньком&raquo; (как там его правильно положено называть?) по-разному должна выглядеть в польском и средневековой латыни (читал в описании какого-то шрифта, кажется, Junicode или Cardo, не помню). Какая попадется&mdash;зависит только от случая.

А мне кажется, что кодировка, которая позволяет представить себя в нужном виде&mdash;правильная кодировка.
«Честного не жди слова, // Я тебя предам снова»

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: