Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Зависимость капитализации от языка в Юникоде

Автор Тайльнемер, февраля 6, 2008, 07:16

0 Пользователи и 1 гость просматривают эту тему.

Тайльнемер

Я знаю только один пример: I (U+0049), i (U+0069), İ (U+0130), ı (U+0131). (если это языки типа турецкого и азербайджанского, тогда пары: İi и Iı, а инече — Ii)
1) Как вам это нравится?
2) Есть ли другие подобные примеры?
3) Что же мешало сделать 6 разных символов: Ii, İi и Iı? Ведь неудобно же, когда неизвестно что на что заменять при смене регистра, пока не выяснишь язык.

O

Цитата: Тайльнемер от февраля  6, 2008, 07:16
1) Как вам это нравится?
Мне это совершенно не нравится, потому что турки, пытающиеся писать по-английски, регулярно впечатывают 'ı' вместо 'i', чем приводят некоторые программы, плохо понимающие «Уникод» в недоумение.
gdy padła granica, pękły więzień bramy,
w ten dzień wyzwolenia: siedemnasty września

Тайльнемер

Цитата: O от февраля  6, 2008, 09:31турки, пытающиеся писать по-английски, регулярно впечатывают 'ı' вместо 'i', чем приводят некоторые программы, плохо понимающие «Уникод» в недоумение.
В каком смысле? Сами вводят не тот символ или так получается после неверной автоматической смены регистра?
Если сами вводят, то чего тут можно ещё ожидать, когда вместо одного символа ставят совсем другой.

Тайльнемер

Другое дело когда программа автоматически считает I и i одной буквой, например, при нечувствительном к регистру поиске, преобразовании uppercase ↔ lowercase и т. п. операциях, что для турецкого языка неприемлимо.

O

Цитата: Тайльнемер от февраля  6, 2008, 13:09
Цитата: O от февраля  6, 2008, 09:31турки, пытающиеся писать по-английски, регулярно впечатывают 'ı' вместо 'i', чем приводят некоторые программы, плохо понимающие «Уникод» в недоумение.

В каком смысле? Сами вводят не тот символ или так получается после неверной автоматической смены регистра?

Сами. Они печатают по-английски на турецкой раскладке и используют клавишу I/ı, которая в раскладке Q — на месте английской I/i. Когда я общался с турком в ICQ одной из прежних версий, мне от него вместо 'i' в английском тексте приходила русская 'э' с тем же кодом 253 по ANSI. Забавно, что в турецкой раскладке Q клавиша İ/i находится на месте русской Э/э.

gdy padła granica, pękły więzień bramy,
w ten dzień wyzwolenia: siedemnasty września

Vertaler

Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному. Подробнее об этом можно почитать тут:

http://wolliger-mensch.livejournal.com/22308.html
Стрч прст в крк и вынь сухим.

O

gdy padła granica, pękły więzień bramy,
w ten dzień wyzwolenia: siedemnasty września

Тайльнемер

Цитата: Vertaler от февраля  6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному
А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Vertaler

Цитата: Тайльнемер от февраля  7, 2008, 14:30
Цитата: Vertaler от февраля  6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному
А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Цитировать1. Не «предлагается», а уже существует в уникоде. Только суть в том, что это не целевая программа Юникода, а вынужденное подстраивание под реальные нужды. А целевая программа Юникода — это раздача таблиц по неким не очень понятным принципам, подразумевающим то ли общность алфавита, то ли ещё что. Плюс, в Юникоде «умные» головы отменили использовавшийся прежде принцип — каждой букве отдельное место в уникоде, теперь же используется совершенно неудобные принцип, по которому буквы с диакритиками образуются при помощи основной буквы и навесной диакритики. При это совершенно не учитывается, что далеко-далеко не все программы поддерживают опентайп, да и создавать опентайпные шрифты несравнимо сложнее, чем простые трутайп.

2. По поводу скриптового принципа: каждой скрипте (вы должны знать, что это такое, иначе объяснять бесполезно) — отдельную таблицу. Сейчас это есть, например, по отношению к латинскому алфавиту и его италийскому предку, — которые разнесены по разным таблицам; с другой стороны, русский и старославянский алфавиты объединены в одной таблице, что не даёт возможности использовать единый шрифт для написания текстов одновременно на современных языках, использующих русский алфавит, и на старославянском, — требуется как минимум два шрифта. То же самое можно сказать, например, о латинской готической скрипте и антикве; о древнегреских скриптах, византийской и современной греческой, которые тоже объединены в одну таблицу, принуждая исследователя исследователя использовать несколько шрифтов. Нужно ли говорить, что это совершенно неудобно.

Что касается турецкого и сербского, то здесь Менш предлагает — таки да, отдельную таблицу, хотя я бы удовольствовался введением букв İi и Iı для турецкого, а для сербского с македонским — введением отдельных п, т, г, б.
Стрч прст в крк и вынь сухим.

AlefZet

Цитата: Vertaler от февраля  6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному.
Чушь!

Ведь это чисто технический вопрос, к языкознанию имеющий отдалённое, чисто опосредованное отношение, выражаемый всего-навсего двоичным (шестнадцетиричным) кодом.

Лучше было бы вообще отвязаться от языков и делать кодировку чисто по графическому принципу, когда это касается алфавитов одного гнезда.
Подобное было в кодировке IBM EBCDIC.

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

AlefZet

Цитата: Vertaler от февраля  7, 2008, 16:17
Цитата: Тайльнемер от февраля  7, 2008, 14:30
Цитата: Vertaler от февраля  6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному
А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Цитировать1. Не «предлагается», а уже существует в уникоде. Только суть в том, что это не целевая программа Юникода, а вынужденное подстраивание под реальные нужды. А целевая программа Юникода — это раздача таблиц по неким не очень понятным принципам, подразумевающим то ли общность алфавита, то ли ещё что. Плюс, в Юникоде «умные» головы отменили использовавшийся прежде принцип — каждой букве отдельное место в уникоде, теперь же используется совершенно неудобные принцип, по которому буквы с диакритиками образуются при помощи основной буквы и навесной диакритики. При это совершенно не учитывается, что далеко-далеко не все программы поддерживают опентайп, да и создавать опентайпные шрифты несравнимо сложнее, чем простые трутайп.

2. По поводу скриптового принципа: каждой скрипте (вы должны знать, что это такое, иначе объяснять бесполезно) — отдельную таблицу. Сейчас это есть, например, по отношению к латинскому алфавиту и его италийскому предку, — которые разнесены по разным таблицам; с другой стороны, русский и старославянский алфавиты объединены в одной таблице, что не даёт возможности использовать единый шрифт для написания текстов одновременно на современных языках, использующих русский алфавит, и на старославянском, — требуется как минимум два шрифта. То же самое можно сказать, например, о латинской готической скрипте и антикве; о древнегреских скриптах, византийской и современной греческой, которые тоже объединены в одну таблицу, принуждая исследователя исследователя использовать несколько шрифтов. Нужно ли говорить, что это совершенно неудобно.

Что касается турецкого и сербского, то здесь Менш предлагает — таки да, отдельную таблицу, хотя я бы удовольствовался введением букв İi и Iı для турецкого, а для сербского с македонским — введением отдельных п, т, г, б.
Нелепость за нелепостью. Полный бред: каждому языку - по отдельной таблице. До какой же степени надо быть врагом языков человеческих и их письменности.
Относительно диакритик. Теперь, в отличие от базового Латин1, существующего по весьма конкретным историческим причинам, выбран совершенно верный принцип.
Опентайп в компьютерном шрифте, который и явлется той самой программой. Если примитивные и устаревшие программы в виде Лексикона не понимают, тем хуже для них. Паровозы нефтью не топят.
Концовка вообще туши свет. Различать антикву и фрактуру на уровне кодировки, так легко дойти до индивидуальной кодировки почерков!
Могу посоветовать только, изучить матчасть Юникода.

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

sknente

Проблема не в юникоде, проблема в программах которые его не поддерживают. Если б все на свете везде кодировалось только в юникоде, то 'ı' всегда было бы 'ı'. А если человек пишет на машине с турецкой кодировкой, а у вас стоит win-1251, то создание отдельной таблицы для турецкого и македонского это никак не исправит. :D Все равно кодировки будут разные, а значит будут использоваться разные глифы для верхних символов (127+).

Решение: переводить все в юникод, причем 16-битный, потому что в 8-битном если пропустить код выбора страницы то будет дефолтовая системная, т.е. он все равно привязан к кодпэйджам. И вообще все надо переводить на ARM. :D
:3

AlefZet

Цитата: sknente от февраля 10, 2008, 02:24
Проблема не в юникоде, проблема в программах которые его не поддерживают. Если б все на свете везде кодировалось только в юникоде, то 'ı' всегда было бы 'ı'. А если человек пишет на машине с турецкой кодировкой, а у вас стоит win-1251, то создание отдельной таблицы для турецкого и македонского это никак не исправит. :D Все равно кодировки будут разные, а значит будут использоваться разные глифы для верхних символов (127+).

Решение: переводить все в юникод, причем 16-битный, потому что в 8-битном если пропустить код выбора страницы то будет дефолтовая системная, т.е. он все равно привязан к кодпэйджам. И вообще все надо переводить на ARM. :D
Юникод уже давно 32 битный. Про несуществующий 8 - битный Юникод понял мало. Имею только предположить, что имелся в виду UTF-8. А про ARM вовсе ничего не понял. Это - Abstract Rewriting Machine?

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

sknente

UTF-8, да. ARM = Advanced RISC Machine. Гораздо более чистая, логичная и элегантная архитектура чем IA32.
:3

Vertaler

AlefZet, хочется заметить, что  а) предлагающему учить матчасть самому бы не плохо было её знать (и знать, например, что такое «антиква» и чем она отличается от других скрипт); б) также, не стоило ему и передергивать: почерк — манера письма, скрипта — письменная идиома, — это вещи разных плоскостей, как тепло и размер, если он этого не знает, то см. п. (а).  :eat:
Стрч прст в крк и вынь сухим.

iopq

А как насчет разных видов китайских иероглифов? Японские и китайские по разному выглядят, но имеют ту же позицию в уникоде потому что тот же смысл.
Poirot: Я, кстати, тоже не любитель выпить, хоть и русский.
jvarg: Профессионал? ;)

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр