Зависимость капитализации от языка в Юникоде

Тайльнемер · февраля 6, 2008, 07:16

Я знаю только один пример: I (U+0049), i (U+0069), İ (U+0130), ı (U+0131). (если это языки типа турецкого и азербайджанского, тогда пары: İi и Iı, а инече — Ii)
1) Как вам это нравится?
2) Есть ли другие подобные примеры?
3) Что же мешало сделать 6 разных символов: Ii, İi и Iı? Ведь неудобно же, когда неизвестно что на что заменять при смене регистра, пока не выяснишь язык.

O · февраля 6, 2008, 09:31

Цитата: Тайльнемер от февраля 6, 2008, 07:16
1) Как вам это нравится?

Мне это совершенно не нравится, потому что турки, пытающиеся писать по-английски, регулярно впечатывают 'ı' вместо 'i', чем приводят некоторые программы, плохо понимающие «Уникод» в недоумение.

Тайльнемер · февраля 6, 2008, 13:09

Цитата: O от февраля 6, 2008, 09:31турки, пытающиеся писать по-английски, регулярно впечатывают 'ı' вместо 'i', чем приводят некоторые программы, плохо понимающие «Уникод» в недоумение.

В каком смысле? Сами вводят не тот символ или так получается после неверной автоматической смены регистра?
Если сами вводят, то чего тут можно ещё ожидать, когда вместо одного символа ставят совсем другой.

Тайльнемер · февраля 6, 2008, 13:15

Другое дело когда программа автоматически считает I и i одной буквой, например, при нечувствительном к регистру поиске, преобразовании uppercase ↔ lowercase и т. п. операциях, что для турецкого языка неприемлимо.

O · февраля 6, 2008, 13:30

Цитата: Тайльнемер от февраля 6, 2008, 13:09
Цитата: O от февраля 6, 2008, 09:31турки, пытающиеся писать по-английски, регулярно впечатывают 'ı' вместо 'i', чем приводят некоторые программы, плохо понимающие «Уникод» в недоумение.

В каком смысле? Сами вводят не тот символ или так получается после неверной автоматической смены регистра?

Сами. Они печатают по-английски на турецкой раскладке и используют клавишу I/ı, которая в раскладке Q — на месте английской I/i. Когда я общался с турком в ICQ одной из прежних версий, мне от него вместо 'i' в английском тексте приходила русская 'э' с тем же кодом 253 по ANSI. Забавно, что в турецкой раскладке Q клавиша İ/i находится на месте русской Э/э.

Vertaler · февраля 6, 2008, 15:00

Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному. Подробнее об этом можно почитать тут:

http://wolliger-mensch.livejournal.com/22308.html

O · февраля 6, 2008, 15:08

Цитата: Vertaler от февраля 6, 2008, 15:00
Подробнее об этом можно почитать тут:
http://wolliger-mensch.livejournal.com/22308.html

Ой, чёта я там не понял языка.

Тайльнемер · февраля 7, 2008, 14:30

Цитата: Vertaler от февраля 6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному

А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Vertaler · февраля 7, 2008, 16:17

Цитата: Тайльнемер от февраля 7, 2008, 14:30
Цитата: Vertaler от февраля 6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному
А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Цитировать1. Не «предлагается», а уже существует в уникоде. Только суть в том, что это не целевая программа Юникода, а вынужденное подстраивание под реальные нужды. А целевая программа Юникода — это раздача таблиц по неким не очень понятным принципам, подразумевающим то ли общность алфавита, то ли ещё что. Плюс, в Юникоде «умные» головы отменили использовавшийся прежде принцип — каждой букве отдельное место в уникоде, теперь же используется совершенно неудобные принцип, по которому буквы с диакритиками образуются при помощи основной буквы и навесной диакритики. При это совершенно не учитывается, что далеко-далеко не все программы поддерживают опентайп, да и создавать опентайпные шрифты несравнимо сложнее, чем простые трутайп.

2. По поводу скриптового принципа: каждой скрипте (вы должны знать, что это такое, иначе объяснять бесполезно) — отдельную таблицу. Сейчас это есть, например, по отношению к латинскому алфавиту и его италийскому предку, — которые разнесены по разным таблицам; с другой стороны, русский и старославянский алфавиты объединены в одной таблице, что не даёт возможности использовать единый шрифт для написания текстов одновременно на современных языках, использующих русский алфавит, и на старославянском, — требуется как минимум два шрифта. То же самое можно сказать, например, о латинской готической скрипте и антикве; о древнегреских скриптах, византийской и современной греческой, которые тоже объединены в одну таблицу, принуждая исследователя исследователя использовать несколько шрифтов. Нужно ли говорить, что это совершенно неудобно.

Что касается турецкого и сербского, то здесь Менш предлагает — таки да, отдельную таблицу, хотя я бы удовольствовался введением букв İi и Iı для турецкого, а для сербского с македонским — введением отдельных п, т, г, б.

AlefZet · февраля 10, 2008, 00:59

Цитата: Vertaler от февраля 6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному.

Чушь!

Ведь это чисто технический вопрос, к языкознанию имеющий отдалённое, чисто опосредованное отношение, выражаемый всего-навсего двоичным (шестнадцетиричным) кодом.

Лучше было бы вообще отвязаться от языков и делать кодировку чисто по графическому принципу, когда это касается алфавитов одного гнезда.
Подобное было в кодировке IBM EBCDIC.

AlefZet · февраля 10, 2008, 01:12

Цитата: Vertaler от февраля 7, 2008, 16:17
Цитата: Тайльнемер от февраля 7, 2008, 14:30
Цитата: Vertaler от февраля 6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному
А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Цитировать1. Не «предлагается», а уже существует в уникоде. Только суть в том, что это не целевая программа Юникода, а вынужденное подстраивание под реальные нужды. А целевая программа Юникода — это раздача таблиц по неким не очень понятным принципам, подразумевающим то ли общность алфавита, то ли ещё что. Плюс, в Юникоде «умные» головы отменили использовавшийся прежде принцип — каждой букве отдельное место в уникоде, теперь же используется совершенно неудобные принцип, по которому буквы с диакритиками образуются при помощи основной буквы и навесной диакритики. При это совершенно не учитывается, что далеко-далеко не все программы поддерживают опентайп, да и создавать опентайпные шрифты несравнимо сложнее, чем простые трутайп.

2. По поводу скриптового принципа: каждой скрипте (вы должны знать, что это такое, иначе объяснять бесполезно) — отдельную таблицу. Сейчас это есть, например, по отношению к латинскому алфавиту и его италийскому предку, — которые разнесены по разным таблицам; с другой стороны, русский и старославянский алфавиты объединены в одной таблице, что не даёт возможности использовать единый шрифт для написания текстов одновременно на современных языках, использующих русский алфавит, и на старославянском, — требуется как минимум два шрифта. То же самое можно сказать, например, о латинской готической скрипте и антикве; о древнегреских скриптах, византийской и современной греческой, которые тоже объединены в одну таблицу, принуждая исследователя исследователя использовать несколько шрифтов. Нужно ли говорить, что это совершенно неудобно.

Что касается турецкого и сербского, то здесь Менш предлагает — таки да, отдельную таблицу, хотя я бы удовольствовался введением букв İi и Iı для турецкого, а для сербского с македонским — введением отдельных п, т, г, б.

Нелепость за нелепостью. Полный бред: каждому языку - по отдельной таблице. До какой же степени надо быть врагом языков человеческих и их письменности.
Относительно диакритик. Теперь, в отличие от базового Латин1, существующего по весьма конкретным историческим причинам, выбран совершенно верный принцип.
Опентайп в компьютерном шрифте, который и явлется той самой программой. Если примитивные и устаревшие программы в виде Лексикона не понимают, тем хуже для них. Паровозы нефтью не топят.
Концовка вообще туши свет. Различать антикву и фрактуру на уровне кодировки, так легко дойти до индивидуальной кодировки почерков!
Могу посоветовать только, изучить матчасть Юникода.

sknente · февраля 10, 2008, 02:24

Проблема не в юникоде, проблема в программах которые его не поддерживают. Если б все на свете везде кодировалось только в юникоде, то 'ı' всегда было бы 'ı'. А если человек пишет на машине с турецкой кодировкой, а у вас стоит win-1251, то создание отдельной таблицы для турецкого и македонского это никак не исправит.

Все равно кодировки будут разные, а значит будут использоваться разные глифы для верхних символов (127+).

Решение: переводить все в юникод, причем 16-битный, потому что в 8-битном если пропустить код выбора страницы то будет дефолтовая системная, т.е. он все равно привязан к кодпэйджам. И вообще все надо переводить на ARM.

AlefZet · февраля 10, 2008, 03:25

Цитата: sknente от февраля 10, 2008, 02:24
Проблема не в юникоде, проблема в программах которые его не поддерживают. Если б все на свете везде кодировалось только в юникоде, то 'ı' всегда было бы 'ı'. А если человек пишет на машине с турецкой кодировкой, а у вас стоит win-1251, то создание отдельной таблицы для турецкого и македонского это никак не исправит. Все равно кодировки будут разные, а значит будут использоваться разные глифы для верхних символов (127+).

Решение: переводить все в юникод, причем 16-битный, потому что в 8-битном если пропустить код выбора страницы то будет дефолтовая системная, т.е. он все равно привязан к кодпэйджам. И вообще все надо переводить на ARM.

Юникод уже давно 32 битный. Про несуществующий 8 - битный Юникод понял мало. Имею только предположить, что имелся в виду UTF-8. А про ARM вовсе ничего не понял. Это - Abstract Rewriting Machine?

sknente · февраля 10, 2008, 05:02

UTF-8, да. ARM = Advanced RISC Machine. Гораздо более чистая, логичная и элегантная архитектура чем IA32.

Vertaler · февраля 10, 2008, 21:56

AlefZet, хочется заметить, что а) предлагающему учить матчасть самому бы не плохо было её знать (и знать, например, что такое «антиква» и чем она отличается от других скрипт); б) также, не стоило ему и передергивать: почерк — манера письма, скрипта — письменная идиома, — это вещи разных плоскостей, как тепло и размер, если он этого не знает, то см. п. (а).

iopq · февраля 12, 2008, 13:18

А как насчет разных видов китайских иероглифов? Японские и китайские по разному выглядят, но имеют ту же позицию в уникоде потому что тот же смысл.

Лингвофорум

Зависимость капитализации от языка в Юникоде

Тайльнемер

O

Тайльнемер

Тайльнемер

O

Vertaler

O

Тайльнемер

Vertaler

AlefZet

AlefZet

sknente

AlefZet

sknente

Vertaler

iopq

Быстрый ответ