Author Topic: Зависимость капитализации от языка в Юникоде  (Read 4986 times)

0 Members and 1 Guest are viewing this topic.

Offline Тайльнемер

  • Posts: 12736
  • Σοι υν βυρρο. Ix bin æn ézl
Я знаю только один пример: I (U+0049), i (U+0069), İ (U+0130), ı (U+0131). (если это языки типа турецкого и азербайджанского, тогда пары: İi и Iı, а инече — Ii)
1) Как вам это нравится?
2) Есть ли другие подобные примеры?
3) Что же мешало сделать 6 разных символов: Ii, İi и Iı? Ведь неудобно же, когда неизвестно что на что заменять при смене регистра, пока не выяснишь язык.

Offline O

  • Posts: 3685
  • Gender: Male
1) Как вам это нравится?
Мне это совершенно не нравится, потому что турки, пытающиеся писать по-английски, регулярно впечатывают ‘ı’ вместо ‘i’, чем приводят некоторые программы, плохо понимающие «Уникод» в недоумение.
Коллектив жильцов этого дома борется за присвоение ему звания «Образцового Дома Толерантности».

Offline Тайльнемер

  • Posts: 12736
  • Σοι υν βυρρο. Ix bin æn ézl
турки, пытающиеся писать по-английски, регулярно впечатывают ‘ı’ вместо ‘i’, чем приводят некоторые программы, плохо понимающие «Уникод» в недоумение.
В каком смысле? Сами вводят не тот символ или так получается после неверной автоматической смены регистра?
Если сами вводят, то чего тут можно ещё ожидать, когда вместо одного символа ставят совсем другой.

Другое дело когда программа автоматически считает I и i одной буквой, например, при нечувствительном к регистру поиске, преобразовании uppercase ↔ lowercase и т. п. операциях, что для турецкого языка неприемлимо.

Offline O

  • Posts: 3685
  • Gender: Male
турки, пытающиеся писать по-английски, регулярно впечатывают ‘ı’ вместо ‘i’, чем приводят некоторые программы, плохо понимающие «Уникод» в недоумение.

В каком смысле? Сами вводят не тот символ или так получается после неверной автоматической смены регистра?

Сами. Они печатают по-английски на турецкой раскладке и используют клавишу I/ı, которая в раскладке Q — на месте английской I/i. Когда я общался с турком в ICQ одной из прежних версий, мне от него вместо ‘i’ в английском тексте приходила русская ‘э’ с тем же кодом 253 по ANSI. Забавно, что в турецкой раскладке Q клавиша İ/i находится на месте русской Э/э.

Коллектив жильцов этого дома борется за присвоение ему звания «Образцового Дома Толерантности».

Offline Vertaler

  • Posts: 11136
  • Gender: Male
  • Vielzeller
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному. Подробнее об этом можно почитать тут:

http://wolliger-mensch.livejournal.com/22308.html
La lastan lingvovarianton / Bruligis mi en la kamen’.
Mi ne reformu Esperanton, / Mi ne plu kredas je mi mem.
© klasikulo

Offline O

  • Posts: 3685
  • Gender: Male
Подробнее об этом можно почитать тут:
http://wolliger-mensch.livejournal.com/22308.html

Ой, чёта я там не понял языка.  :o  :green:
Коллектив жильцов этого дома борется за присвоение ему звания «Образцового Дома Толерантности».

Offline Тайльнемер

  • Posts: 12736
  • Σοι υν βυρρο. Ix bin æn ézl
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному
А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Offline Vertaler

  • Posts: 11136
  • Gender: Male
  • Vielzeller
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному
А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Quote
1. Не «предлагается», а уже существует в уникоде. Только суть в том, что это не целевая программа Юникода, а вынужденное подстраивание под реальные нужды. А целевая программа Юникода — это раздача таблиц по неким не очень понятным принципам, подразумевающим то ли общность алфавита, то ли ещё что. Плюс, в Юникоде «умные» головы отменили использовавшийся прежде принцип — каждой букве отдельное место в уникоде, теперь же используется совершенно неудобные принцип, по которому буквы с диакритиками образуются при помощи основной буквы и навесной диакритики. При это совершенно не учитывается, что далеко-далеко не все программы поддерживают опентайп, да и создавать опентайпные шрифты несравнимо сложнее, чем простые трутайп.

2. По поводу скриптового принципа: каждой скрипте (вы должны знать, что это такое, иначе объяснять бесполезно) — отдельную таблицу. Сейчас это есть, например, по отношению к латинскому алфавиту и его италийскому предку, — которые разнесены по разным таблицам; с другой стороны, русский и старославянский алфавиты объединены в одной таблице, что не даёт возможности использовать единый шрифт для написания текстов одновременно на современных языках, использующих русский алфавит, и на старославянском, — требуется как минимум два шрифта. То же самое можно сказать, например, о латинской готической скрипте и антикве; о древнегреских скриптах, византийской и современной греческой, которые тоже объединены в одну таблицу, принуждая исследователя исследователя использовать несколько шрифтов. Нужно ли говорить, что это совершенно неудобно.

Что касается турецкого и сербского, то здесь Менш предлагает — таки да, отдельную таблицу, хотя я бы удовольствовался введением букв İi и Iı для турецкого, а для сербского с македонским — введением отдельных п, т, г, б.
La lastan lingvovarianton / Bruligis mi en la kamen’.
Mi ne reformu Esperanton, / Mi ne plu kredas je mi mem.
© klasikulo

Offline AlefZet

  • Posts: 550
  • Gender: Male
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному.
Чушь!
 
Ведь это чисто технический вопрос, к языкознанию имеющий отдалённое, чисто опосредованное отношение, выражаемый всего-навсего двоичным (шестнадцетиричным) кодом.

Лучше было бы вообще отвязаться от языков и делать кодировку чисто по графическому принципу, когда это касается алфавитов одного гнезда.
Подобное было в кодировке IBM EBCDIC.

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному
А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Quote
1. Не «предлагается», а уже существует в уникоде. Только суть в том, что это не целевая программа Юникода, а вынужденное подстраивание под реальные нужды. А целевая программа Юникода — это раздача таблиц по неким не очень понятным принципам, подразумевающим то ли общность алфавита, то ли ещё что. Плюс, в Юникоде «умные» головы отменили использовавшийся прежде принцип — каждой букве отдельное место в уникоде, теперь же используется совершенно неудобные принцип, по которому буквы с диакритиками образуются при помощи основной буквы и навесной диакритики. При это совершенно не учитывается, что далеко-далеко не все программы поддерживают опентайп, да и создавать опентайпные шрифты несравнимо сложнее, чем простые трутайп.

2. По поводу скриптового принципа: каждой скрипте (вы должны знать, что это такое, иначе объяснять бесполезно) — отдельную таблицу. Сейчас это есть, например, по отношению к латинскому алфавиту и его италийскому предку, — которые разнесены по разным таблицам; с другой стороны, русский и старославянский алфавиты объединены в одной таблице, что не даёт возможности использовать единый шрифт для написания текстов одновременно на современных языках, использующих русский алфавит, и на старославянском, — требуется как минимум два шрифта. То же самое можно сказать, например, о латинской готической скрипте и антикве; о древнегреских скриптах, византийской и современной греческой, которые тоже объединены в одну таблицу, принуждая исследователя исследователя использовать несколько шрифтов. Нужно ли говорить, что это совершенно неудобно.

Что касается турецкого и сербского, то здесь Менш предлагает — таки да, отдельную таблицу, хотя я бы удовольствовался введением букв İi и Iı для турецкого, а для сербского с македонским — введением отдельных п, т, г, б.
Нелепость за нелепостью. Полный бред: каждому языку - по отдельной таблице. До какой же степени надо быть врагом языков человеческих и их письменности.
Относительно диакритик. Теперь, в отличие от базового Латин1, существующего по весьма конкретным историческим причинам, выбран совершенно верный принцип.
Опентайп в компьютерном шрифте, который и явлется той самой программой. Если примитивные и устаревшие программы в виде Лексикона не понимают, тем хуже для них. Паровозы нефтью не топят.
Концовка вообще туши свет. Различать антикву и фрактуру на уровне кодировки, так легко дойти до индивидуальной кодировки почерков!
Могу посоветовать только, изучить матчасть Юникода.

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

Offline sknente

  • Posts: 3657
  • кавайная шкодница в чепчике
Проблема не в юникоде, проблема в программах которые его не поддерживают. Если б все на свете везде кодировалось только в юникоде, то 'ı' всегда было бы 'ı'. А если человек пишет на машине с турецкой кодировкой, а у вас стоит win-1251, то создание отдельной таблицы для турецкого и македонского это никак не исправит. :D Все равно кодировки будут разные, а значит будут использоваться разные глифы для верхних символов (127+).

Решение: переводить все в юникод, причем 16-битный, потому что в 8-битном если пропустить код выбора страницы то будет дефолтовая системная, т.е. он все равно привязан к кодпэйджам. И вообще все надо переводить на ARM. :D
:3

Offline AlefZet

  • Posts: 550
  • Gender: Male
Проблема не в юникоде, проблема в программах которые его не поддерживают. Если б все на свете везде кодировалось только в юникоде, то 'ı' всегда было бы 'ı'. А если человек пишет на машине с турецкой кодировкой, а у вас стоит win-1251, то создание отдельной таблицы для турецкого и македонского это никак не исправит. :D Все равно кодировки будут разные, а значит будут использоваться разные глифы для верхних символов (127+).

Решение: переводить все в юникод, причем 16-битный, потому что в 8-битном если пропустить код выбора страницы то будет дефолтовая системная, т.е. он все равно привязан к кодпэйджам. И вообще все надо переводить на ARM. :D
Юникод уже давно 32 битный. Про несуществующий 8 - битный Юникод понял мало. Имею только предположить, что имелся в виду UTF-8. А про ARM вовсе ничего не понял. Это - Abstract Rewriting Machine?

Ah tlamiz noxochiuh ah tlaniz nocuic
In noconehua
Xexelihui ya moyahua

Offline sknente

  • Posts: 3657
  • кавайная шкодница в чепчике
UTF-8, да. ARM = Advanced RISC Machine. Гораздо более чистая, логичная и элегантная архитектура чем IA32.
:3

Offline Vertaler

  • Posts: 11136
  • Gender: Male
  • Vielzeller
AlefZet, хочется заметить, что  а) предлагающему учить матчасть самому бы не плохо было её знать (и знать, например, что такое «антиква» и чем она отличается от других скрипт); б) также, не стоило ему и передергивать: почерк — манера письма, скрипта — письменная идиома, — это вещи разных плоскостей, как тепло и размер, если он этого не знает, то см. п. (а).  :eat:
La lastan lingvovarianton / Bruligis mi en la kamen’.
Mi ne reformu Esperanton, / Mi ne plu kredas je mi mem.
© klasikulo

Offline iopq

  • Posts: 5972
А как насчет разных видов китайских иероглифов? Японские и китайские по разному выглядят, но имеют ту же позицию в уникоде потому что тот же смысл.
Poirot: Я, кстати, тоже не любитель выпить, хоть и русский.
jvarg: Профессионал? ;)

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: