Ответ

Добро пожаловать на Лингвофорум.
Войти
Регистрация

апреля 26, 2024, 04:39

Главное меню

Начало

Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Лингвофорум
► Теоретический раздел
► Прикладная лингвистика
► Вопросы письменности
► Ответ ( От: Зависимость капитализации от языка в Юникоде )

Ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя
Имейл
Тема сообщения
Иконка

Вложения: (Удалить вложения)

Ограничения: максимум вложений в сообщении — 3 (3 осталось), максимальный размер всех файлов — 300 КБ, максимальный размер одного файла — 100 КБ

Снимите пометку с вложений, которые необходимо удалить

Перетащите файлы сюда или используйте кнопку для добавления файлов

Впишите ширину (px):

Впишите высоту (px):

(Удалить вложения)

Вложения и другие параметры

Вернуться в тему после ответа
Не использовать смайлики

Проверка:

Оставьте это поле пустым:

Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:

ALT+S — отправить
ALT+P — предварительный просмотр

Сообщения в этой теме

Автор iopq

- февраля 12, 2008, 13:18

А как насчет разных видов китайских иероглифов? Японские и китайские по разному выглядят, но имеют ту же позицию в уникоде потому что тот же смысл.

Автор Vertaler

- февраля 10, 2008, 21:56

AlefZet, хочется заметить, что а) предлагающему учить матчасть самому бы не плохо было её знать (и знать, например, что такое «антиква» и чем она отличается от других скрипт); б) также, не стоило ему и передергивать: почерк — манера письма, скрипта — письменная идиома, — это вещи разных плоскостей, как тепло и размер, если он этого не знает, то см. п. (а).

Автор sknente

- февраля 10, 2008, 05:02

UTF-8, да. ARM = Advanced RISC Machine. Гораздо более чистая, логичная и элегантная архитектура чем IA32.

Автор AlefZet

- февраля 10, 2008, 03:25

Цитата: sknente от февраля 10, 2008, 02:24
Проблема не в юникоде, проблема в программах которые его не поддерживают. Если б все на свете везде кодировалось только в юникоде, то 'ı' всегда было бы 'ı'. А если человек пишет на машине с турецкой кодировкой, а у вас стоит win-1251, то создание отдельной таблицы для турецкого и македонского это никак не исправит. Все равно кодировки будут разные, а значит будут использоваться разные глифы для верхних символов (127+).

Решение: переводить все в юникод, причем 16-битный, потому что в 8-битном если пропустить код выбора страницы то будет дефолтовая системная, т.е. он все равно привязан к кодпэйджам. И вообще все надо переводить на ARM.

Юникод уже давно 32 битный. Про несуществующий 8 - битный Юникод понял мало. Имею только предположить, что имелся в виду UTF-8. А про ARM вовсе ничего не понял. Это - Abstract Rewriting Machine?

Автор sknente

- февраля 10, 2008, 02:24

Проблема не в юникоде, проблема в программах которые его не поддерживают. Если б все на свете везде кодировалось только в юникоде, то 'ı' всегда было бы 'ı'. А если человек пишет на машине с турецкой кодировкой, а у вас стоит win-1251, то создание отдельной таблицы для турецкого и македонского это никак не исправит.

Все равно кодировки будут разные, а значит будут использоваться разные глифы для верхних символов (127+).

Решение: переводить все в юникод, причем 16-битный, потому что в 8-битном если пропустить код выбора страницы то будет дефолтовая системная, т.е. он все равно привязан к кодпэйджам. И вообще все надо переводить на ARM.

Автор AlefZet

- февраля 10, 2008, 01:12

Цитата: Vertaler от февраля 7, 2008, 16:17
Цитата: Тайльнемер от февраля 7, 2008, 14:30
Цитата: Vertaler от февраля 6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному
А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Цитировать1. Не «предлагается», а уже существует в уникоде. Только суть в том, что это не целевая программа Юникода, а вынужденное подстраивание под реальные нужды. А целевая программа Юникода — это раздача таблиц по неким не очень понятным принципам, подразумевающим то ли общность алфавита, то ли ещё что. Плюс, в Юникоде «умные» головы отменили использовавшийся прежде принцип — каждой букве отдельное место в уникоде, теперь же используется совершенно неудобные принцип, по которому буквы с диакритиками образуются при помощи основной буквы и навесной диакритики. При это совершенно не учитывается, что далеко-далеко не все программы поддерживают опентайп, да и создавать опентайпные шрифты несравнимо сложнее, чем простые трутайп.

2. По поводу скриптового принципа: каждой скрипте (вы должны знать, что это такое, иначе объяснять бесполезно) — отдельную таблицу. Сейчас это есть, например, по отношению к латинскому алфавиту и его италийскому предку, — которые разнесены по разным таблицам; с другой стороны, русский и старославянский алфавиты объединены в одной таблице, что не даёт возможности использовать единый шрифт для написания текстов одновременно на современных языках, использующих русский алфавит, и на старославянском, — требуется как минимум два шрифта. То же самое можно сказать, например, о латинской готической скрипте и антикве; о древнегреских скриптах, византийской и современной греческой, которые тоже объединены в одну таблицу, принуждая исследователя исследователя использовать несколько шрифтов. Нужно ли говорить, что это совершенно неудобно.

Что касается турецкого и сербского, то здесь Менш предлагает — таки да, отдельную таблицу, хотя я бы удовольствовался введением букв İi и Iı для турецкого, а для сербского с македонским — введением отдельных п, т, г, б.

Нелепость за нелепостью. Полный бред: каждому языку - по отдельной таблице. До какой же степени надо быть врагом языков человеческих и их письменности.
Относительно диакритик. Теперь, в отличие от базового Латин1, существующего по весьма конкретным историческим причинам, выбран совершенно верный принцип.
Опентайп в компьютерном шрифте, который и явлется той самой программой. Если примитивные и устаревшие программы в виде Лексикона не понимают, тем хуже для них. Паровозы нефтью не топят.
Концовка вообще туши свет. Различать антикву и фрактуру на уровне кодировки, так легко дойти до индивидуальной кодировки почерков!
Могу посоветовать только, изучить матчасть Юникода.

Автор AlefZet

- февраля 10, 2008, 00:59

Цитата: Vertaler от февраля 6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному.

Чушь!

Ведь это чисто технический вопрос, к языкознанию имеющий отдалённое, чисто опосредованное отношение, выражаемый всего-навсего двоичным (шестнадцетиричным) кодом.

Лучше было бы вообще отвязаться от языков и делать кодировку чисто по графическому принципу, когда это касается алфавитов одного гнезда.
Подобное было в кодировке IBM EBCDIC.

Автор Vertaler

- февраля 7, 2008, 16:17

Цитата: Тайльнемер от февраля 7, 2008, 14:30
Цитата: Vertaler от февраля 6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному
А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Цитировать1. Не «предлагается», а уже существует в уникоде. Только суть в том, что это не целевая программа Юникода, а вынужденное подстраивание под реальные нужды. А целевая программа Юникода — это раздача таблиц по неким не очень понятным принципам, подразумевающим то ли общность алфавита, то ли ещё что. Плюс, в Юникоде «умные» головы отменили использовавшийся прежде принцип — каждой букве отдельное место в уникоде, теперь же используется совершенно неудобные принцип, по которому буквы с диакритиками образуются при помощи основной буквы и навесной диакритики. При это совершенно не учитывается, что далеко-далеко не все программы поддерживают опентайп, да и создавать опентайпные шрифты несравнимо сложнее, чем простые трутайп.

2. По поводу скриптового принципа: каждой скрипте (вы должны знать, что это такое, иначе объяснять бесполезно) — отдельную таблицу. Сейчас это есть, например, по отношению к латинскому алфавиту и его италийскому предку, — которые разнесены по разным таблицам; с другой стороны, русский и старославянский алфавиты объединены в одной таблице, что не даёт возможности использовать единый шрифт для написания текстов одновременно на современных языках, использующих русский алфавит, и на старославянском, — требуется как минимум два шрифта. То же самое можно сказать, например, о латинской готической скрипте и антикве; о древнегреских скриптах, византийской и современной греческой, которые тоже объединены в одну таблицу, принуждая исследователя исследователя использовать несколько шрифтов. Нужно ли говорить, что это совершенно неудобно.

Что касается турецкого и сербского, то здесь Менш предлагает — таки да, отдельную таблицу, хотя я бы удовольствовался введением букв İi и Iı для турецкого, а для сербского с македонским — введением отдельных п, т, г, б.

Автор Тайльнемер

- февраля 7, 2008, 14:30

Цитата: Vertaler от февраля 6, 2008, 15:00
Всё это часть одной большой проблемы — что юникод с самого начала нужно было делать по языковому принципу, а не по просто алфавитному

А можно поподробнее, что предлагается? По отдельной таблице для каждого чего?
В применении к турецкому это как будет выглядеть? Все символы турецкого алфавита в отдельной таблице что ли?

Автор O

- февраля 6, 2008, 15:08

Цитата: Vertaler от февраля 6, 2008, 15:00
Подробнее об этом можно почитать тут:
http://wolliger-mensch.livejournal.com/22308.html

Ой, чёта я там не понял языка.

Лингвофорум

Ответ

Сообщения в этой теме

Автор iopq

Автор Vertaler

Автор sknente

Автор AlefZet

Автор sknente

Автор AlefZet

Автор AlefZet

Автор Vertaler

Автор Тайльнемер

Автор O