Правильно ли я понимаю, что буква i украинского алфавита имеет другой код (по кр. мере в Юникоде), чем такая же латинская буква?
Я набирал одно украинское слово в forvo.com с этой буквой и сайт мне сказал, что такой записи нет. Но когда я скопировал то же слово с Wiktionary (явно набранное в украинской раскладке), то оно тут же появилось в поиске.
ЦитироватьПравильно ли я понимаю, что буква i украинского алфавита имеет другой код (по кр. мере в Юникоде), чем такая же латинская буква?
— Так же, как и любая другая буква, признанная кириллицей. Сс, Аа, Ее, даже Ԛԛ и Ԝԝ, хотя последние две — поздняя копия с латинки.
Это справедливо для всех кириллических букв, совпадающих с латинскими в начертании.
А казахская имеет тот же код?
Буквы разделяются не по национальным алфавитам, а по системам письма.
Украинская кириллическая і и казахская кириллическая і — это кириллическая і.
Французская латинская i и зулусская латинская i — это латинская i.
Теперь понятно, всем спасибо!
Цитата: Wildnorth от апреля 22, 2022, 17:01
Правильно ли я понимаю, что буква i украинского алфавита имеет другой код (по кр. мере в Юникоде), чем такая же латинская буква?
В Unicode, cp1251, koi8-u, cp1125 — да, кириллическая Іі и латинская Ii имеют разные коды.
Однако, в cp866 (также известной как ДОС-кириллица) отдельных кодовых позиций для кириллической Іі нет, вместо нее в украинском и белорусском приходится там использовать латинскую Ii (что создает неудобства, поскольку стандартные клавиатурные раскладки для этих языков содержат кириллическую букву, которая при вводе в консольном окне с этой кодировкой меняется на знак вопроса. Проблема не особо актуальна во времена господствования юникода, но, например, студенты-программисты, пишущие простенькие консольные программы, до сих пор мучаются из-за особенностей этой кодировки).
Цитата: Python от апреля 23, 2022, 23:28студенты-программисты, пишущие простенькие консольные программы, до сих пор мучаются из-за особенностей этой кодировки
Хотя можно одной командой заменить кодировку консоли на UTF-8.
Цитата: Bhudh от апреля 24, 2022, 02:12
Цитата: Python от апреля 23, 2022, 23:28студенты-программисты, пишущие простенькие консольные программы, до сих пор мучаются из-за особенностей этой кодировки
Хотя можно одной командой заменить кодировку консоли на UTF-8.
Кодовая страница для utf-8 все еще кривовато работает. Лучше получается, если стандартный вывод в консоль подменяется консольным выводом через WinAPI (как, например, сделали в python'е последних версий), но не все трансляторы так умеют. Кроме того, работать с utf-8 программисту сложнее, чем с 8-битными кодировками. Если заморачиваются с переключением кодовых страниц, то для украинского языка обычно выбирают cp1251, которая и восьмибитная, и содержит все украинские буквы, включая Іі Ґґ.
И еще есть нюансы с растровыми и векторными шрифтами в консоли — все те кодовые страницы, где украинский алфавит представлен полностью, несовместимы с растровыми шрифтами (или полноэкранным текстовым режимом, который они имитируют). Так что иногда проще приспособить текст к плохой кодировке, чем поменять ее на нормальную.