Лингвофорум

Общий раздел => Наука и техника => Компьютеры => Тема начата: Python от февраля 11, 2013, 19:04

Название: Советские кириллицы в 8-битных кодировках
Отправлено: Python от февраля 11, 2013, 19:04
Возможно, основная причина постсоветской латинизации письменностей народов бывшего СССР — не идеологический «цивилизационный выбор», а вполне осязаемые технические проблемы, связанные с испольованием кириллиц — имею в виду проблему кодировок. И если для русского языка ситуация выглядит вполне нормальной, а украинский и белорусский периодически сталкиваются с частичной несовместимостью некоторых распространенных кодировок с их алфавитами, то для неславян ситуация выглядит куда более сложно. Да, конечно, Юникод существует, и это делает проблему кодировок менее актуальной, чем 10-20 лет назад, но старый софт, работающий с 8-битными кодировками, используется до сих пор. Так, любая современня Windows 7 или 8 поставляется с устаревшей реализацией командной строки, в которой полноценная работа с современными кодировками невозможна. Несмотря на распространенность utf-8, восьмибитные кодировки (преимущественно koi8 и windows-1251) продолжают использоваться в электронной почте. И т.д., и т.п.

Хотелось бы разобраться, как проблема 8-битных символьных кодировок была решена для разных языков бывшего СССР, и была ли решена вообще, например, для языков народов РФ. Какие распространенные кодировки здесь существуют?
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Wolliger Mensch от февраля 11, 2013, 19:56
Цитата: Python от февраля 11, 2013, 19:04
...но старый софт, работающий с 8-битными кодировками, используется до сих пор. Так, любая современня Windows 7 или 8 поставляется с устаревшей реализацией командной строки, в которой полноценная работа с современными кодировками невозможна.

Вы читали про чувашскую комиссию и про латинские буквы в чувашском компьютерном наборе? И это сейчас. А что говорить про двадцать лет взад. Нет, указанные вами причины никак не могли повлиять. Перевод на латиницу был связан с политическими причинами.
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Python от февраля 11, 2013, 20:22
Латинские доп. буквы в кириллическом тексте стали доступны с распространением юникодицы. 15 лет назад такое комбинирование было возможно лишь в «продвинутых» форматах типа .doc — обычные же текстовые редакторы тогда еще не знали utf-8. Почта — тоже только 8-битная, с регулярным «неугадыванием» кодировки.

Если чуваш пишет электронное письмо на чувашском, то как он выкручивается? Ставит обычные русские буквы на месте похожих чувашских? Или, может, отдельные чувашские программисты пытались как-то решить эту проблему?..
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Python от февраля 11, 2013, 23:52
Википедия упоминает две казахские кодировки:
Цитировать
CT PK 920-91 for DOS (a modification of code page 866)
CT PK 1048—2002 for Windows (a modification of code page 1251)
Большинство сайтов, где упоминаются эти кодировки, — либо викизеркала, либо вопросы без ответов :(
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Hellerick от февраля 12, 2013, 01:18
Я в Лингвовики опубликовал описание татарской кодировки (http://lingvowiki.info/w/%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Hellerick/%D0%A2%D0%B0%D1%82%D0%B0%D1%80%D1%81%D0%BA%D0%B0%D1%8F_%D0%BA%D0%BE%D0%B4%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0). Она основана на windows-1251, но югославские буквы в ней заменены татарскими. В свое время попадался словарь, написанный в этой кодировке. Кажется она была весьма распространена в 90-е, и, разумеется, требовала специальных татарских шрифтов.
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Python от февраля 12, 2013, 18:18
Оказывается, (wiki/ru) Альтернативная_кодировка (http://ru.wikipedia.org/wiki/%D0%90%D0%BB%D1%8C%D1%82%D0%B5%D1%80%D0%BD%D0%B0%D1%82%D0%B8%D0%B2%D0%BD%D0%B0%D1%8F_%D0%BA%D0%BE%D0%B4%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0) (она же DOS-кириллица или CP866) имеет даже чувашский вариант.
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Timiriliyev от июля 28, 2013, 19:26
Для якутского существовало то, что назвали "псевдо".

ЦитироватьУрут сахалыы буукубалар туспа куодтара суох этэ. Ол итэҕэһи суох гынаары биһиги уолаттарбыт элбэхтик туттуллубат си-бэлиэлэр (символлар) куодтарыгар саха буукубаларын "баайан" биэрбиттэрэ. Оннук хас да ньыма үөскээбитэ.

ЦитироватьРаньше у якутских букв не было отдельных кодов. Чтобы устранить эту проблему, наши ребята "привязали" к кодам редко используемых символов якутские буквы. Так возникло несколько методов письма.

Разумеется, использовался палёный шрифт, который эту кодировку "поддерживает". Здесь, на ЛФ, в 2004 году в теме про якутский язык обсуждали подобное.

ЦитироватьНеправильные кодировки - это всякого рода модификации устаревших однобайтовых (восьмибитных) кодировок, типа cp1251 или Latin-1. Подобные pseudo-кодировки не поддерживаются, да и не поддерживались никогда, большинством компьютерных программ.
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Geoalex от июля 28, 2013, 19:43
Цитата: Timiriliev от июля 28, 2013, 19:26
Для якутского существовало то, что назвали "псевдо".

ЦитироватьУрут сахалыы буукубалар туспа куодтара суох этэ. Ол итэҕэһи суох гынаары биһиги уолаттарбыт элбэхтик туттуллубат си-бэлиэлэр (символлар) куодтарыгар саха буукубаларын "баайан" биэрбиттэрэ. Оннук хас да ньыма үөскээбитэ.

ЦитироватьРаньше у якутских букв не было отдельных кодов. Чтобы устранить эту проблему, наши ребята "привязали" к кодам редко используемых символов якутские буквы. Так возникло несколько методов письма.

Разумеется, использовался палёный шрифт, который эту кодировку "поддерживает". Здесь, на ЛФ, в 2004 году в теме про якутский язык обсуждали подобное.

ЦитироватьНеправильные кодировки - это всякого рода модификации устаревших однобайтовых (восьмибитных) кодировок, типа cp1251 или Latin-1. Подобные pseudo-кодировки не поддерживаются, да и не поддерживались никогда, большинством компьютерных программ.

Помню, были в стародавние времена забавные якутские сайты, где вместо ҕ писали 5, а вместо ө - 8.  :)
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Timiriliyev от июля 28, 2013, 19:44
Цитата: Geoalex от июля 28, 2013, 19:43
Помню, были в стародавние времена забавные якутские сайты, где вместо ҕ писали 5, а вместо ө - 8.  :)
Это не стародавние времена, это всё ещё суровая реальность.
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Red Khan от июля 28, 2013, 20:11
Очень-очень давно, для того чтобы смотреть татарские страницы в интернете нужно было устанавливать специальный шрифт. Пример такой страницы можно найти здесь (http://tatar.kz/isem_ra.htm).
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Red Khan от июля 28, 2013, 20:12
Цитата: Wolliger Mensch от февраля 11, 2013, 19:56
Цитата: Python от февраля 11, 2013, 19:04
...но старый софт, работающий с 8-битными кодировками, используется до сих пор. Так, любая современня Windows 7 или 8 поставляется с устаревшей реализацией командной строки, в которой полноценная работа с современными кодировками невозможна.

Вы читали про чувашскую комиссию и про латинские буквы в чувашском компьютерном наборе? И это сейчас. А что говорить про двадцать лет взад. Нет, указанные вами причины никак не могли повлиять. Перевод на латиницу был связан с политическими причинами.
А разве чуваши переходили на латиницу?  :???
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Geoalex от июля 28, 2013, 20:18
Цитата: Red Khan от июля 28, 2013, 20:12
Вы читали про чувашскую комиссию и про латинские буквы в чувашском компьютерном наборе? И это сейчас. А что говорить про двадцать лет взад. Нет, указанные вами причины никак не могли повлиять. Перевод на латиницу был связан с политическими причинами.
А разве чуваши переходили на латиницу?  :???
[/quote]

Нет, просто было официально рекомендовано при компьютерном наборе чувашских текстов использовать не кириллические буквы ӑ ӗ ҫ ӳ, а латинские ă ĕ ç ÿ.
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Karakurt от июля 28, 2013, 20:26
Мягко-твердые знаки вместо ӑ ӗ, щ вместо ҫ - почему бы не сделать?
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Timiriliyev от июля 28, 2013, 20:32
Чтоб не спутались.
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Geoalex от июля 28, 2013, 20:32
Цитата: Karakurt от июля 28, 2013, 20:26
Мягко-твердые знаки вместо ӑ ӗ, щ вместо ҫ - почему бы не сделать?

Зачем уродовать свою историческую письменность?
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Karakurt от июля 28, 2013, 20:34
Спорное утверждение
Название: Советские кириллицы в 8-битных кодировках
Отправлено: Python от июля 28, 2013, 22:08
Если просто отбросить диакритики, чувашский текст можно будет прочитать?