Лингвофорум

Теоретический раздел => Прикладная лингвистика => Компьютерная лингвистика => Тема начата: Bhudh от декабря 14, 2019, 22:38

Название: *разница между диерезисом и умлаутом
Отправлено: Bhudh от декабря 14, 2019, 22:38
Цитата: Red Khan от декабря 13, 2019, 13:28
получается что для диерезиса и умлаута тоже есть разные символы?
Для греческого диэрезиса и латинского умлаута: да, есть разные. Некомбинируемые.
А комбинируемый символ, вроде, общий, с соответствующим алиасом даже.
Название: *разница между диерезисом и умлаутом
Отправлено: Wolliger Mensch от декабря 15, 2019, 00:20
Цитата: Bhudh от декабря 14, 2019, 22:38
Для греческого диэрезиса и латинского умлаута: да, есть разные. Некомбинируемые.

Ставите якоря в нужных местах глифов — и комбинируйте на здоровье.
Название: *разница между диерезисом и умлаутом
Отправлено: Bhudh от декабря 15, 2019, 00:48
Однако такая постановка якорей будет противоречить собственно смыслу глифа в Уникоде.
Понятно, что если шрифт только для производства пэдээфок, на смысл можно и поплевать с высокой башни, но вот если для продакшена...
Название: *разница между диерезисом и умлаутом
Отправлено: Wolliger Mensch от декабря 15, 2019, 09:46
Цитата: Bhudh от декабря 15, 2019, 00:48
Однако такая постановка якорей будет противоречить собственно смыслу глифа в Уникоде.
Понятно, что если шрифт только для производства пэдээфок, на смысл можно и поплевать с высокой башни, но вот если для продакшена...

Не понял последнего. Если вы имеете в виду электронное использование — то html сейчас позволяет встраивать шрифты. В других случаях вам всё равно придётся сначала свой шрифт передать пользователю, а раз передаёте — то какая разница в сущности, как он сделан. Кроме того, комбинирование любых глифов принципам уникода никак не противоречит — на то опентайп и придумали. Более того, в уникоде стали динамить буквы с диакритиками в более поздних таблицах именно по причине «а давайте-ка вы сами диакритики прицепляйте».
Название: *разница между диерезисом и умлаутом
Отправлено: Bhudh от декабря 15, 2019, 11:12
В том и штука, что эти глифы — не диакритики.
Это полноразмерные символы, для отдельного употребления: показать, какие диакритики бывают и как без буквы выглядят.
Представьте, купило довольное издательство шрифт, хочет использовать глиф по назначению в лингвистической книжке, а он начинает на предшествующие буквы цепляться!
Название: *разница между диерезисом и умлаутом
Отправлено: Red Khan от декабря 15, 2019, 12:35
Цитата: Bhudh от декабря 14, 2019, 22:38
Цитата: Red Khan от декабря 13, 2019, 13:28
получается что для диерезиса и умлаута тоже есть разные символы?
Для греческого диэрезиса и латинского умлаута: да, есть разные. Некомбинируемые.
А комбинируемый символ, вроде, общий, с соответствующим алиасом даже.
Погодите, почему диерезис греческий? Он ведь вполне во французском, испанском и даже английском используется.
Насколько я понял из Википедии (и не только из неё (https://www.newyorker.com/culture/culture-desk/the-curse-of-the-diaeresis)) это разные символы - диерезис ставится над второй гласной чтобы отметить что она читается отдельно, а умлаут является неотъемлемой частью буквы. Соответственно для диерезиса логично бы использовать комбайн, а для умлаута прекомбайн.
Название: *разница между диерезисом и умлаутом
Отправлено: Валентин Н от декабря 15, 2019, 14:55
Цитата: Bhudh от декабря 15, 2019, 11:12
В том и штука, что эти глифы — не диакритики.
Это полноразмерные символы, для отдельного употребления: показать, какие диакритики бывают и как без буквы выглядят.
А что мешает диакритики ставить над пробелом?
Название: *разница между диерезисом и умлаутом
Отправлено: Python от декабря 15, 2019, 17:26
Цитата: Bhudh от декабря 15, 2019, 11:12
В том и штука, что эти глифы — не диакритики.
Это полноразмерные символы, для отдельного употребления: показать, какие диакритики бывают и как без буквы выглядят.
Представьте, купило довольное издательство шрифт, хочет использовать глиф по назначению в лингвистической книжке, а он начинает на предшествующие буквы цепляться!
Всегда интересовало, зачем нужны эти нецепляющиеся диакритики в таком количестве, чтобы делать отдельные глифы, а не вставлять картинкой. Комбинируемый диакритик показать отдельно стоящим просто: ставим перед ним пробел. А вот как нацепить самоходный диакритик на символ? Особенно если в шрифте предусмотрели только их :wall:
Название: *разница между диерезисом и умлаутом
Отправлено: Валентин Н от декабря 15, 2019, 18:11
Цитата: Python от декабря 15, 2019, 17:26
А вот как нацепить самоходный диакритик на символ? Особенно если в шрифте предусмотрели только их
Никак, тогда зачем их вставляли в шрифт, вообще не понятно... Дураки-с!
Название: *разница между диерезисом и умлаутом
Отправлено: Python от декабря 15, 2019, 19:20
Вернее, во времена печатных машинок и терминалов на их основе отдельно стоящий диакритик можно было наложить на букву сравнительно просто: печатаем букву, нажимаем бекспейс (который не стирает букву на бумаге, а лишь перемещает каретку), печатаем диакритик (который оказывается в той же позиции, что и буква). В этом был смысл. Но потом появились текстовые дисплеи, на которых наложение символов стало технически невозможным. В общем, цирк давно уехал, а эти клоуны продолжают лепить стандарты со спейсед-диакритиками вообще непонятно для каких устройств.
Название: *разница между диерезисом и умлаутом
Отправлено: Bhudh от декабря 15, 2019, 19:48
Цитата: Red Khan от декабря 15, 2019, 12:35
Насколько я понял из Википедии (и не только из неё) это разные символы - диерезис ставится над второй гласной чтобы отметить что она читается отдельно, а умлаут является неотъемлемой частью буквы.
Но первоначально διαίρεσις использовался для этой цели именно в греческом.
К слову, в отрыве от компа я ошибся: некомбинируемый глиф, как и комбинированный, присутствует в Уникоде лишь в одном экземпляре.
Вот сложных некомбинированных греческих диакритика с диерезисом аж 4: с тоносом в Greek'n'Coptic и с оксией, варией и периспомени в Greek Extended.
Правда, называется он там не diaeresis, а dialytika.
Название: *разница между диерезисом и умлаутом
Отправлено: Bhudh от декабря 15, 2019, 19:52
Цитата: Валентин Н от декабря 15, 2019, 14:55
А что мешает диакритики ставить над пробелом?
Цитата: Python от декабря 15, 2019, 17:26
Комбинируемый диакритик показать отдельно стоящим просто: ставим перед ним пробел.
Эта хрень не везде может сработать.
Название: *разница между диерезисом и умлаутом
Отправлено: Валентин Н от декабря 15, 2019, 23:13
Цитата: Bhudh от декабря 15, 2019, 19:52
Эта хрень не везде может сработать.
Например?
Название: *разница между диерезисом и умлаутом
Отправлено: Bhudh от декабря 16, 2019, 06:54
Я сейчас не вспомню, где у меня не получалось.
То ли в Ворде из ранних, то ли в Блокноте...
Название: *разница между диерезисом и умлаутом
Отправлено: СНовосиба от декабря 16, 2019, 07:32
Некомбинируемые диакритики появились в ранних шрифтах и кодировках как средство оптимизации: так, например, á в позиции 0xe1 составлено из двух глифов: одного доступного как символ 0x61, и другого доступного как 0xb4.
Название: *разница между диерезисом и умлаутом
Отправлено: Red Khan от декабря 16, 2019, 14:52
У меня вопрос - а что нужно нажать чтобы к символу присоединить отдельный диерезис?
Название: *разница между диерезисом и умлаутом
Отправлено: Валентин Н от декабря 16, 2019, 16:48
Его надо скопировать-вставить.
ь̈
Название: *разница между диерезисом и умлаутом
Отправлено: zwh от декабря 16, 2019, 17:43
Цитата: Валентин Н от декабря 16, 2019, 16:48
Его надо скопировать-вставить.
ь̈
Хм... кодировка точек -- СС88...
Название: *разница между диерезисом и умлаутом
Отправлено: Bhudh от декабря 17, 2019, 00:42
Цитата: Red Khan от декабря 16, 2019, 14:52
а что нужно нажать чтобы к символу присоединить отдельный диерезис?
(wiki/en) Unicode input :: In Microsoft Windows (https://en.wikipedia.org/wiki/Unicode_input#In_Microsoft_Windows)
Уникод-позиция диэрезиса: U-0308.
Название: *разница между диерезисом и умлаутом
Отправлено: Валентин Н от декабря 17, 2019, 00:45
Цитата: Bhudh от декабря 17, 2019, 00:42
Цитата: Red Khan от декабря 16, 2019, 14:52
а что нужно нажать чтобы к символу присоединить отдельный диерезис?
(wiki/en) Unicode input :: In Microsoft Windows (https://en.wikipedia.org/wiki/Unicode_input#In_Microsoft_Windows)
Уникод-позиция диэрезиса: U-0308.
Ну и что с этим кодом делать? Если бы ваша мама вас спросила, её бы такой ответ устроил? Как думаете? Она бы конечно сразу поняла, что надо делать. Рас знаем позицию в каком-то юникоде и есть ссылка на статью на другом языке, значит теперь всё очевидно.
:wall:
Название: *разница между диерезисом и умлаутом
Отправлено: Python от декабря 17, 2019, 00:48
Было бы идеально, если бы в юникодице предусмотрели некий управляющий символ, превращающий позиционный диакритик в комбинируемый (хотя бы банальным сдвигом, по аналогии с нестирающим бекспейсом).
Название: *разница между диерезисом и умлаутом
Отправлено: Red Khan от декабря 17, 2019, 10:38
Цитата: Bhudh от декабря 17, 2019, 00:42
Цитата: Red Khan от декабря 16, 2019, 14:52
а что нужно нажать чтобы к символу присоединить отдельный диерезис?
(wiki/en) Unicode input :: In Microsoft Windows (https://en.wikipedia.org/wiki/Unicode_input#In_Microsoft_Windows)
Уникод-позиция диэрезиса: U-0308.
О, получилось в LibreOffice Writer набрать, спасибо! :)

Coöperation
Название: *разница между диерезисом и умлаутом
Отправлено: Red Khan от декабря 17, 2019, 11:58
Цитата: Red Khan от декабря 17, 2019, 10:38
Coöperation
Правда толку от этого разве только удовлетворения своего эстетствующего педантства, как выразился Лебедев.

Я думал может хотя бы такое написание будет находиться по запросу "cooperation", но нет, максимум по "coo". И ведь и вправду с чего бы это? Coo'peration же ведь не находится.

Получается особо никакой прикладной разницы между комбайном и прекомбайном нет? Кроме поддержки или неподдержки шрифтов.
Название: *разница между диерезисом и умлаутом
Отправлено: СНовосиба от декабря 17, 2019, 12:21
Цитата: Python от декабря 17, 2019, 00:48Было бы идеально, если бы в юникодице предусмотрели некий управляющий символ, превращающий позиционный диакритик в комбинируемый
Но зачем???
Название: *разница между диерезисом и умлаутом
Отправлено: СНовосиба от декабря 17, 2019, 12:25
Цитата: Red Khan от декабря 17, 2019, 11:58Я думал может хотя бы такое написание будет находиться по запросу "cooperation", но нет, максимум по "coo".
Если не находится, то у вас баг в программе. Комбинирующие диакритики - это стильно-модно-молодежный метод добавления к символам диакритики, и если его поведение отличается от поведения старых прекомбинированных символов, это говорит лишь о неверной реализации юникода в программе.
Название: *разница между диерезисом и умлаутом
Отправлено: Валентин Н от декабря 17, 2019, 12:39
Цитата: Red Khan от декабря 17, 2019, 11:58
Английское слово cooperation (взаимодействие) вообще-то надо писать как coöperation, потому что две буквы «о» в английском читаются как «у».
Кстати, в данном случае, этот диакритик выступает в роли, аналогичной твёрдому знаку, как разделитель.
В то время как тот же диакритик в другом языке может обозначать другую гласную.
Другими словами в немецком уместен символ Ö целиковый, тк это впринципе другая буква чем О, а в данном случае уместен комбинируемый, тк он добавляется к букве при определённых обстоятельствах.
Название: *разница между диерезисом и умлаутом
Отправлено: СНовосиба от декабря 17, 2019, 13:01
Цитата: Валентин Н от декабря 17, 2019, 12:39Другими словами в немецком уместен символ Ö целиковый, тк это впринципе другая буква чем О, а в данном случае уместен комбинируемый
Это ваши личные шмелизмы. Одно от другого отличается исключительно формой нормализации.
Название: *разница между диерезисом и умлаутом
Отправлено: Red Khan от декабря 17, 2019, 13:37
Цитата: СНовосиба от декабря 17, 2019, 12:25
Если не находится, то у вас баг в программе. Комбинирующие диакритики - это стильно-модно-молодежный метод добавления к символам диакритики, и если его поведение отличается от поведения старых прекомбинированных символов, это говорит лишь о неверной реализации юникода в программе.
Ну не знаю, Firefox 70.0.1 под Ubunut
Хотите сказать что ö (комбайн) и ö (прекомбайн) должны находится одинаково?
Название: *разница между диерезисом и умлаутом
Отправлено: Red Khan от декабря 17, 2019, 13:41
Цитата: Валентин Н от декабря 17, 2019, 12:39
Кстати, в данном случае, этот диакритик выступает в роли, аналогичной твёрдому знаку, как разделитель.
В то время как тот же диакритик в другом языке может обозначать другую гласную.
Другими словами в немецком уместен символ Ö целиковый, тк это впринципе другая буква чем О, а в данном случае уместен комбинируемый, тк он добавляется к букве при определённых обстоятельствах.
Так я и писал:
Цитата: Red Khan от декабря 15, 2019, 12:35
Погодите, почему диерезис греческий? Он ведь вполне во французском, испанском и даже английском используется.
Насколько я понял из Википедии (и не только из неё (https://www.newyorker.com/culture/culture-desk/the-curse-of-the-diaeresis)) это разные символы - диерезис ставится над второй гласной чтобы отметить что она читается отдельно, а умлаут является неотъемлемой частью буквы. Соответственно для диерезиса логично бы использовать комбайн, а для умлаута прекомбайн.
Но похоже на прикладной разнице в этом отношении нет. Даже в статье The New Yorker используется прекомбайн, хотя там прямо объясняется разница между диерезис и умлаутом.
Название: *разница между диерезисом и умлаутом
Отправлено: Bhudh от декабря 17, 2019, 13:44
Цитата: Red Khan от декабря 17, 2019, 13:37
Хотите сказать что ö (комбайн) и ö (прекомбайн) должны находится одинаково?
По идее-то да. И одновременно должен находиться отдельный диэрезис, будь он в тексте.
Но: разбиений композитов придумано аж 4 штуки, и мало кто из кодеров утруждается имплементировать их все в программе.
Хотя библиотеки сишные вроде есть такие.
Название: *разница между диерезисом и умлаутом
Отправлено: Red Khan от декабря 17, 2019, 14:13
Цитата: Bhudh от декабря 17, 2019, 13:44
И одновременно должен находиться отдельный диэрезис, будь он в тексте.
Находится, только в Firefox под Ubuntu не выделяется, так что трудно найти что он именно нашёл. В LibreOffice выделяется небольшая вертикальная полоска между буквой и пробелом.

Цитата: Bhudh от декабря 17, 2019, 13:44
Но: разбиений композитов придумано аж 4 штуки, и мало кто из кодеров утруждается имплементировать их все в программе.
Где можно поподробнее почитать?

Интересно, почему не догадались сделать так, чтобы поиск игнорировал диерезис. То есть чтобы coöperation находился по запросу cooperation, это же прямо просится.
Название: *разница между диерезисом и умлаутом
Отправлено: Валентин Н от декабря 17, 2019, 14:38
Цитата: СНовосиба от декабря 17, 2019, 13:01
Это ваши личные шмелизмы. Одно от другого отличается исключительно формой нормализации.
Нет, в одном случае этот элемент отличает одну букву от другой, а в другом указывает правила прочтения, с таким же успехом его можно ставить над h, чтоб отличить Ш от СХ – sḧavat'.
Название: *разница между диерезисом и умлаутом
Отправлено: СНовосиба от декабря 17, 2019, 14:47
Цитата: Red Khan от декабря 17, 2019, 14:13Где можно поподробнее почитать?

(wiki/en) Unicode_equivalence#Combining_and_precomposed_characters (https://en.wikipedia.org/wiki/Unicode_equivalence#Combining_and_precomposed_characters)

https://bugzilla.mozilla.org/show_bug.cgi?id=640856
Название: *разница между диерезисом и умлаутом
Отправлено: Red Khan от декабря 17, 2019, 15:02
СНовосиба, спасибо, буду изучать.
Название: *разница между диерезисом и умлаутом
Отправлено: Python от декабря 17, 2019, 16:37
Цитата: Валентин Н от декабря 17, 2019, 12:39
Цитата: Red Khan от декабря 17, 2019, 11:58
Английское слово cooperation (взаимодействие) вообще-то надо писать как coöperation, потому что две буквы «о» в английском читаются как «у».
Кстати, в данном случае, этот диакритик выступает в роли, аналогичной твёрдому знаку, как разделитель.
В то время как тот же диакритик в другом языке может обозначать другую гласную.
Другими словами в немецком уместен символ Ö целиковый, тк это впринципе другая буква чем О, а в данном случае уместен комбинируемый, тк он добавляется к букве при определённых обстоятельствах.
В немецком умлаут — всего лишь вариант записи буквы E. На титульных страницах книг или при недоступности нужных символов, немецкие умлауты разворачиваются в диграфы AE, OE, UE (а диерезисы — просто опускаются за ненадобностью). Иногда вместо умлаута маленькую букву e пишут над буквой. Возможно, стоило бы реализовать отдельный символ для умлаута, отличный от диерезиса, который отображался бы как диерезис или надстрочная e в зависимости от шрифта.
Название: *разница между диерезисом и умлаутом
Отправлено: Валентин Н от декабря 17, 2019, 17:49
Цитата: Python от декабря 17, 2019, 16:37
Возможно, стоило бы реализовать отдельный символ для умлаута, отличный от диерезиса, который отображался бы как диерезис или надстрочная e в зависимости от шрифта.
:+1: