Цитата: Тайльнемер от сентября 2, 2012, 04:51в одной языковой группе
в одной языковой группе?
Цитата: Алексей Гринь от сентября 2, 2012, 01:36Идо окситанскому — географический, культурный сосед, или в одной языковой группе?
оксит. → идо (B)
Цитата: Bhudh от сентября 2, 2012, 01:41Ну не знаю, насколько я знаю, они как-то сильно пересекаются только в Бельгии, в остальном там довольно большие расстояния (между Парижем и Амстердамом, ага?), что их связывает? Другое дело словацкий (Австро-Венгрия/сами венгры суть гаплогрупно омадьяренные словаки и т.д.) или Эстония/Латвия (маленький компактный регион, некий культурно-лингво-генетический континуум между Эстонией и Латвией и т.д.)
Почему не B? Вполне «неродственный географический/культурный сосед».
Цитата: Алексей Гринь от сентября 2, 2012, 01:36ст.-фр. Je puis mangier del voirre. Ne me nuit. → голландский (C)Почему не B? Вполне «неродственный географический/культурный сосед».
ЦитироватьДа, интересно будет поэкспериментировать с алгоритмом, который бы переводил латиницу обратно в кириллицу просто основываясь на статистическом распределении, и ничего больше.При том, что некоторые буквы кириллицы могут соответствовать диграфам латиницы.
Цитата: Bhudh от августа 30, 2012, 03:23Весь юникод.
Пока только латиница поддерживается?
Цитата: Bhudh от августа 30, 2012, 03:23Если в текстовом фрагменте нет какой-то буквы из алфавита сравниваемого языка, то вероятность понижается на процент важности этой буквы (один из шагов). Если буква не слишком «важная» (= «распространённая»), то она не сильно влияет на исход. Потом выбирается самый вероятный вариант из списка.
Определение по отдельным уникальным для определённых алфавитов буквам вообще присутствует
Цитата: Python от августа 30, 2012, 03:41Думаю, можно, если белорусский язык имеет принципиальное отличное от русского распределение букв. Но я не знаю (но в принципе вероятно, т.к. белорусская лексика сильно отличается от русской, много полонизмом, мало церковнославянизмов и т.д.)
Другой пример: представим белорусский текст в орфографии, аналогичной русской. Можно ли автоматически отличить его от русского
Цитата: Python от августа 30, 2012, 03:41Вот это кстати интересная задача! Но она из другой малость оперы. Да, интересно будет поэкспериментировать с алгоритмом, который бы переводил латиницу обратно в кириллицу просто основываясь на статистическом распределении, и ничего больше.
Еще пример: есть множество текстов на различных любительских латиницах. требуется найти среди них тексты на определенном языке (например, русском), в реальном мире использующем кириллицу или другую нелатинскую письменность.
Цитата: Алексей Гринь от августа 30, 2012, 00:59А там разве не по n-граммам?
Для интересу сделал простейший алгоритм автоматического определения языка (как в Google Translate) на основе буквенной статистики.
Страница создана за 0.069 сек. Запросов: 21.