Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.
Ограничения: максимум вложений в сообщении — 3 (3 осталось), максимальный размер всех файлов — 300 КБ, максимальный размер одного файла — 100 КБ
Снимите пометку с вложений, которые необходимо удалить
Перетащите файлы сюда или используйте кнопку для добавления файлов
Вложения и другие параметры
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр

Сообщения в этой теме

Автор Алексей Гринь
 - сентября 2, 2012, 05:55
Цитата: Тайльнемер от сентября  2, 2012, 04:51
в одной языковой группе?
в одной языковой группе :D EBIN
Автор Тайльнемер
 - сентября 2, 2012, 04:51
Цитата: Алексей Гринь от сентября  2, 2012, 01:36
оксит. → идо (B)
Идо окситанскому — географический, культурный сосед, или в одной языковой группе?
Автор Алексей Гринь
 - сентября 2, 2012, 04:13
Пересчитал фризский, всё-таки английский для него наиболее близкий язык, это не просто сосед.

Цитата: Bhudh от сентября  2, 2012, 01:41
Почему не B? Вполне «неродственный географический/культурный сосед».
Ну не знаю, насколько я знаю, они как-то сильно пересекаются только в Бельгии, в остальном там довольно большие расстояния (между Парижем и Амстердамом, ага?), что их связывает? Другое дело словацкий (Австро-Венгрия/сами венгры суть гаплогрупно омадьяренные словаки и т.д.) или Эстония/Латвия (маленький компактный регион, некий культурно-лингво-генетический континуум между Эстонией и Латвией и т.д.)
Автор Bhudh
 - сентября 2, 2012, 01:41
Цитата: Алексей Гринь от сентября  2, 2012, 01:36ст.-фр. Je puis mangier del voirre. Ne me nuit. → голландский (C)
Почему не B? Вполне «неродственный географический/культурный сосед».
Автор Алексей Гринь
 - сентября 2, 2012, 01:36
Проверка на весёлое распознавание языков, отсутствующих в базе, на небольшой фразе. Берутся только языки, родственные существующим в базе.

Сделаем систему оценок:
A – самый близкий родственник (или непосредственный потомок/прародитель), «попал»;
B – попал в неродственного географического/культурного соседа; или попал в отдалённого родственника языковой группы (герм., слав. и т. д.);
C – мимо.

др.греч. ὕαλον ϕαγεῖν δύναμαι· τοῦτο οὔ με βλάπτει → распознан как новогреческий (A)
ст.-фр. Je puis mangier del voirre. Ne me nuit. → голландский (C)
оксит. Pòdi manjar de veire, me nafrariá pas → идо (B)
галлис. Eu podo xantar cristais e non cortarme → итальянский (B)
корн. Mý a yl dybry gwéder hag éf ny wra ow ankenya → валлийский (A)
англо-сакс. Ic mæg glæs eotan ond hit ne hearmiað me → английский (A)
др.-сканд. Ek get etið gler án þess að verða sár → датский (A)
фар. Eg kann eta glas, skaðaleysur → малайский (C)
фриз. Ik kin glês ite, it docht me net sear → английский (A)
люксемб. Ech kan Glas iessen, daat deet mir nët wei → африкаанс (64,2) (но 2-ое место: немецкий, 69,2) (B)
бавар. I koh Glos esa, und es duard ma ned wei →  африкаанс (B)
сев.-саам. Sáhtán borrat lása, dat ii leat bávččas → эстонский (B)
южно-кар. Minä voin syvvä st'oklua dai minule ei ole kibie → финский (A)
латв. Es varu ēst stiklu, tas man nekaitē → эстонский (B)
слов. Môžem jesť sklo. Nezraní ma → венгерский (B)
болг. Мога да ям стъкло, то не ми вреди → русский (B)

Итого получаем:
37.5% – A
50.0% – B
12.5% – C

Автор Python
 - августа 30, 2012, 18:42
ЦитироватьДа, интересно будет поэкспериментировать с алгоритмом, который бы переводил латиницу обратно в кириллицу просто основываясь на статистическом распределении, и ничего больше.
При том, что некоторые буквы кириллицы могут соответствовать диграфам латиницы.
Автор Алексей Гринь
 - августа 30, 2012, 15:58
Мне вообще это интересно в том отношении, что после пополнения базы данных достаточным количеством языков, я хочу подсунуть ему неклассифицированные, и посмотреть что выйдет, просто ради забавы. Поэтому я не использую и не буду использовать модели, основанные на каких-то конкретных словах/сочетаниях. Ведь что забавно получается пока что, родственные языки кучкуются меж собой (но многое шибко зависит от особенностей конкретного алфавита, поэтому нужно в будущем привести всё к некоему общему псевдо-фонематическому алфавиту).

Цитата: Bhudh от августа 30, 2012, 03:23
Пока только латиница поддерживается?
Весь юникод.

Цитата: Bhudh от августа 30, 2012, 03:23
Определение по отдельным уникальным для определённых алфавитов буквам вообще присутствует
Если в текстовом фрагменте нет какой-то буквы из алфавита сравниваемого языка, то вероятность понижается на процент важности этой буквы (один из шагов). Если буква не слишком «важная» (= «распространённая»), то она не сильно влияет на исход. Потом выбирается самый вероятный вариант из списка.

Цитата: Python от августа 30, 2012, 03:41
Другой пример: представим белорусский текст в орфографии, аналогичной русской. Можно ли автоматически отличить его от русского
Думаю, можно, если белорусский язык имеет принципиальное отличное от русского распределение букв. Но я не знаю (но в принципе вероятно, т.к. белорусская лексика сильно отличается от русской, много полонизмом, мало церковнославянизмов и т.д.)

Цитата: Python от августа 30, 2012, 03:41
Еще пример: есть множество текстов на различных любительских латиницах. требуется найти среди них тексты на определенном языке (например, русском), в реальном мире использующем кириллицу или другую нелатинскую письменность.
Вот это кстати интересная задача! Но она из другой малость оперы. Да, интересно будет поэкспериментировать с алгоритмом, который бы переводил латиницу обратно в кириллицу просто основываясь на статистическом распределении, и ничего больше.
Автор Alone Coder
 - августа 30, 2012, 15:44
У меня вот AkelPad всё время норовит текст в Win1251, который начинается с

?недешёвый, дешёвый
?темно-коричневый, коричневый /ьн/
дворцовый /ьц/
свинцовый /ьц/
образцовый /ьц/
пуховый
гороховый
ореховый
неистовый, истовый
оптовый
сотовый
дворовый
липовый
сосновый
слоновый
малиновый /ин/

открыть как KOI-8.
Что я только не пробовал. И в начало вставлял другие куски текста, и в конец.
Автор Alone Coder
 - августа 30, 2012, 08:43
Цитата: Алексей Гринь от августа 30, 2012, 00:59
Для интересу сделал простейший алгоритм автоматического определения языка (как в Google Translate) на основе буквенной статистики.
А там разве не по n-граммам?
Автор Python
 - августа 30, 2012, 03:41
А если расширить задачу? Например, в ХІХ веке существовало множество украинских орфографий, часто несовместимых между собой, различия между которыми затрагивали не только графическую форму, но и методику обозначения фонем. Тем не менее, человек может как-то определить, является ли текст украинским.
Другой пример: представим белорусский текст в орфографии, аналогичной русской. Можно ли автоматически отличить его от русского (при том, что другие примеры текстов в данной орфографии отсутствуют)?
Еще пример: есть множество текстов на различных любительских латиницах. требуется найти среди них тексты на определенном языке (например, русском), в реальном мире использующем кириллицу или другую нелатинскую письменность.

Можно ли формализовать задачу определения языка, абстрагировавшись при этом от конкретной письменности?