Лингвофорум

Теоретический раздел => Прикладная лингвистика => Компьютерная лингвистика => Тема начата: gasyoun от сентября 24, 2013, 10:06

Название: Паралельные корпусы на разных языках
Отправлено: gasyoun от сентября 24, 2013, 10:06
Есть ли программа (желательно) или сайт, чтобы какой-то корпус тексток был хотя бы на 2 языках?
Например, Махабхарата на санскрите и на английском. Типа http://www.claysanskritlibrary.org/corpus.php (только тут дело осталось на уровне скриншотов). Интересны любые сочетания языков. Ибо интересен механизм раскидивания текстов.
Пользуется ли кто-то http://www.tei-c.org/index.xml разметкой?
В частности.

Глава 288
Маркандея сказал:
1. Услышав, что Кумбхакарна и его младшие братья убиты
                     в сраженьи,
А также великий витязь Праститха и великолепный
                     Дхумракша.
2. Молвил сыну, витязю Индраджиту, Равана:
— Порази Раму, врагоубийца, Сугриву и Лакшману.
3. Ты мой старший сын, ты завоевал блестящую славу,
Победив в сраженьи держащего громы тысячеглазого
               супруга Шачи (Индру).

Чтобы подобный текст раскидать по соответствующим номерам шлок - без копипаста.  :srch:
Название: Паралельные корпусы на разных языках
Отправлено: gasyoun от октября 2, 2013, 16:32
Пользовался ли кто-то инструментами для сопоставлений предложений в текстах разных языков?
http://mokk.bme.hu/resources/hunalign/
https://sourceforge.net/projects/uplug/́