Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

OCR текста на деванагари (в частности для санскрита)

Автор gasyoun, ноября 11, 2013, 23:19

0 Пользователи и 1 гость просматривают эту тему.

gasyoun

Господа,

  Как уже сообщалось теперь из любой книги на деванагари можно получить .pdf с слоем текста (для поиска и копирования), или .rtf текст, который дальше напильником можно доводить до совершенства. На https://www.youtube.com/channel/UC5b8xpTyAzgS5ZZGEbO4I-Q все, что идет с заголовком Sanskrit OCR. За час фоновой работы книга в 112 стр. приобрела новую жизнь https://www.youtube.com/watch?v=RL_HgEwDtn0 Список книг, готовых и на очереди, http://is.gd/z5dvbL

М.Г.
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

nin

вырезано из Транслитерация санскритских слов на русский. - Гринь.

Здравствуйте! Подскажите пожалуйста какой програмой лучше сканировать и распознать хинди и санскрит. Пробовал поставить Chitrankan - ничего не получилось. Требует очень старую версию опирационной системы. Может есть что-то другое, уже испробованное.Заранее спасибо!

Komar

Цитата: nin от января 20, 2014, 17:08
Подскажите пожалуйста какой програмой лучше сканировать и распознать хинди и санскрит. Пробовал поставить Chitrankan - ничего не получилось.
Попробуйте SanskritOCR. Полная версия стоит около 150 евро. Но есть старая демка, из которой результат сканирования перетаскивается мышкой.
http://webfile.ru/827e9d62642d3d34deef4d97df732ff1
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

gasyoun

Сегодня закончил сканировать 3й том Вагбхаты, перевод Муртхи.
Вы же знаете http://ayurvedika.ru/forum/viewforum.php?id=3 ?
Немецкий переводчик Аштанги переводил ее 6.5 лет. Это второй
из двух известных мне немецких переводов. Книгу же дешевле на
http://bookvistas.com/ заказать. А также сразу Чараку и Сушруту.
У меня есть полноценная SanskritOCR, https://docs.google.com/document/d/1nbQuoK85R5I2ezbgOau0mDLE5pBkF4x-wbHrTSNr0p0/edit#heading=h.i5dab55s75ng - но там сверхбольшие файлы сразу нельзя обработать.
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Komar

Цитата: gasyoun от января 23, 2014, 21:13
У меня есть полноценная SanskritOCR

Ну и как? Какие улучшения по сравнению с первыми демками?
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

gasyoun

Цитата: Komar от января 24, 2014, 04:42
Какие улучшения по сравнению с первыми демками?

Я уже давно как все описал. https://docs.google.com/document/d/1Dr2DNOITiCHzDktWGr7QIt4CkHTHnp1cB4lfwU9rePw/edit список книг с встроенным OCR слоем на деванагари. Началось все с http://samskrtam.ru/hellwigs-devanagari-ocr/ Снял около десяти роликов, в частности https://www.youtube.com/watch?v=O_4Stj1fE_U Программа хорошая, хотя зависает на крупных файлах. Но дурацких ошибок как и в первых демках 5 лет назад еще хватает. Но теперь есть массовая обработка, а это реально важно и полезно.
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

Lodur

8-й Девственник Лингвофорума

If the doors of perception were cleansed, everything would appear to man as it is: infinite. (W. Blake)
Какая потребителю разница, какой продукт лучше не работает?.. (Awwal12)

Bhudh

Цитата: 1.2 RAM is used when software working.
Одна и две десятых всей памяти⁈
Это типа намёк на поюзать своп при любом количестве плашек?‥
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

gasyoun

У меня 2 рама, а в критические поменты программа забирает 1.8, то есть умирает. Для работы ей требуется 8 RAM DDR3 если в потоке больше 200 страниц. Это предположительно, ибо подобным аггрегатом не облагадаю, но из-за программы намерен собрать новый стационар.
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

Bhudh

Цитата: gasyoun от января 26, 2014, 07:18Для работы ей требуется 8 RAM DDR3
Во-первых, при чём тут тип памяти?
Во-вторых, 8 таки чего⁈
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Komar

Цитата: gasyoun от января 25, 2014, 08:21
Я уже давно как все описал.
Где?

Послушал по ссылке на ютуб 20 минут неспешного невнятного мурлыканья. Из того, что увидел там, в программе добавилась возможность многостраничной обработки и есть возможность экспорта текста в txt, rtf, pdf с возможностью выбрать дэванагари в юникоде или транслит. (В демках никакого экспорта вообще нет, и протестировать эту важную часть программы нельзя.)

С латиницей так и не работает?

Цитата: gasyoun от января 26, 2014, 07:18
но из-за программы намерен собрать новый стационар.

Этот вопрос отдельно непонятен. Надо ли на каждую переустановку покупать новую лицензию? Во время первых демок я внимательно читал оливеровские условия. Там много места уделено тому, что Оливер ни за что не отвечает. Но с его стороны в явном виде была прописана только активация через интернет и 30-дневная информационная поддержка. Никакие повторные активации условиями не оговаривались.

Цитата: gasyoun от января 26, 2014, 07:18
У меня 2 рама, а в критические поменты программа забирает 1.8, то есть умирает. Для работы ей требуется 8 RAM DDR3
И этот человек ещё называет себя программистом.  :fp:
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

gasyoun

С латиницей не работает и работать не будет. Поддержка нормальная, на письма отвечает. Даже по скайпу позвонил. Программистом я себе не называю. Лицензия привязана к железу, так что нужно будет ему письмо писать. В демках действительно экспорта нет, этот кусок кода просто вырезан (не блокирован, а вырезан). С экспортои проблем нет. По сравнению с Аби, конечно, программа смешная, но базовые потребности выполняет.
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

Komar

Цитата: gasyoun от января 26, 2014, 15:50
С латиницей не работает и работать не будет.
Значит, программа навсегда останется полуфабрикатом. Печально.

Цитата: gasyoun от января 26, 2014, 15:50
Поддержка нормальная, на письма отвечает. Даже по скайпу позвонил.
Лицензия привязана к железу, так что нужно будет ему письмо писать.
Угу, здорово! Заплатив деньги, попадаешь в зависимость от разработчика. Писать ему письмо и надеяться, что у него будет хорошее настроение и он пойдёт тебе навстречу... А ещё ставить свечку чтобы не дай бог ему кирпич на голову не упал.

Цитата: gasyoun от января 26, 2014, 15:50
В демках действительно экспорта нет, этот кусок кода просто вырезан (не блокирован, а вырезан). С экспортои проблем нет. По сравнению с Аби, конечно, программа смешная, но базовые потребности выполняет.

Да, базовые потребности выполняет, причём довольно неплохо, но именно базовые. Можно использовать только для чисто индийских изданий, где всё в дэванагари. А взять санскритскую грамматику, и от этой программы никакого толку, т.к. не умеет она отделить английский от санскрита.

Скачал новую демку, глянул. И не понял, чем Оливер там занимается. Поменялся внешний вид программы. Экспорт проверить нельзя. Режим обучения недоступен. Текст распознаётся, да. Вроде бы, допилил раскладку для редактирования. Но банально добавить элементарные функции редактирования ему лень. Правка безоткатная. По ctrl+Z отменяет всё распознавание, спасибо хоть предупреждение выскакивает теперь, а то раньше просто всё стирал. Но если случайно при правке затёр слово, то или надо его по новой самому впечатывать или заново распознавать весь текст - это же чушь несусветная!

Заодно скачал потестил Тессеракт. Он умеет отделять английский от санскрита, но от этого мало толку, т.к. глядя на то, как он распознаёт дэванагари, у меня прямо слёзы наворачиваются. Ну... некоторые буквы он, конечно, угадывает, да. Но в целом выходит куча мусора, уже не поддающаяся какой-то правке. Может, конечно, я просто не нашёл правильных шаблонов для санскрита, но сдаётся мне, алгоритм ещё недоделанный у них. Лет через 10 должно выйти что-то путное.

Какие у нас ещё были альтернативы?
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

gasyoun

http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

Komar

Цитата: gasyoun от января 27, 2014, 20:06
http://vietocr.sourceforge.net/ еще обучают.
Это не софтина, а интерфейс для Тессеракта с дополнительным шаблоном для вьетнамского текста.
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

novikovag

Тессеракт это бидапечаль выброшенная гуглом на мороз  :'(
Как еще один вариант OCR для Деванагари: http://sourceforge.net/projects/dev-ocr/

Komar

Цитата: novikovag от января 30, 2014, 00:18
Как еще один вариант OCR для Деванагари: http://sourceforge.net/projects/dev-ocr/
Видел, но, честно говоря, не понял, к какому месту надо прикладывать выложенные там файлы.
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

novikovag

Цитата: Komar от января 31, 2014, 14:24
к какому месту надо прикладывать выложенные там файлы.

К JRE :D

1. Установит Java
http://www.java.com/en/download/
2. Скачать снэпшот программы и распаковать
http://sourceforge.net/p/dev-ocr/code/ci/master/tree/ 
2. По пути
C:\dev-ocr-code-aac724cc78baf010f29abab568159feba3311079\exe\bin
жмя jarRun.bat

gasyoun

На глаз ошибочно каждое 4е слово.
Интересно, какова же статистика.
Мусора все же больше, чем у Оливера, однако.
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

novikovag

Цитата: gasyoun от января 31, 2014, 21:06
На глаз ошибочно каждое 4е слово.
Интересно, какова же статистика.
Мусора все же больше, чем у Оливера, однако.
Я особо с ней не разбирался, вероятно можно добиться приемлемого результата. Возможность тренировки и поддержка словаря там имеются.

gasyoun

Тренировка не помогает, если не распознается "диакритика" - все, что над палубной линией. А этого нет. Поэтому все получается ерунда, ибо "диакритики" достаточно. См. https://www.youtube.com/watch?v=D7RaiSdDyY8
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

Komar

Цитата: novikovag от января 31, 2014, 19:42
2. Скачать снэпшот программы и распаковать
http://sourceforge.net/p/dev-ocr/code/ci/master/tree/
Даже с вашей подсказкой я только раза этак с десятого понял, что именно там надо качать.  :-[
И оно даже запустилось у меня. Но только протестировать работу я так и не смог, т.к. при попытке открыть файл то выдаёт ошибку, то подвисает. В том числе и на файлах из их собственных образцов. Стоит WinXP sp3 с последней версией Java. Попробовал на другом компе - то же самое. Уж не знаю, чего её не хватает... :(
Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

Komar

Всему свое время, и время всякой вещи под небом: время рождаться, и время умирать; время насаждать, и время вырывать; время разбрасывать, и время собирать; время молчать, и время флудить.

gasyoun

http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр