Лингвофорум

Общий раздел => Наука и техника => Компьютеры => Тема начата: gasyoun от ноября 11, 2013, 23:19

Название: OCR текста на деванагари (в частности для санскрита)
Отправлено: gasyoun от ноября 11, 2013, 23:19
Господа,

  Как уже сообщалось (https://groups.google.com/forum/#!topic/nagari/6uH26K6_7MU) теперь из любой книги на деванагари можно получить .pdf с слоем текста (для поиска и копирования), или .rtf текст, который дальше напильником можно доводить до совершенства. На https://www.youtube.com/channel/UC5b8xpTyAzgS5ZZGEbO4I-Q все, что идет с заголовком Sanskrit OCR. За час фоновой работы книга в 112 стр. приобрела новую жизнь https://www.youtube.com/watch?v=RL_HgEwDtn0 Список книг, готовых и на очереди, http://is.gd/z5dvbL

М.Г.
Название: OCR-санскрит-временное
Отправлено: nin от января 20, 2014, 17:08
вырезано из Транслитерация санскритских слов на русский. (http://lingvoforum.net/index.php/topic,29924.25.html) - Гринь.

Здравствуйте! Подскажите пожалуйста какой програмой лучше сканировать и распознать хинди и санскрит. Пробовал поставить Chitrankan - ничего не получилось. Требует очень старую версию опирационной системы. Может есть что-то другое, уже испробованное.Заранее спасибо!
Название: OCR-санскрит-временное
Отправлено: Komar от января 20, 2014, 20:15
Цитата: nin от января 20, 2014, 17:08
Подскажите пожалуйста какой програмой лучше сканировать и распознать хинди и санскрит. Пробовал поставить Chitrankan - ничего не получилось.
Попробуйте SanskritOCR. Полная версия стоит около 150 евро. Но есть старая демка, из которой результат сканирования перетаскивается мышкой.
http://webfile.ru/827e9d62642d3d34deef4d97df732ff1
Название: OCR-санскрит-временное
Отправлено: gasyoun от января 23, 2014, 21:13
Сегодня закончил сканировать 3й том Вагбхаты, перевод Муртхи.
Вы же знаете http://ayurvedika.ru/forum/viewforum.php?id=3 ?
Немецкий переводчик Аштанги переводил ее 6.5 лет. Это второй
из двух известных мне немецких переводов. Книгу же дешевле на
http://bookvistas.com/ заказать. А также сразу Чараку и Сушруту.
У меня есть полноценная SanskritOCR, https://docs.google.com/document/d/1nbQuoK85R5I2ezbgOau0mDLE5pBkF4x-wbHrTSNr0p0/edit#heading=h.i5dab55s75ng - но там сверхбольшие файлы сразу нельзя обработать.
Название: OCR-санскрит-временное
Отправлено: Bhudh от января 23, 2014, 21:16
У меня открывается страница справки :what:.
Название: OCR-санскрит-временное
Отправлено: Komar от января 24, 2014, 04:42
Цитата: gasyoun от января 23, 2014, 21:13
У меня есть полноценная SanskritOCR

Ну и как? Какие улучшения по сравнению с первыми демками?
Название: OCR-санскрит-временное
Отправлено: gasyoun от января 25, 2014, 08:21
Цитата: Komar от января 24, 2014, 04:42
Какие улучшения по сравнению с первыми демками?

Я уже давно как все описал. https://docs.google.com/document/d/1Dr2DNOITiCHzDktWGr7QIt4CkHTHnp1cB4lfwU9rePw/edit список книг с встроенным OCR слоем на деванагари. Началось все с http://samskrtam.ru/hellwigs-devanagari-ocr/ Снял около десяти роликов, в частности https://www.youtube.com/watch?v=O_4Stj1fE_U Программа хорошая, хотя зависает на крупных файлах. Но дурацких ошибок как и в первых демках 5 лет назад еще хватает. Но теперь есть массовая обработка, а это реально важно и полезно.
Название: OCR-санскрит-временное
Отправлено: Lodur от января 25, 2014, 08:39
Подпишусь-ка на темку. Узнал много нового. ;)
Название: OCR-санскрит-временное
Отправлено: Bhudh от января 25, 2014, 22:12
Цитата: 1.2 RAM is used when software working.
Одна и две десятых всей памяти⁈
Это типа намёк на поюзать своп при любом количестве плашек?‥
Название: OCR-санскрит-временное
Отправлено: gasyoun от января 26, 2014, 07:18
У меня 2 рама, а в критические поменты программа забирает 1.8, то есть умирает. Для работы ей требуется 8 RAM DDR3 если в потоке больше 200 страниц. Это предположительно, ибо подобным аггрегатом не облагадаю, но из-за программы намерен собрать новый стационар.
Название: OCR-санскрит-временное
Отправлено: Bhudh от января 26, 2014, 08:12
Цитата: gasyoun от января 26, 2014, 07:18Для работы ей требуется 8 RAM DDR3
Во-первых, при чём тут тип памяти?
Во-вторых, 8 таки чего⁈
Название: OCR-санскрит-временное
Отправлено: Komar от января 26, 2014, 08:24
Цитата: gasyoun от января 25, 2014, 08:21
Я уже давно как все описал.
Где?

Послушал по ссылке на ютуб 20 минут неспешного невнятного мурлыканья. Из того, что увидел там, в программе добавилась возможность многостраничной обработки и есть возможность экспорта текста в txt, rtf, pdf с возможностью выбрать дэванагари в юникоде или транслит. (В демках никакого экспорта вообще нет, и протестировать эту важную часть программы нельзя.)

С латиницей так и не работает?

Цитата: gasyoun от января 26, 2014, 07:18
но из-за программы намерен собрать новый стационар.

Этот вопрос отдельно непонятен. Надо ли на каждую переустановку покупать новую лицензию? Во время первых демок я внимательно читал оливеровские условия. Там много места уделено тому, что Оливер ни за что не отвечает. Но с его стороны в явном виде была прописана только активация через интернет и 30-дневная информационная поддержка. Никакие повторные активации условиями не оговаривались.

Цитата: gasyoun от января 26, 2014, 07:18
У меня 2 рама, а в критические поменты программа забирает 1.8, то есть умирает. Для работы ей требуется 8 RAM DDR3
И этот человек ещё называет себя программистом.  :fp:
Название: OCR-санскрит-временное
Отправлено: gasyoun от января 26, 2014, 15:50
С латиницей не работает и работать не будет. Поддержка нормальная, на письма отвечает. Даже по скайпу позвонил. Программистом я себе не называю. Лицензия привязана к железу, так что нужно будет ему письмо писать. В демках действительно экспорта нет, этот кусок кода просто вырезан (не блокирован, а вырезан). С экспортои проблем нет. По сравнению с Аби, конечно, программа смешная, но базовые потребности выполняет.
Название: OCR-санскрит-временное
Отправлено: Komar от января 27, 2014, 19:59
Цитата: gasyoun от января 26, 2014, 15:50
С латиницей не работает и работать не будет.
Значит, программа навсегда останется полуфабрикатом. Печально.

Цитата: gasyoun от января 26, 2014, 15:50
Поддержка нормальная, на письма отвечает. Даже по скайпу позвонил.
Лицензия привязана к железу, так что нужно будет ему письмо писать.
Угу, здорово! Заплатив деньги, попадаешь в зависимость от разработчика. Писать ему письмо и надеяться, что у него будет хорошее настроение и он пойдёт тебе навстречу... А ещё ставить свечку чтобы не дай бог ему кирпич на голову не упал.

Цитата: gasyoun от января 26, 2014, 15:50
В демках действительно экспорта нет, этот кусок кода просто вырезан (не блокирован, а вырезан). С экспортои проблем нет. По сравнению с Аби, конечно, программа смешная, но базовые потребности выполняет.

Да, базовые потребности выполняет, причём довольно неплохо, но именно базовые. Можно использовать только для чисто индийских изданий, где всё в дэванагари. А взять санскритскую грамматику, и от этой программы никакого толку, т.к. не умеет она отделить английский от санскрита.

Скачал новую демку, глянул. И не понял, чем Оливер там занимается. Поменялся внешний вид программы. Экспорт проверить нельзя. Режим обучения недоступен. Текст распознаётся, да. Вроде бы, допилил раскладку для редактирования. Но банально добавить элементарные функции редактирования ему лень. Правка безоткатная. По ctrl+Z отменяет всё распознавание, спасибо хоть предупреждение выскакивает теперь, а то раньше просто всё стирал. Но если случайно при правке затёр слово, то или надо его по новой самому впечатывать или заново распознавать весь текст - это же чушь несусветная!

Заодно скачал потестил Тессеракт. Он умеет отделять английский от санскрита, но от этого мало толку, т.к. глядя на то, как он распознаёт дэванагари, у меня прямо слёзы наворачиваются. Ну... некоторые буквы он, конечно, угадывает, да. Но в целом выходит куча мусора, уже не поддающаяся какой-то правке. Может, конечно, я просто не нашёл правильных шаблонов для санскрита, но сдаётся мне, алгоритм ещё недоделанный у них. Лет через 10 должно выйти что-то путное.

Какие у нас ещё были альтернативы?
Название: OCR-санскрит-временное
Отправлено: gasyoun от января 27, 2014, 20:06
http://vietocr.sourceforge.net/ еще обучают. Знаю, потому что софтина использует мои иконки с http://www.fatcow.com/free-icons
Название: OCR-санскрит-временное
Отправлено: Komar от января 27, 2014, 20:11
Цитата: gasyoun от января 27, 2014, 20:06
http://vietocr.sourceforge.net/ еще обучают.
Это не софтина, а интерфейс для Тессеракта с дополнительным шаблоном для вьетнамского текста.
Название: OCR-санскрит-временное
Отправлено: novikovag от января 30, 2014, 00:18
Тессеракт это бидапечаль выброшенная гуглом на мороз  :'(
Как еще один вариант OCR для Деванагари: http://sourceforge.net/projects/dev-ocr/
Название: OCR-санскрит-временное
Отправлено: Komar от января 31, 2014, 14:24
Цитата: novikovag от января 30, 2014, 00:18
Как еще один вариант OCR для Деванагари: http://sourceforge.net/projects/dev-ocr/
Видел, но, честно говоря, не понял, к какому месту надо прикладывать выложенные там файлы.
Название: OCR-санскрит-временное
Отправлено: novikovag от января 31, 2014, 19:42
Цитата: Komar от января 31, 2014, 14:24
к какому месту надо прикладывать выложенные там файлы.

К JRE :D

1. Установит Java
http://www.java.com/en/download/
2. Скачать снэпшот программы и распаковать
http://sourceforge.net/p/dev-ocr/code/ci/master/tree/ 
2. По пути
C:\dev-ocr-code-aac724cc78baf010f29abab568159feba3311079\exe\bin
жмя jarRun.bat
Название: OCR-санскрит-временное
Отправлено: gasyoun от января 31, 2014, 21:06
На глаз ошибочно каждое 4е слово.
Интересно, какова же статистика.
Мусора все же больше, чем у Оливера, однако.
Название: OCR-санскрит-временное
Отправлено: novikovag от января 31, 2014, 22:18
Цитата: gasyoun от января 31, 2014, 21:06
На глаз ошибочно каждое 4е слово.
Интересно, какова же статистика.
Мусора все же больше, чем у Оливера, однако.
Я особо с ней не разбирался, вероятно можно добиться приемлемого результата. Возможность тренировки и поддержка словаря там имеются.
Название: OCR-санскрит-временное
Отправлено: gasyoun от февраля 1, 2014, 11:40
Тренировка не помогает, если не распознается "диакритика" - все, что над палубной линией. А этого нет. Поэтому все получается ерунда, ибо "диакритики" достаточно. См. https://www.youtube.com/watch?v=D7RaiSdDyY8
Название: OCR-санскрит-временное
Отправлено: Komar от февраля 4, 2014, 17:53
Цитата: novikovag от января 31, 2014, 19:42
2. Скачать снэпшот программы и распаковать
http://sourceforge.net/p/dev-ocr/code/ci/master/tree/
Даже с вашей подсказкой я только раза этак с десятого понял, что именно там надо качать.  :-[
И оно даже запустилось у меня. Но только протестировать работу я так и не смог, т.к. при попытке открыть файл то выдаёт ошибку, то подвисает. В том числе и на файлах из их собственных образцов. Стоит WinXP sp3 с последней версией Java. Попробовал на другом компе - то же самое. Уж не знаю, чего её не хватает... :(
Название: OCR-санскрит-временное
Отправлено: Komar от февраля 4, 2014, 17:59
Цитата: gasyoun от февраля  1, 2014, 11:40
См. https://www.youtube.com/watch?v=D7RaiSdDyY8
Что это за люди и какой смысл смотреть на них без звука?
Название: OCR-санскрит-временное
Отправлено: gasyoun от февраля 4, 2014, 18:16
Цитата: Komar от февраля  4, 2014, 17:59
Цитата: gasyoun от февраля  1, 2014, 11:40
См. https://www.youtube.com/watch?v=D7RaiSdDyY8
Что это за люди и какой смысл смотреть на них без звука?

1) (wiki/en) Daniel_H._H._Ingalls,_Sr (http://en.wikipedia.org/wiki/Daniel_H._H._Ingalls,_Sr). и
(wiki/en) Daniel_Henry_Holmes_Ingalls,_Jr (http://en.wikipedia.org/wiki/Daniel_Henry_Holmes_Ingalls,_Jr).
2) на 30й мин глянь, звук есть, проверил, включи колонки
Название: OCR-санскрит-временное
Отправлено: novikovag от февраля 4, 2014, 20:16
Цитата: Komar от февраля  4, 2014, 17:53
Уж не знаю, чего её не хватает... :(
Пути Java неисповедимы :D
Сейчас заново распаковал архив, даже тот файл примера с которого делала скриншот не открывается :-\
Название: OCR текста на деванагари (в частности для санскрита)
Отправлено: Komar от февраля 4, 2014, 20:43
Цитата: gasyoun от февраля  4, 2014, 18:16
на 30й мин глянь, звук есть, проверил, включи колонки
Хм, в самом деле есть звук. Я первый раз правый наушник вставлял, а там звук в левом канале.

Технология анализа буковок, конечно, любопытна. Но как она поможет нам - простым смертным?
Название: OCR текста на деванагари (в частности для санскрита)
Отправлено: gasyoun от марта 15, 2015, 20:44
Простым смертным - никак. Нужно или чтобы Оливер ее понял, или повторить весь трюк. То есть нужен программист с мозгом. С мега мозгом как у Ингалса.
Название: OCR текста на деванагари (в частности для санскрита)
Отправлено: novikovag от марта 15, 2015, 20:49
Мне вот интересен коммерческий потенциал распозновалок деванагари, сколько такой софт может принести прибыли.
Название: OCR текста на деванагари (в частности для санскрита)
Отправлено: gasyoun от марта 16, 2015, 04:26
Индусы охотно покупают платный софт.
Название: OCR текста на деванагари (в частности для санскрита)
Отправлено: Komar от марта 16, 2015, 06:31
Цитата: gasyoun от марта 16, 2015, 04:26
Индусы охотно покупают платный софт.
В таком разе, Оливер, должно быть, уже озолотился.
Название: OCR текста на деванагари (в частности для санскрита)
Отправлено: gasyoun от марта 16, 2015, 10:50
Ну индусов недостаточное количество :)
Название: OCR текста на деванагари (в частности для санскрита)
Отправлено: Komar от марта 16, 2015, 12:23
Цитата: gasyoun от марта 16, 2015, 10:50
Ну индусов недостаточное количество :)
Их чуточку меньше, чем китайцев. Если на миллион индусов нашёлся бы один, охотно покупающий платный софт, это уже был бы неплохой рынок.
Название: OCR текста на деванагари (в частности для санскрита)
Отправлено: novikovag от марта 16, 2015, 22:59
Есть идеи по поводу OCR, но за реализацию так и не взялся в виду туманной перспективы монетизации, хотя в рамках более крупного проекта (в который легче привлечь инвестиции) может получиться.
Название: OCR текста на деванагари (в частности для санскрита)
Отправлено: gasyoun от марта 16, 2015, 23:39
Теперь у меня 32 рама и i7, а прога все равно лягает.