Господа,
Как уже сообщалось (https://groups.google.com/forum/#!topic/nagari/6uH26K6_7MU) теперь из любой книги на деванагари можно получить .pdf с слоем текста (для поиска и копирования), или .rtf текст, который дальше напильником можно доводить до совершенства. На https://www.youtube.com/channel/UC5b8xpTyAzgS5ZZGEbO4I-Q все, что идет с заголовком Sanskrit OCR. За час фоновой работы книга в 112 стр. приобрела новую жизнь https://www.youtube.com/watch?v=RL_HgEwDtn0 Список книг, готовых и на очереди, http://is.gd/z5dvbL
М.Г.
вырезано из Транслитерация санскритских слов на русский. (http://lingvoforum.net/index.php/topic,29924.25.html) - Гринь.
Здравствуйте! Подскажите пожалуйста какой програмой лучше сканировать и распознать хинди и санскрит. Пробовал поставить Chitrankan - ничего не получилось. Требует очень старую версию опирационной системы. Может есть что-то другое, уже испробованное.Заранее спасибо!
Цитата: nin от января 20, 2014, 17:08
Подскажите пожалуйста какой програмой лучше сканировать и распознать хинди и санскрит. Пробовал поставить Chitrankan - ничего не получилось.
Попробуйте SanskritOCR. Полная версия стоит около 150 евро. Но есть старая демка, из которой результат сканирования перетаскивается мышкой.
http://webfile.ru/827e9d62642d3d34deef4d97df732ff1
Сегодня закончил сканировать 3й том Вагбхаты, перевод Муртхи.
Вы же знаете http://ayurvedika.ru/forum/viewforum.php?id=3 ?
Немецкий переводчик Аштанги переводил ее 6.5 лет. Это второй
из двух известных мне немецких переводов. Книгу же дешевле на
http://bookvistas.com/ заказать. А также сразу Чараку и Сушруту.
У меня есть полноценная SanskritOCR, https://docs.google.com/document/d/1nbQuoK85R5I2ezbgOau0mDLE5pBkF4x-wbHrTSNr0p0/edit#heading=h.i5dab55s75ng - но там сверхбольшие файлы сразу нельзя обработать.
У меня открывается страница справки :what:.
Цитата: gasyoun от января 23, 2014, 21:13
У меня есть полноценная SanskritOCR
Ну и как? Какие улучшения по сравнению с первыми демками?
Цитата: Komar от января 24, 2014, 04:42
Какие улучшения по сравнению с первыми демками?
Я уже давно как все описал. https://docs.google.com/document/d/1Dr2DNOITiCHzDktWGr7QIt4CkHTHnp1cB4lfwU9rePw/edit список книг с встроенным OCR слоем на деванагари. Началось все с http://samskrtam.ru/hellwigs-devanagari-ocr/ Снял около десяти роликов, в частности https://www.youtube.com/watch?v=O_4Stj1fE_U Программа хорошая, хотя зависает на крупных файлах. Но дурацких ошибок как и в первых демках 5 лет назад еще хватает. Но теперь есть массовая обработка, а это реально важно и полезно.
Подпишусь-ка на темку. Узнал много нового. ;)
Цитата: 1.2 RAM is used when software working.
Одна и две десятых всей памяти⁈
Это типа намёк на поюзать своп при любом количестве плашек?‥
У меня 2 рама, а в критические поменты программа забирает 1.8, то есть умирает. Для работы ей требуется 8 RAM DDR3 если в потоке больше 200 страниц. Это предположительно, ибо подобным аггрегатом не облагадаю, но из-за программы намерен собрать новый стационар.
Цитата: gasyoun от января 26, 2014, 07:18Для работы ей требуется 8 RAM DDR3
Во-первых, при чём тут тип памяти?
Во-вторых, 8
таки чего⁈
Цитата: gasyoun от января 25, 2014, 08:21
Я уже давно как все описал.
Где?
Послушал по ссылке на ютуб 20 минут неспешного невнятного мурлыканья. Из того, что увидел там, в программе добавилась возможность многостраничной обработки и есть возможность экспорта текста в txt, rtf, pdf с возможностью выбрать дэванагари в юникоде или транслит. (В демках никакого экспорта вообще нет, и протестировать эту важную часть программы нельзя.)
С латиницей так и не работает?
Цитата: gasyoun от января 26, 2014, 07:18
но из-за программы намерен собрать новый стационар.
Этот вопрос отдельно непонятен. Надо ли на каждую переустановку покупать новую лицензию? Во время первых демок я внимательно читал оливеровские условия. Там много места уделено тому, что Оливер ни за что не отвечает. Но с его стороны в явном виде была прописана только активация через интернет и 30-дневная информационная поддержка. Никакие повторные активации условиями не оговаривались.
Цитата: gasyoun от января 26, 2014, 07:18
У меня 2 рама, а в критические поменты программа забирает 1.8, то есть умирает. Для работы ей требуется 8 RAM DDR3
И этот человек ещё называет себя программистом. :fp:
С латиницей не работает и работать не будет. Поддержка нормальная, на письма отвечает. Даже по скайпу позвонил. Программистом я себе не называю. Лицензия привязана к железу, так что нужно будет ему письмо писать. В демках действительно экспорта нет, этот кусок кода просто вырезан (не блокирован, а вырезан). С экспортои проблем нет. По сравнению с Аби, конечно, программа смешная, но базовые потребности выполняет.
Цитата: gasyoun от января 26, 2014, 15:50
С латиницей не работает и работать не будет.
Значит, программа навсегда останется полуфабрикатом. Печально.
Цитата: gasyoun от января 26, 2014, 15:50
Поддержка нормальная, на письма отвечает. Даже по скайпу позвонил.
Лицензия привязана к железу, так что нужно будет ему письмо писать.
Угу, здорово! Заплатив деньги, попадаешь в зависимость от разработчика. Писать ему письмо и надеяться, что у него будет хорошее настроение и он пойдёт тебе навстречу... А ещё ставить свечку чтобы не дай бог ему кирпич на голову не упал.
Цитата: gasyoun от января 26, 2014, 15:50
В демках действительно экспорта нет, этот кусок кода просто вырезан (не блокирован, а вырезан). С экспортои проблем нет. По сравнению с Аби, конечно, программа смешная, но базовые потребности выполняет.
Да, базовые потребности выполняет, причём довольно неплохо, но именно базовые. Можно использовать только для чисто индийских изданий, где всё в дэванагари. А взять санскритскую грамматику, и от этой программы никакого толку, т.к. не умеет она отделить английский от санскрита.
Скачал новую демку, глянул. И не понял, чем Оливер там занимается. Поменялся внешний вид программы. Экспорт проверить нельзя. Режим обучения недоступен. Текст распознаётся, да. Вроде бы, допилил раскладку для редактирования. Но банально добавить элементарные функции редактирования ему лень. Правка безоткатная. По ctrl+Z отменяет всё распознавание, спасибо хоть предупреждение выскакивает теперь, а то раньше просто всё стирал. Но если случайно при правке затёр слово, то или надо его по новой самому впечатывать или заново распознавать весь текст - это же чушь несусветная!
Заодно скачал потестил Тессеракт. Он умеет отделять английский от санскрита, но от этого мало толку, т.к. глядя на то, как он распознаёт дэванагари, у меня прямо слёзы наворачиваются. Ну... некоторые буквы он, конечно, угадывает, да. Но в целом выходит куча мусора, уже не поддающаяся какой-то правке. Может, конечно, я просто не нашёл правильных шаблонов для санскрита, но сдаётся мне, алгоритм ещё недоделанный у них. Лет через 10 должно выйти что-то путное.
Какие у нас ещё были альтернативы?
http://vietocr.sourceforge.net/ еще обучают. Знаю, потому что софтина использует мои иконки с http://www.fatcow.com/free-icons
Цитата: gasyoun от января 27, 2014, 20:06
http://vietocr.sourceforge.net/ еще обучают.
Это не софтина, а интерфейс для Тессеракта с дополнительным шаблоном для вьетнамского текста.
Тессеракт это бидапечаль выброшенная гуглом на мороз :'(
Как еще один вариант OCR для Деванагари: http://sourceforge.net/projects/dev-ocr/
Цитата: novikovag от января 30, 2014, 00:18
Как еще один вариант OCR для Деванагари: http://sourceforge.net/projects/dev-ocr/
Видел, но, честно говоря, не понял, к какому месту надо прикладывать выложенные там файлы.
Цитата: Komar от января 31, 2014, 14:24
к какому месту надо прикладывать выложенные там файлы.
К JRE :D
1. Установит Java
http://www.java.com/en/download/
2. Скачать снэпшот программы и распаковать
http://sourceforge.net/p/dev-ocr/code/ci/master/tree/
2. По пути
C:\dev-ocr-code-aac724cc78baf010f29abab568159feba3311079\exe\bin
жмя jarRun.bat
На глаз ошибочно каждое 4е слово.
Интересно, какова же статистика.
Мусора все же больше, чем у Оливера, однако.
Цитата: gasyoun от января 31, 2014, 21:06
На глаз ошибочно каждое 4е слово.
Интересно, какова же статистика.
Мусора все же больше, чем у Оливера, однако.
Я особо с ней не разбирался, вероятно можно добиться приемлемого результата. Возможность тренировки и поддержка словаря там имеются.
Тренировка не помогает, если не распознается "диакритика" - все, что над палубной линией. А этого нет. Поэтому все получается ерунда, ибо "диакритики" достаточно. См. https://www.youtube.com/watch?v=D7RaiSdDyY8
Цитата: novikovag от января 31, 2014, 19:42
2. Скачать снэпшот программы и распаковать
http://sourceforge.net/p/dev-ocr/code/ci/master/tree/
Даже с вашей подсказкой я только раза этак с десятого понял, что именно там надо качать. :-[
И оно даже запустилось у меня. Но только протестировать работу я так и не смог, т.к. при попытке открыть файл то выдаёт ошибку, то подвисает. В том числе и на файлах из их собственных образцов. Стоит WinXP sp3 с последней версией Java. Попробовал на другом компе - то же самое. Уж не знаю, чего её не хватает... :(
Цитата: gasyoun от февраля 1, 2014, 11:40
См. https://www.youtube.com/watch?v=D7RaiSdDyY8
Что это за люди и какой смысл смотреть на них без звука?
Цитата: Komar от февраля 4, 2014, 17:59
Цитата: gasyoun от февраля 1, 2014, 11:40
См. https://www.youtube.com/watch?v=D7RaiSdDyY8
Что это за люди и какой смысл смотреть на них без звука?
1) (wiki/en) Daniel_H._H._Ingalls,_Sr (http://en.wikipedia.org/wiki/Daniel_H._H._Ingalls,_Sr). и
(wiki/en) Daniel_Henry_Holmes_Ingalls,_Jr (http://en.wikipedia.org/wiki/Daniel_Henry_Holmes_Ingalls,_Jr).
2) на 30й мин глянь, звук есть, проверил, включи колонки
Цитата: Komar от февраля 4, 2014, 17:53
Уж не знаю, чего её не хватает... :(
Пути Java неисповедимы :D
Сейчас заново распаковал архив, даже тот файл примера с которого делала скриншот не открывается :-\
Цитата: gasyoun от февраля 4, 2014, 18:16
на 30й мин глянь, звук есть, проверил, включи колонки
Хм, в самом деле есть звук. Я первый раз правый наушник вставлял, а там звук в левом канале.
Технология анализа буковок, конечно, любопытна. Но как она поможет нам - простым смертным?
Простым смертным - никак. Нужно или чтобы Оливер ее понял, или повторить весь трюк. То есть нужен программист с мозгом. С мега мозгом как у Ингалса.
Мне вот интересен коммерческий потенциал распозновалок деванагари, сколько такой софт может принести прибыли.
Индусы охотно покупают платный софт.
Цитата: gasyoun от марта 16, 2015, 04:26
Индусы охотно покупают платный софт.
В таком разе, Оливер, должно быть, уже озолотился.
Ну индусов недостаточное количество :)
Цитата: gasyoun от марта 16, 2015, 10:50
Ну индусов недостаточное количество :)
Их чуточку меньше, чем китайцев. Если на миллион индусов нашёлся бы один, охотно покупающий платный софт, это уже был бы неплохой рынок.
Есть идеи по поводу OCR, но за реализацию так и не взялся в виду туманной перспективы монетизации, хотя в рамках более крупного проекта (в который легче привлечь инвестиции) может получиться.
Теперь у меня 32 рама и i7, а прога все равно лягает.