Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Как отсканировать библиотеку

Автор Imp, июня 20, 2014, 13:51

0 Пользователи и 1 гость просматривают эту тему.

mnashe

Цитата: antic от июня 22, 2014, 10:00
Цитата: mnashe от июня 22, 2014, 09:23разрезке на страницы
НЕ факт, что это так уж необходимо. Разворот из двух страниц нормально на экран ложится, так даже удобней, чем просматривать по одной странице.
Если ты делаешь скан исключительно для себя — можно и не разрезать.
Если ты хочешь, чтобы этим сканом пользовались люди — то не стоит халтурить.
Разрезанные страницы можно читать как в виде разворотов на широком экране (выставляя соответствующую настройку в меню View), так и в виде страницы на планшетнике.
Халтуру с неразрезанными разворотами на планшетнике не почитаешь — приходится постоянно двигать страницу влево-вправо-вверх-вниз.

Цитата: antic от июня 22, 2014, 10:00
Цитата: mnashe от июня 22, 2014, 09:23подрезанию полей
А это-то зачем? Текст без полей очень неприятно смотрится.
Затем, чтобы поля со всех сторон были одинаковыми, а не скакали как попало.
Подрезание полей вовсе не означает, что полей не будет вообще. Программа сначала срезает лишнее, а потом симметрично добавляет поля (в соответствии с настройками) со всех сторон — получается аккуратно, красиво.
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

Imp

А что будет если я попробую сделать OCR для узбекско-английского словаря? Как я понимаю, узбекский большинство программ не распознаёт. Можно ли сделать так, чтобы распозналась хотя бы английская часть текста, то есть чтобы в будущем в PDF файле этого словаря можно было делать поиск по английскому тексту? Или надо обязательно, чтобы или всё распознавалось, или ничего?
海賊王に俺はなる

Oleg Grom

Цитата: Skvodo от июня 22, 2014, 04:04
Из-за сложных настроек формата, создание качественного djvu-файла требует большого опыта. Поэтому, например, на http://twirpx.com качественные djvu-книжки "собственного" производства выкладывают единицы пользователей.
эээ. Вообще-то создание pdf от djvu из сканов отличается только на одном этапе. И в чем сложность? Выбрать нужный пресет из 10? В 99% случаев этого достаточно.

Oleg Grom

Цитата: Imp от июня 22, 2014, 10:25
А что будет если я попробую сделать OCR для узбекско-английского словаря? Как я понимаю, узбекский большинство программ не распознаёт. Можно ли сделать так, чтобы распозналась хотя бы английская часть текста, то есть чтобы в будущем в PDF файле этого словаря можно было делать поиск по английскому тексту? Или надо обязательно, чтобы или всё распознавалось, или ничего?

mnashe

Цитата: Oleg Grom от июня 22, 2014, 10:26
И в чем сложность? Выбрать нужный пресет из 10? В 99% случаев этого достаточно.
Видимо, имеются в виду комбинированные страницы (большая часть — текст, но есть цветная или grayscale иллюстрация).
Я где-то читал описание, как из этого получить djvu-страницу, где текст будет сохранён монохромно, а картинка в виде фото — и всё в пределах одной страницы. Идеальное качество при минимальном размере.
Впечатлила сложность процесса.
Видел примеры работы. Красиво.
Но сам повторить не пробовал, поскольку, как ты уже сказал, в 99% случаев в этом нет нужды.
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

Imp

Цитата: Oleg Grom от июня 22, 2014, 10:30
Цитата: Imp от июня 22, 2014, 10:25
А что будет если я попробую сделать OCR для узбекско-английского словаря? Как я понимаю, узбекский большинство программ не распознаёт. Можно ли сделать так, чтобы распозналась хотя бы английская часть текста, то есть чтобы в будущем в PDF файле этого словаря можно было делать поиск по английскому тексту? Или надо обязательно, чтобы или всё распознавалось, или ничего?
Это хорошо  ;up: Спасибо!
海賊王に俺はなる

Oleg Grom

Цитата: mnashe от июня 22, 2014, 10:41
Впечатлила сложность процесса.
Видел примеры работы. Красиво.
Но сам повторить не пробовал, поскольку, как ты уже сказал, в 99% случаев в этом нет нужды.
Это на первый взгляд кажется трудно. При использовании ST Featured+DjvuSmall+DjvuImager - это буквально нажжать 4 кнопки.

autorun

Кодировать с помощью DjVu Small v0.4 или Document Express Enterprise,
добавить cодержание - Document Express 6.5 Professional

mnashe

Цитата: Oleg Grom от июня 22, 2014, 10:47
При использовании ST Featured+DjvuSmall+DjvuImager - это буквально нажжать 4 кнопки.
Ты делал?
Попробую, если возникнет необходимость...
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

mnashe

Кстати, надо мне оглавление добавить в словарь Кляйна.
Описание процесса читал давно, уже всё забыл.
Напомнишь, где его можно прочесть?
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!


Oleg Grom

Цитата: mnashe от июня 22, 2014, 10:57
Кстати, надо мне оглавление добавить в словарь Кляйна.
Описание процесса читал давно, уже всё забыл.
Напомнишь, где его можно прочесть?
http://sourceforge.net/projects/djvubookmarker/ Подсунуть ему текст с оглавлением и номерами страниц, а дальше там все интуитивно понятно.

mnashe

Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

antic

Цитата: mnashe от июня 22, 2014, 10:20
в виде страницы на планшетнике
Планшетники — это извращение, я на них никогда не расчитываю. Убеждён, что серьёзный человек будет заниматься серьёзной работой на нормальном десктопе, в крайнем случае на ноутбуке, но никак не на детской игрушке
— Боже мой, боже мой, чем вы вынуждены заниматься! Но я спрашиваю вас, кто-то все-таки летит ведь к звёздам! Где-то строят мезонные реакторы! Где-то создают новую педагогику! Боже мой, совсем недавно я понял, что мы даже не захолустье, мы — заповедник! В глазах всего мира мы — заповедник глупости, невежества и порнократии.
АБС «Хищные вещи века»

Bhudh

Цитата: Imp от июня 22, 2014, 10:25А что будет если я попробую сделать OCR для узбекско-английского словаря? Как я понимаю, узбекский большинство программ не распознаёт.
Если какой-то язык какая-то программа не распознаёт, в дело вступает обучение. Tesseract я уже упоминал.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

mnashe

Цитата: antic от июня 22, 2014, 11:48
Планшетники — это извращение, я на них никогда не расчитываю. Убеждён, что серьёзный человек будет заниматься серьёзной работой на нормальном десктопе, в крайнем случае на ноутбуке, но никак не на детской игрушке
Ну, значит, я несерьёзный человек, раз иногда читаю pdf / djvu в дороге или в очереди.
Мой коллега ещё несерьёзней: он каждый день в подвозке читает с планшетника.
А ещё есть несерьёзные люди с экранами 1280×1024. Вот у меня на работе на трёх из пяти моих компьютеров — такие.

Я всё же думаю, что если уж тратишь время на скан, — лучше делать работу как следует, а не халтурить, рассчитывая на каких-то сферических «серьёзных людей».
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

antic

— Боже мой, боже мой, чем вы вынуждены заниматься! Но я спрашиваю вас, кто-то все-таки летит ведь к звёздам! Где-то строят мезонные реакторы! Где-то создают новую педагогику! Боже мой, совсем недавно я понял, что мы даже не захолустье, мы — заповедник! В глазах всего мира мы — заповедник глупости, невежества и порнократии.
АБС «Хищные вещи века»

Red Khan


Red Khan

Цитата: Imp от июня 20, 2014, 19:07
А как быть с этим : "выбираем подходящий язык распознавания", если у меня таджикско-русский или, прости господи, уйгурско-английский (с арабицей) словарь?
Я тут один русско-татарский словарь, распознанный OCR ковыряю, там часто татарские буквы распознаны как русские (например ң как ц).

Иван-Царевич


Bhudh

Цитата: Red Khan от июня 23, 2014, 14:00там часто татарские буквы распознаны как русские
А татарские там хоть какие-то распознаны?
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Red Khan

Цитата: Bhudh от июня 23, 2014, 14:51
Цитата: Red Khan от июня 23, 2014, 14:00там часто татарские буквы распознаны как русские
А татарские там хоть какие-то распознаны?
Да, если они группами. Словарь довольно специфический, медицинский и если идёт какой-нибудь термин, а за ним татарские окончания (например абляциянең), то буквы не распознаются. Ситуация усугубляется ещё тем, что в сам термин написан курсивом, а окончание обычным текстом.
Хотя возможно те, кто изначально сканировал словарь сделали это не совсем правильно, отсюда и ошибки.

Предполагаю, что при разных алфавитах (латиница - арабица) такого будет меньше. FR вроде даже можно обучить распознавать язык.

Oleg Grom

Кастомный словарь для файн-ридера восьмой версии. Молдавская кириллица:

ЦитироватьЫн компарацие ку стилул литературий белетристиче сау ку
чел журидико-административ (орь офичиал, кум есте нумит уне-
орь ын литература де спечиалитате), каре ау ынчепут сэ се кон-
турезе ын анумите скриерь релиӂиоасе, ын кроничь, ын примеле
манифестэрь але експримэрий артистиче молдовенешть ши, рес-
пектив, ын акте канчелэрешть, скрисорь партикуларе ши леӂюирь
дин секолеле XVI—XVII, стилул штиинцифик молдовенеск а луат
фиинцэ мулт май тырзиу. Требуе сэ менционэм ынсэ, кэ унеле
елемеите карактеристиче ачестуй стил — кум ар фи ынтребуинца-
ря унор терминь ку карактер май мулт сау май пуцин штиинци-
фик сау комуникаря суб формэ де рационаменте а унуй анумит
концинут — апар спорадик ынкэ ын секолул ал XVII-ля ын кро-
пичь ши кяр ын скриериле релиӂиоасе. Астфел, митрополитул
Дософтей ынтребуинцязэ пентру прима датэ ын лимба молдове-
няска о серие де терминь ку карактер штиинцифик, ын спечиал
де ориӂине грякэ, латинэ ши славэ: аритхмитики «аритметикэ»,
астрологхие «астролоӂие», автократор «аутократ», енкиклопедие
«енчиклопедие», гхеометрие «ӂеометрие», индропикэ «хидропи-
зие, дропикэ», лексикон «лексикэ», леопард «пантерэ», комес
«конте, воевод», консциенцие «конштиинцэ», музикэ, нотариу
«нотар», пендикондарх «кондукэтор милитар ал уней унитэць де
50 де осташь», поетик «поет», провиденцие «провиденцэ», пролог
«ынтродучере, префацэ», сиринэ «сиренэ», сенат «сфат», стихурь
ямвичешть «версете ямбиче», тестамент ш. а.
А се компара, де екземплу, фрагментул дин «Вяца ши петреа-
черя св/и/нцилор»: «ми-и жеале к-ам ынвэцат тоате мештершу-
гуриле дэскэлиий философией, риторики, аритхмитики, гхеомет-
рия ши тоатэ енкиклопедия, ши май выртос к-ам ынвэцат ши
ачея веселитэ музикэ а кынтэрий, спэсытоаре де с[у]фл(е]те, ши
ынкэ ши дин астрологхие н-ам лэсат немикэ, дин тоатэ, не-мвэ-
цат»1.

Лом d10

Цитата: Bhudh от июня 22, 2014, 06:20
Цитата: Лом d10 от июня 22, 2014, 05:10она хоть и всеядна тормознутая по полной программе
:green: Не без этого. Потому я её не использую (хотя в коллекции ридеров есть). Для djvuʼшек у меня DjVu Viewer, для pdfʼок Foxit Reader (иногда Adobe Reader, если Фоксит внезапно подглючивает).
лучше Суматра, тоже всеядна, но она как-то коряво отображает Fb2 (вероятно и епаб тоже). а вообще Яндекс.браузером всё читается на ура)) кроме дежаву((

Bhudh

Для любого браузера, чтоб читалось на ура, нужны плагины.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр