Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Как отсканировать библиотеку

Автор Imp, июня 20, 2014, 13:51

0 Пользователи и 1 гость просматривают эту тему.

Bhudh

Цитата: Skvodo от июня 22, 2014, 04:04PDF позволяет сохранять OCR-распознанный текст под изображением страницы
В DjVu тоже есть текстовый слой.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Skvodo

Цитата: Bhudh от июня 22, 2014, 04:09
В DjVu тоже есть текстовый слой.
Раньше, чтобы добавить текстовый слой в DjVu, нужны были танцы с бубном. Сейчас, вроде бы, это можно сделать напрямую через Finereader.

autorun

DjVu обычно бывает с разрешением 600dpi, вы хоть попробуйте запаковать JPG изображения 300 страничной книги хотя бы с разрешением 300dpi в PDF, ещё попробуйте без предварительной обработки конвертнуть в DjVu, в DjVu не возможно добавить распознанный слой но тоже можно распознать.

Лом d10

Цитата: Bhudh от июня 21, 2014, 14:59
Вот есть прожка, которая читает всё: (wiki/ru) STDU Viewer.
она хоть и всеядна тормознутая по полной программе, лучше уж тогда браузер с плагинами использовать.

autorun


autorun

Извлечь изображения из PDF без потери качества можно с помощью PDF Image Extraction Wizard

Bhudh

Цитата: autorun от июня 22, 2014, 05:10в DjVu не возможно добавить распознанный слой но тоже можно распознать
Не распарсил.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Bhudh

Цитата: Лом d10 от июня 22, 2014, 05:10она хоть и всеядна тормознутая по полной программе
:green: Не без этого. Потому я её не использую (хотя в коллекции ридеров есть). Для djvuʼшек у меня DjVu Viewer, для pdfʼок Foxit Reader (иногда Adobe Reader, если Фоксит внезапно подглючивает).
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

antic

Цитата: autorun от июня 22, 2014, 05:10
запаковать JPG изображения 300 страничной книги хотя бы с разрешением 300dpi в PDF
ЙПГ в ПДФ — не слишком хорошая идея, мягко говоря. В ПДФ нужно кодировать из натуральной основы (БМП или несжатый ТИФ)
— Боже мой, боже мой, чем вы вынуждены заниматься! Но я спрашиваю вас, кто-то все-таки летит ведь к звёздам! Где-то строят мезонные реакторы! Где-то создают новую педагогику! Боже мой, совсем недавно я понял, что мы даже не захолустье, мы — заповедник! В глазах всего мира мы — заповедник глупости, невежества и порнократии.
АБС «Хищные вещи века»

mnashe

Цитата: antic от июня 22, 2014, 01:22
Цитата: mnashe от июня 21, 2014, 21:57дерьмовое качество
Факты в студию!
Лично я, например, видел гораздо больше дежавюшек хренового качества
А ты что думал — дерьмовый pdf при конвертации в djvu волшебным образом становится конфеткой?
Все эти хреносканы, независимо от формата, в котором они сохранены, получены кривым методом: автоматические настройки сканера, выдающие «фотографию» с серым фоном, и затем прямое сохранение полученных «фотографий» в pdf или djvu безо всякой обработки. Естественно, оба формата пытаются сохранить максимум из скормленной им информации, уложившись в предоставленный им размер, но они никак не могут отличить полезную информацию от грязи. В итоге 95% объёма файла идёт на сохранение грязи, а оставшихся 10% на собственно текст никак не хватает.

Цитата: antic от июня 22, 2014, 01:22
Цитата: mnashe от июня 21, 2014, 21:57переснятый фотоаппаратом и выложенный в виде 460-мегабайтного pdf.
Ну а в этом то случае чо на ПДФ грешить! Тут исходная информация хреново получена
Ну дык а я ж о чём?
Качество зависит только от метода, а ни в коей мере не от формата.
Оба формата обеспечивают прекрасное качество, если вся подготовка сделана правильно и на каждой стадии, вплоть до конечной, выбраны подходящие настройки.
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

antic

Цитата: mnashe от июня 22, 2014, 07:58
автоматические настройки сканера, выдающие «фотографию» с серым фоном
Поясните, что за серый фон

Цитата: mnashe от июня 22, 2014, 07:58
сохранение полученных «фотографий» в pdf или djvu безо всякой обработки
Поясните, какая обработка требуется для сканов, прежде чес брошюровать их а ПДФ (на мой взгляд, обработка может только ухудшить качество, ибо полученный со сканера битмаповский образ наиболее близок к вещественному оригиналу, какая-либо обработка от этого оригинала только отдалит)
— Боже мой, боже мой, чем вы вынуждены заниматься! Но я спрашиваю вас, кто-то все-таки летит ведь к звёздам! Где-то строят мезонные реакторы! Где-то создают новую педагогику! Боже мой, совсем недавно я понял, что мы даже не захолустье, мы — заповедник! В глазах всего мира мы — заповедник глупости, невежества и порнократии.
АБС «Хищные вещи века»

Imp

Цитата: mnashe от июня 22, 2014, 07:58
Естественно, оба формата пытаются сохранить максимум из скормленной им информации, уложившись в предоставленный им размер, но они никак не могут отличить полезную информацию от грязи. В итоге 95% объёма файла идёт на сохранение грязи, а оставшихся 10% на собственно текст никак не хватает.
Золоты слова, mnashe, а теперь можно тебя лично попросить коротенько описать как ты делаешь это более эффективно. Я уже запутался в этой дискуссии. Я точно буду создавать PDF с OCR, но как лучше всего и эффективнее это сделать. Мне конечно же нужны не очень большие файлы, но одновременно хотелось бы видеть красивые белые странички, а не серые нечитаемые портянки. Какой программой для распознавания стал бы пользоваться лично ты и какие настройки для сканирования лично ты бы выбрал для себя?
海賊王に俺はなる

mnashe

Цитата: Skvodo от июня 22, 2014, 04:04
Из-за сложных настроек формата, создание качественного djvu-файла требует большого опыта.
Это не относится к голому тексту без иллюстраций, или с монохромными иллюстрациями.
Там вообще нет никаких сложных настроек, и при этом информация сохраняется полностью, без потерь (из монохромной картинки вдвое большего разрешения). Качество идеальное. Никаких «и→н», разумеется, не происходит.
Лично я для таких сканов всегда использую djvu: как уже отметил, итоговый размер файла при том же качестве раза в полтора меньше, чем pdf.
Если полноцветные (или в оттенках серого) иллюстрации есть, но всего на паре десятков страниц на всю книгу — то я собираю в djvu все остальные страницы, сохраняю в чёрно-белом режиме (без потерь), а затем добавляю в нужные места иллюстрированные страницы и сохраняю в режиме photo (не экономя в размере).
Если же почти на всех страницах полноцветные иллюстрации — то djvu не даёт никаких преимуществ.

Цитата: Skvodo от июня 22, 2014, 04:04
Я забыл о djvu, после того, как мне стали попадаться книги, в которых абсолютно все кириллические "и" заменены на "н" или наоборот (такой вот алгоритм сжатия). Этого бы не произошло, если бы тот же текст был сохранён в PDF или JPEG.
Этого бы не произошло, если бы форматом djvu пользовались по назначению, а не скармливали ему грязный скан с серым фоном, не обращая внимание на выбор формата при сохранении.
А если бы его сохраняли в PDF или тем более JPEG с размером файла даже в 5 раз большим, чем этот кривой djvu, то замены "и" → "н" никто бы уже не заметил: настолько размытым при этом получается текст.

Цитата: Skvodo от июня 22, 2014, 04:04Возможности впоследствии создать удобочитаемую книжку из 300-мегабайтного pdf больше, чем пытаться "улучшать" из пережатого DJVU в 2мб.
Удивительно, правда? :green:
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

mnashe

Цитата: antic от июня 22, 2014, 06:29
ЙПГ в ПДФ — не слишком хорошая идея, мягко говоря. В ПДФ нужно кодировать из натуральной основы (БМП или несжатый ТИФ)
Это в той же мере относится и к djvu.
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

Awwal12

Цитата: antic от июня 22, 2014, 08:11
Цитата: mnashe от июня 22, 2014, 07:58автоматические настройки сканера, выдающие «фотографию» с серым фоном
Поясните, что за серый фон
"Цвет" окружающего буквы пространства, отличный от чистого белого. В дальнейшем затрудняет как сжатие, так и распознавание.
Фашиствующий имперец, асексуал и многожёнец, татарофоб, заслуженный функционер РПЦ. Слушает радио "Радонеж" и терпеть не может счастливых людей.

"Да здравствуют ДОЯРКИ!! Потому что доярки - это раса сверхчеловеков. За ними будущее планеты. Они переживут даже атомную войну, потому что доярки вечны, ибо хтоничны. И дадут потомство, которое тоже будет доярами и доярками. Ура, товарищи!.." (c) Awwal12

mnashe

Цитата: antic от июня 22, 2014, 08:11
Цитата: mnashe от июня 22, 2014, 07:58автоматические настройки сканера, выдающие «фотографию» с серым фоном
Поясните, что за серый фон
Ползунки на гистограмме нужно выставить так, чтобы верхнему пределу (255) соответствовали самые тёмные участки фона. Тогда на скане будет только полезная информация.
(Аналогично, самым светлым буквам нужно поставить в соответствие 0).
Автоматические настройки сканера этого не делают — наоборот, они стараются сохранить всё по максимуму.
Ещё одна проблема — развороты. Если часть текста попадает на разворот, то её нужно обрабатывать отдельно, поскольку у неё совсем другие уровни освещённости текста и фона, да ещё и градиент. Тут уже без обработки вообще никак. И очень желательна специальная программа — в фотошопе на исправление этих участков уходит очень много времени, ведь каждую страницу приходится исправлять вручную.
Если на разворотах текста нет, то проблема решается намного проще: достаточно всего лишь выставить границы так, чтобы разворот не попадал в сканируемую область, и только после этого выставлять ползунки на гистограмме. Но криворукие сканировщики и этого не делают — в результате проблема «серого фона» резко усугубляется.

Цитата: antic от июня 22, 2014, 08:11
на мой взгляд, обработка может только ухудшить качество, ибо полученный со сканера битмаповский образ наиболее близок к вещественному оригиналу, какая-либо обработка от этого оригинала только отдалит
Ну разумеется.
Только не забываем про 95%.
В типичной текстовой странице фон составляет где-то 90±5%.
Если ты хочешь передать всю информацию — ты должен обеспечить соответствующий размер файла (в 10–20 раз больше).
Если ты попытаешься вместить эти «наиболее близкие к вещественному оригиналу» сканы в нечто не столь увесистое — ты получишь дерьмовый результат (независимо от формата), поскольку на действительно полезную информацию фактически отводится в 10–20 раз меньший объём.
Поэтому сохранять «наиболее близкие к вещественному оригиналу» изображения ни в коем случае нельзя (если, конечно, речь идёт о текстовой книге, а не о наборе репродукций из музея).
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

autorun

Сканировать с OCR возможно только в RTF, WordPad или Microsoft Office Word

mnashe

Цитата: Imp от июня 22, 2014, 08:15
Я точно буду создавать PDF с OCR, но как лучше всего и эффективнее это сделать.
В создании комбинированных pdf у меня нет опыта.
Я делал только 2 процесса:
1. Прямое сканирование в FineReader → распознавание → вычитка там же → сохранение в HTML с дальнейшим переформатированием или в PDF (pdf для любителей — мне он не был нужен).
2. Сканирование в картинки (градации серого, 300 dpi, белый фон) → обработка в сканкромсаторе или скантейлоре (исправление разворотов, разрезка, перевод в монохромное изображение вдвое большего разрешения) → сшивание в djvu.
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

Imp

Цитата: autorun от июня 22, 2014, 09:02
Сканировать с OCR возможно только в RTF, WordPad или Microsoft Office Word
А потом только переводить это дело в PDF, верно?
海賊王に俺はなる

Imp

Цитата: mnashe от июня 22, 2014, 09:03
Цитата: Imp от июня 22, 2014, 08:15
Я точно буду создавать PDF с OCR, но как лучше всего и эффективнее это сделать.
В создании комбинированных pdf у меня нет опыта.
Я делал только 2 процесса:
1. Прямое сканирование в FineReader → распознавание → вычитка там же → сохранение в HTML с дальнейшим переформатированием или в PDF (это для любителей — мне такое не было нужно).
2. Сканирование в картинки (градации серого, 300 dpi, белый фон) → обработка в сканкромсаторе или скантейлоре (исправление разворотов, разрезка, перевод в монохромное изображение вдвое большего разрешения) → сшивание в djvu.
Тода!
海賊王に俺はなる

antic

Цитата: Awwal12 от июня 22, 2014, 08:33
"Цвет" окружающего буквы пространства, отличный от чистого белого
При чёрно-белом сканировании цвет фона является белым по определению. В книгах с хорошей бумагой, хорошей полиграфией текст без иллюстраций имеет смысл сканировать в Ч/Б, рои разрешении 300 полючается очень хорошее качество и не такой уж большой объём. Когда бумага плоховата, то приходится сканировать в серых тонах, но ведь у современных сканеров есть хорошая функция (в моём она называется "предотвращение просвечивания"). При включении этой функции параметры оптико-электронного преобразования становятся такими, что небольшое затемнение фона не учитывается и кодируется как белое.

Так что незачем городить проблемы с фоном, при правильных режимах его нет

А сердцевинки разворотов составляют не такую уж большую часть площяди разворота, так что незачем с ними и мучиться

Цитата: mnashe от июня 22, 2014, 08:49
Если ты попытаешься вместить эти «наиболее близкие к вещественному оригиналу» сканы в нечто не столь увесистое — ты получишь дерьмовый результат
Вот только не надо мне говорить, что я получу. То, что я получаю, я сам вижу, и ничего дерьмового в это мне нахожу.
— Боже мой, боже мой, чем вы вынуждены заниматься! Но я спрашиваю вас, кто-то все-таки летит ведь к звёздам! Где-то строят мезонные реакторы! Где-то создают новую педагогику! Боже мой, совсем недавно я понял, что мы даже не захолустье, мы — заповедник! В глазах всего мира мы — заповедник глупости, невежества и порнократии.
АБС «Хищные вещи века»

mnashe

Цитата: antic от июня 22, 2014, 09:09
Вот только не надо мне говорить, что я получу. То, что я получаю, я сам вижу, и ничего дерьмового в это мне нахожу.

Цитата: antic от июня 22, 2014, 09:09
но ведь у современных сканеров есть хорошая функция (в моём она называется "предотвращение просвечивания"). При включении этой функции параметры оптико-электронного преобразования становятся такими, что небольшое затемнение фона не учитывается и кодируется как белое.

Цитата: antic от июня 22, 2014, 09:09
Так что незачем городить проблемы с фоном, при правильных режимах его нет
Вот именно!
Если настройки при сканировании выставлены правильно, и страница прижимается к стеклу полностью (нет приподнятого текста на разворотах), то вся пост-обработка сводится к лёгкому повороту страниц, лёгших не строго горизонтально, (иногда и этого не нужно), разрезке на страницы и подрезанию полей.
Криворукие же сканировщики не делают ничего из этого и сохраняют грязные наразрезанные сканы с серым фоном в 50 МБ pdf или 20 МБ djvu отвратительного качества вместо чистого djvu идеального качества размером 5 МБ.
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

autorun

Распознанный текст можно в OpenOffice Writer экспортировать в PDF

antic

Цитата: mnashe от июня 22, 2014, 09:23
разрезке на страницы
НЕ факт, что это так уж необходимо. Разворот из двух страниц нормально на экран ложится, так даже удобней, чем просматривать по одной странице.

Цитата: mnashe от июня 22, 2014, 09:23
подрезанию полей
А это-то зачем? Текст без полей очень неприятно смотрится.
— Боже мой, боже мой, чем вы вынуждены заниматься! Но я спрашиваю вас, кто-то все-таки летит ведь к звёздам! Где-то строят мезонные реакторы! Где-то создают новую педагогику! Боже мой, совсем недавно я понял, что мы даже не захолустье, мы — заповедник! В глазах всего мира мы — заповедник глупости, невежества и порнократии.
АБС «Хищные вещи века»

autorun

В по I.R.I.S OCR сканера HP
Язык OCR:
Албанский
Арабский
Болгарский
Каталонский
Хорватский
Чешский
Датский
Голландский (Нидерланды)
Английский (Соединенное королевство)
Английский (США)
Эстонский
Финский
Французкий (Франция)
Немецкий (Германия)
Греческий
Иврит
Венгерский
Итальяский (Италия)
Японский
Корейский
Литовский
Норвежский (Букмол)
Польский
Португальский (Бразилия)
Португальский (Португалия)
Румынский
Русский
Уращенная китайская
Словацкий
Словенский
Испанский (Традиционная раскладка)
Шведский
Китайская традиционная
Турецкий
Украинский

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр