Как отсканировать библиотеку

Bhudh · июня 22, 2014, 04:09

Цитата: Skvodo от июня 22, 2014, 04:04PDF позволяет сохранять OCR-распознанный текст под изображением страницы

В DjVu тоже есть текстовый слой.

Skvodo · июня 22, 2014, 04:18

Цитата: Bhudh от июня 22, 2014, 04:09
В DjVu тоже есть текстовый слой.

Раньше, чтобы добавить текстовый слой в DjVu, нужны были танцы с бубном. Сейчас, вроде бы, это можно сделать напрямую через Finereader.

autorun · июня 22, 2014, 05:10

DjVu обычно бывает с разрешением 600dpi, вы хоть попробуйте запаковать JPG изображения 300 страничной книги хотя бы с разрешением 300dpi в PDF, ещё попробуйте без предварительной обработки конвертнуть в DjVu, в DjVu не возможно добавить распознанный слой но тоже можно распознать.

Лом d10 · июня 22, 2014, 05:10

Цитата: Bhudh от июня 21, 2014, 14:59
Вот есть прожка, которая читает всё: (wiki/ru) STDU Viewer.

она хоть и всеядна тормознутая по полной программе, лучше уж тогда браузер с плагинами использовать.

autorun · июня 22, 2014, 05:22

В DjVu как и в PDF тоже можно добавить содержание.

autorun · июня 22, 2014, 05:43

Извлечь изображения из PDF без потери качества можно с помощью PDF Image Extraction Wizard

Bhudh · июня 22, 2014, 06:16

Цитата: autorun от июня 22, 2014, 05:10в DjVu не возможно добавить распознанный слой но тоже можно распознать

Не распарсил.

Bhudh · июня 22, 2014, 06:20

Цитата: Лом d10 от июня 22, 2014, 05:10она хоть и всеядна тормознутая по полной программе

Не без этого. Потому я её не использую (хотя в коллекции ридеров есть). Для djvuʼшек у меня DjVu Viewer, для pdfʼок Foxit Reader (иногда Adobe Reader, если Фоксит внезапно подглючивает).

antic · июня 22, 2014, 06:29

Цитата: autorun от июня 22, 2014, 05:10
запаковать JPG изображения 300 страничной книги хотя бы с разрешением 300dpi в PDF

ЙПГ в ПДФ — не слишком хорошая идея, мягко говоря. В ПДФ нужно кодировать из натуральной основы (БМП или несжатый ТИФ)

mnashe · июня 22, 2014, 07:58

Цитата: antic от июня 22, 2014, 01:22
Цитата: mnashe от июня 21, 2014, 21:57дерьмовое качество
Факты в студию!
Лично я, например, видел гораздо больше дежавюшек хренового качества

А ты что думал — дерьмовый pdf при конвертации в djvu волшебным образом становится конфеткой?
Все эти хреносканы, независимо от формата, в котором они сохранены, получены кривым методом: автоматические настройки сканера, выдающие «фотографию» с серым фоном, и затем прямое сохранение полученных «фотографий» в pdf или djvu безо всякой обработки. Естественно, оба формата пытаются сохранить максимум из скормленной им информации, уложившись в предоставленный им размер, но они никак не могут отличить полезную информацию от грязи. В итоге 95% объёма файла идёт на сохранение грязи, а оставшихся 10% на собственно текст никак не хватает.

Цитата: antic от июня 22, 2014, 01:22
Цитата: mnashe от июня 21, 2014, 21:57переснятый фотоаппаратом и выложенный в виде 460-мегабайтного pdf.
Ну а в этом то случае чо на ПДФ грешить! Тут исходная информация хреново получена

Ну дык а я ж о чём?
Качество зависит только от метода, а ни в коей мере не от формата.
Оба формата обеспечивают прекрасное качество, если вся подготовка сделана правильно и на каждой стадии, вплоть до конечной, выбраны подходящие настройки.

antic · июня 22, 2014, 08:11

Цитата: mnashe от июня 22, 2014, 07:58
автоматические настройки сканера, выдающие «фотографию» с серым фоном

Поясните, что за серый фон

Цитата: mnashe от июня 22, 2014, 07:58
сохранение полученных «фотографий» в pdf или djvu безо всякой обработки

Поясните, какая обработка требуется для сканов, прежде чес брошюровать их а ПДФ (на мой взгляд, обработка может только ухудшить качество, ибо полученный со сканера битмаповский образ наиболее близок к вещественному оригиналу, какая-либо обработка от этого оригинала только отдалит)

Imp · июня 22, 2014, 08:15

Цитата: mnashe от июня 22, 2014, 07:58
Естественно, оба формата пытаются сохранить максимум из скормленной им информации, уложившись в предоставленный им размер, но они никак не могут отличить полезную информацию от грязи. В итоге 95% объёма файла идёт на сохранение грязи, а оставшихся 10% на собственно текст никак не хватает.

Золоты слова, mnashe, а теперь можно тебя лично попросить коротенько описать как ты делаешь это более эффективно. Я уже запутался в этой дискуссии. Я точно буду создавать PDF с OCR, но как лучше всего и эффективнее это сделать. Мне конечно же нужны не очень большие файлы, но одновременно хотелось бы видеть красивые белые странички, а не серые нечитаемые портянки. Какой программой для распознавания стал бы пользоваться лично ты и какие настройки для сканирования лично ты бы выбрал для себя?

mnashe · июня 22, 2014, 08:19

Цитата: Skvodo от июня 22, 2014, 04:04
Из-за сложных настроек формата, создание качественного djvu-файла требует большого опыта.

Это не относится к голому тексту без иллюстраций, или с монохромными иллюстрациями.
Там вообще нет никаких сложных настроек, и при этом информация сохраняется полностью, без потерь (из монохромной картинки вдвое большего разрешения). Качество идеальное. Никаких «и→н», разумеется, не происходит.
Лично я для таких сканов всегда использую djvu: как уже отметил, итоговый размер файла при том же качестве раза в полтора меньше, чем pdf.
Если полноцветные (или в оттенках серого) иллюстрации есть, но всего на паре десятков страниц на всю книгу — то я собираю в djvu все остальные страницы, сохраняю в чёрно-белом режиме (без потерь), а затем добавляю в нужные места иллюстрированные страницы и сохраняю в режиме photo (не экономя в размере).
Если же почти на всех страницах полноцветные иллюстрации — то djvu не даёт никаких преимуществ.

Цитата: Skvodo от июня 22, 2014, 04:04
Я забыл о djvu, после того, как мне стали попадаться книги, в которых абсолютно все кириллические "и" заменены на "н" или наоборот (такой вот алгоритм сжатия). Этого бы не произошло, если бы тот же текст был сохранён в PDF или JPEG.

Этого бы не произошло, если бы форматом djvu пользовались по назначению, а не скармливали ему грязный скан с серым фоном, не обращая внимание на выбор формата при сохранении.
А если бы его сохраняли в PDF или тем более JPEG с размером файла даже в 5 раз большим, чем этот кривой djvu, то замены "и" → "н" никто бы уже не заметил: настолько размытым при этом получается текст.

Цитата: Skvodo от июня 22, 2014, 04:04Возможности впоследствии создать удобочитаемую книжку из 300-мегабайтного pdf больше, чем пытаться "улучшать" из пережатого DJVU в 2мб.

Удивительно, правда?

mnashe · июня 22, 2014, 08:22

Цитата: antic от июня 22, 2014, 06:29
ЙПГ в ПДФ — не слишком хорошая идея, мягко говоря. В ПДФ нужно кодировать из натуральной основы (БМП или несжатый ТИФ)

Это в той же мере относится и к djvu.

Awwal12 · июня 22, 2014, 08:33

Цитата: antic от июня 22, 2014, 08:11
Цитата: mnashe от июня 22, 2014, 07:58автоматические настройки сканера, выдающие «фотографию» с серым фоном
Поясните, что за серый фон

"Цвет" окружающего буквы пространства, отличный от чистого белого. В дальнейшем затрудняет как сжатие, так и распознавание.

mnashe · июня 22, 2014, 08:49

Цитата: antic от июня 22, 2014, 08:11
Цитата: mnashe от июня 22, 2014, 07:58автоматические настройки сканера, выдающие «фотографию» с серым фоном
Поясните, что за серый фон

Ползунки на гистограмме нужно выставить так, чтобы верхнему пределу (255) соответствовали самые тёмные участки фона. Тогда на скане будет только полезная информация.
(Аналогично, самым светлым буквам нужно поставить в соответствие 0).
Автоматические настройки сканера этого не делают — наоборот, они стараются сохранить всё по максимуму.
Ещё одна проблема — развороты. Если часть текста попадает на разворот, то её нужно обрабатывать отдельно, поскольку у неё совсем другие уровни освещённости текста и фона, да ещё и градиент. Тут уже без обработки вообще никак. И очень желательна специальная программа — в фотошопе на исправление этих участков уходит очень много времени, ведь каждую страницу приходится исправлять вручную.
Если на разворотах текста нет, то проблема решается намного проще: достаточно всего лишь выставить границы так, чтобы разворот не попадал в сканируемую область, и только после этого выставлять ползунки на гистограмме. Но криворукие сканировщики и этого не делают — в результате проблема «серого фона» резко усугубляется.

Цитата: antic от июня 22, 2014, 08:11
на мой взгляд, обработка может только ухудшить качество, ибо полученный со сканера битмаповский образ наиболее близок к вещественному оригиналу, какая-либо обработка от этого оригинала только отдалит

Ну разумеется.
Только не забываем про 95%.
В типичной текстовой странице фон составляет где-то 90±5%.
Если ты хочешь передать всю информацию — ты должен обеспечить соответствующий размер файла (в 10–20 раз больше).
Если ты попытаешься вместить эти «наиболее близкие к вещественному оригиналу» сканы в нечто не столь увесистое — ты получишь дерьмовый результат (независимо от формата), поскольку на действительно полезную информацию фактически отводится в 10–20 раз меньший объём.
Поэтому сохранять «наиболее близкие к вещественному оригиналу» изображения ни в коем случае нельзя (если, конечно, речь идёт о текстовой книге, а не о наборе репродукций из музея).

autorun · июня 22, 2014, 09:02

Сканировать с OCR возможно только в RTF, WordPad или Microsoft Office Word

mnashe · июня 22, 2014, 09:03

Цитата: Imp от июня 22, 2014, 08:15
Я точно буду создавать PDF с OCR, но как лучше всего и эффективнее это сделать.

В создании комбинированных pdf у меня нет опыта.
Я делал только 2 процесса:
1. Прямое сканирование в FineReader → распознавание → вычитка там же → сохранение в HTML с дальнейшим переформатированием или в PDF (pdf для любителей — мне он не был нужен).
2. Сканирование в картинки (градации серого, 300 dpi, белый фон) → обработка в сканкромсаторе или скантейлоре (исправление разворотов, разрезка, перевод в монохромное изображение вдвое большего разрешения) → сшивание в djvu.

Imp · июня 22, 2014, 09:08

Цитата: autorun от июня 22, 2014, 09:02
Сканировать с OCR возможно только в RTF, WordPad или Microsoft Office Word

А потом только переводить это дело в PDF, верно?

Imp · июня 22, 2014, 09:08

Цитата: mnashe от июня 22, 2014, 09:03
Цитата: Imp от июня 22, 2014, 08:15
Я точно буду создавать PDF с OCR, но как лучше всего и эффективнее это сделать.
В создании комбинированных pdf у меня нет опыта.
Я делал только 2 процесса:
1. Прямое сканирование в FineReader → распознавание → вычитка там же → сохранение в HTML с дальнейшим переформатированием или в PDF (это для любителей — мне такое не было нужно).
2. Сканирование в картинки (градации серого, 300 dpi, белый фон) → обработка в сканкромсаторе или скантейлоре (исправление разворотов, разрезка, перевод в монохромное изображение вдвое большего разрешения) → сшивание в djvu.

Тода!

antic · июня 22, 2014, 09:09

Цитата: Awwal12 от июня 22, 2014, 08:33
"Цвет" окружающего буквы пространства, отличный от чистого белого

При чёрно-белом сканировании цвет фона является белым по определению. В книгах с хорошей бумагой, хорошей полиграфией текст без иллюстраций имеет смысл сканировать в Ч/Б, рои разрешении 300 полючается очень хорошее качество и не такой уж большой объём. Когда бумага плоховата, то приходится сканировать в серых тонах, но ведь у современных сканеров есть хорошая функция (в моём она называется "предотвращение просвечивания"). При включении этой функции параметры оптико-электронного преобразования становятся такими, что небольшое затемнение фона не учитывается и кодируется как белое.

Так что незачем городить проблемы с фоном, при правильных режимах его нет

А сердцевинки разворотов составляют не такую уж большую часть площяди разворота, так что незачем с ними и мучиться

Цитата: mnashe от июня 22, 2014, 08:49
Если ты попытаешься вместить эти «наиболее близкие к вещественному оригиналу» сканы в нечто не столь увесистое — ты получишь дерьмовый результат

Вот только не надо мне говорить, что я получу. То, что я получаю, я сам вижу, и ничего дерьмового в это мне нахожу.

mnashe · июня 22, 2014, 09:23

Цитата: antic от июня 22, 2014, 09:09
Вот только не надо мне говорить, что я получу. То, что я получаю, я сам вижу, и ничего дерьмового в это мне нахожу.

↘

Цитата: antic от июня 22, 2014, 09:09
но ведь у современных сканеров есть хорошая функция (в моём она называется "предотвращение просвечивания"). При включении этой функции параметры оптико-электронного преобразования становятся такими, что небольшое затемнение фона не учитывается и кодируется как белое.

Цитата: antic от июня 22, 2014, 09:09
Так что незачем городить проблемы с фоном, при правильных режимах его нет

Вот именно!
Если настройки при сканировании выставлены правильно, и страница прижимается к стеклу полностью (нет приподнятого текста на разворотах), то вся пост-обработка сводится к лёгкому повороту страниц, лёгших не строго горизонтально, (иногда и этого не нужно), разрезке на страницы и подрезанию полей.
Криворукие же сканировщики не делают ничего из этого и сохраняют грязные наразрезанные сканы с серым фоном в 50 МБ pdf или 20 МБ djvu отвратительного качества вместо чистого djvu идеального качества размером 5 МБ.

autorun · июня 22, 2014, 09:24

Распознанный текст можно в OpenOffice Writer экспортировать в PDF

antic · июня 22, 2014, 10:00

Цитата: mnashe от июня 22, 2014, 09:23
разрезке на страницы

НЕ факт, что это так уж необходимо. Разворот из двух страниц нормально на экран ложится, так даже удобней, чем просматривать по одной странице.

Цитата: mnashe от июня 22, 2014, 09:23
подрезанию полей

А это-то зачем? Текст без полей очень неприятно смотрится.

autorun · июня 22, 2014, 10:11

В по I.R.I.S OCR сканера HP
Язык OCR:
Албанский
Арабский
Болгарский
Каталонский
Хорватский
Чешский
Датский
Голландский (Нидерланды)
Английский (Соединенное королевство)
Английский (США)
Эстонский
Финский
Французкий (Франция)
Немецкий (Германия)
Греческий
Иврит
Венгерский
Итальяский (Италия)
Японский
Корейский
Литовский
Норвежский (Букмол)
Польский
Португальский (Бразилия)
Португальский (Португалия)
Румынский
Русский
Уращенная китайская
Словацкий
Словенский
Испанский (Традиционная раскладка)
Шведский
Китайская традиционная
Турецкий
Украинский

Лингвофорум

Как отсканировать библиотеку

Bhudh

Skvodo

autorun

Лом d10

autorun

autorun

Bhudh

Bhudh

antic

mnashe

antic

Imp

mnashe

mnashe

Awwal12

mnashe

autorun

mnashe

Imp

Imp

antic

mnashe

autorun

antic

autorun

Быстрый ответ