Лингвофорум

Общий раздел => Наука и техника => Компьютеры => Тема начата: Imp от июня 20, 2014, 13:51

Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 13:51
Народ, поможите советом:

Я дожил до такого момента, когда книги явно уже начали мешать нормальной жизнедеятельности, слишком их много у меня расплодилось. Короче, перед тем как их куда-то запрятать мне их отсканировать нужно, а я ни разу ничем подобным не занимался. В современных технологиях я такой юзер среднего пошиба.

Мне сейчас нужен хороший сканер для книг, причём для большеформатных словарей тоже. Подскажите, что искать, на что обращать внимание, какой фирмы. Цена, в пределах разумного, не столь важна, сколько качество, лёгкость и скорость сканирования.

И ещё прочитал я тут о расчудесной технологии OCR, когда можно будет делать поиск по тексту в отсканированном документе, мне это прямо оченя нужно. Скажите, что для этого надо, в аппаратном, программном и любом другом смысле.

Заранее всем огромное спасибо за советы по делу!
Название: Как отсканировать библиотеку
Отправлено: antic от июня 20, 2014, 14:07
Современные бытовые сканеры (точнее, их оболочки) позволяют сразу же создавать ПДФ с ОЦР. Формат у них, как правило, чуть больше А4, т. е. практически все словари влезают, а также большеформатная специальная литература (а вот увражи — далеко не все)
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 14:13
Цитата: antic от июня 20, 2014, 14:07
Современные бытовые сканеры (точнее, их оболочки) позволяют сразу же создавать ПДФ с ОЦР. Формат у них, как правило, чуть больше А4, т. е. практически все словари влезают, а также большеформатная специальная литература (а вот увражи — далеко не все)
Спасибо!

У меня в основном тексты, картинки мне далеко не так важны. И да, лучше чуть больше А4

А конкретно по модели или фирме не посоветуете? Чтобы быстро и качественно работал
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 20, 2014, 14:24
А как потом сделать так, чтобы текст в формате .pdf можно было выделять мышкой, и копировать с помощью Ctrl+C Ctrl+V в документ Microsoft Word?
Название: Как отсканировать библиотеку
Отправлено: antic от июня 20, 2014, 14:26
Я лично юзаю Canon LIDE 100, меня вполне устраивает. Про другие не могу сказать, но параметры, насколько я понимаю, у всех бытовых сканеров примерно одинаковые, формат у всех чуть больше А4. Для большого формата нужно брать офисный сканер, но я вам не советую. Кроме того, что они дороже, нужно ещё учитывать удобство в работе. Для того, чтобы сканировать многостраничные книги, сканер должен занимать как можно меньше места на столе, и быть как можно более плоским. Дело в том, что когда вы сканируете книгу, вам необходимо её плотно прижимать руками к стеклу (кстати, крышку закрывать необязательно, если нет прямого сильного внешнего освещения, бьющего прямо в стекло). Если вам будет неудобно сидеть и прижимать каждый раз руками книгу, то вы много не насканируете, будете уставать.
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 14:32
Цитата: Alexandra A от июня 20, 2014, 14:24
А как потом сделать так, чтобы текст в формате .pdf можно было выделять мышкой, и копировать с помощью Ctrl+C Ctrl+V в документ Microsoft Word?
Я так понимаю, что эта же технология OCR позволяет это делать
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 14:34
Цитата: antic от июня 20, 2014, 14:26
Я лично юзаю Canon LIDE 100, меня вполне устраивает. Про другие не могу сказать, но параметры, насколько я понимаю, у всех бытовых сканеров примерно одинаковые, формат у всех чуть больше А4. Для большого формата нужно брать офисный сканер, но я вам не советую. Кроме того, что они дороже, нужно ещё учитывать удобство в работе. Для того, чтобы сканировать многостраничные книги, сканер должен занимать как можно меньше места на столе, и быть как можно более плоским. Дело в том, что когда вы сканируете книгу, вам необходимо её плотно прижимать руками к стеклу (кстати, крышку закрывать необязательно, если нет прямого сильного внешнего освещения, бьющего прямо в стекло). Если вам будет неудобно сидеть и прижимать каждый раз руками книгу, то вы много не насканируете, будете уставать.
Спасибо, а что сканеры разве бывают не плоскими? Или вы имеете ввиду крышку и внешний дизайн?
Название: Как отсканировать библиотеку
Отправлено: Hellerick от июня 20, 2014, 14:40
Цитата: Imp от июня 20, 2014, 14:34
Спасибо, а что сканеры разве бывают не плоскими?
Есть сканеры с двумя сканируемыми плоскостями, расположенными градусов под 150 -- это существенно улучшает качество сканирования в зоне переплета.
Название: Как отсканировать библиотеку
Отправлено: Лом d10 от июня 20, 2014, 15:03
Цитата: Hellerick от июня 20, 2014, 14:40
Цитата: Imp от июня 20, 2014, 14:34
Спасибо, а что сканеры разве бывают не плоскими?
Есть сканеры с двумя сканируемыми плоскостями, расположенными градусов под 150 -- это существенно улучшает качество сканирования в зоне переплета.
какого dpi достаточно для текста и какого для картинок?
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 15:22
Цитата: Hellerick от июня 20, 2014, 14:40
Цитата: Imp от июня 20, 2014, 14:34
Спасибо, а что сканеры разве бывают не плоскими?
Есть сканеры с двумя сканируемыми плоскостями, расположенными градусов под 150 -- это существенно улучшает качество сканирования в зоне переплета.
А вот это интересно! Посоветуйте уже конкретную модель, пожалуйста
Название: Как отсканировать библиотеку
Отправлено: antic от июня 20, 2014, 15:23
Цитата: Imp от июня 20, 2014, 14:34
Спасибо, а что сканеры разве бывают не плоскими?
Я имел в виду, чтобы он как можно более тонким был, чтобы руки удобней лежали.

Цитата: Hellerick от июня 20, 2014, 14:40
Есть сканеры с двумя сканируемыми плоскостями
Я таких не видел, но если они есть, то, вероятно, это должно быть удобно, хотя, по-настоящему можно оценить, только попробовав, потому что, кто его знает, а вдруг наоборот, неудобно.

Цитата: Лом d10 от июня 20, 2014, 15:03
какого dpi достаточно для текста и какого для картинок?
Если вы сканируете текст в черно-белом режиме, то в большинстве случаев наиболее рационально использовать 300, ежели в сером или цветном, то хватит 200. Для обычных иллюстраций в технических текстах хватит 200, если нужно отсканировать хорошие иллюстрации с очень мелкими деталями или географические карты, то лучше 300. Большее разрешение графики имеет смысл использовать только если вам нужно будет рассматривать уж совсем мелкие детали, т. е. как через увеличительное стекло
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 15:24
Цитата: Лом d10 от июня 20, 2014, 15:03
Цитата: Hellerick от июня 20, 2014, 14:40
Цитата: Imp от июня 20, 2014, 14:34
Спасибо, а что сканеры разве бывают не плоскими?
Есть сканеры с двумя сканируемыми плоскостями, расположенными градусов под 150 -- это существенно улучшает качество сканирования в зоне переплета.
какого dpi достаточно для текста и какого для картинок?
Мне тоже интересно, если я хочу очень хорошее качество для текста, сколько нужно этого dpi
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 20, 2014, 16:32
Цитата: Alexandra A от июня 20, 2014, 14:24А как потом сделать так, чтобы текст в формате .pdf можно было выделять мышкой, и копировать с помощью Ctrl+C Ctrl+V в документ Microsoft Word?
Цитата: Imp от июня 20, 2014, 14:32Я так понимаю, что эта же технология OCR позволяет это делать
Не "позволяет", а это она и есть.
OCR = optical character recognition = Оптическое распознавание символов (http://ru.wikipedia.org/wiki/%D0%9E%D0%BF%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%81%D0%B8%D0%BC%D0%B2%D0%BE%D0%BB%D0%BE%D0%B2)
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 20, 2014, 16:52
Цитата: Bhudh от июня 20, 2014, 16:32
Цитата: Alexandra A от июня 20, 2014, 14:24А как потом сделать так, чтобы текст в формате .pdf можно было выделять мышкой, и копировать с помощью Ctrl+C Ctrl+V в документ Microsoft Word?
Цитата: Imp от июня 20, 2014, 14:32Я так понимаю, что эта же технология OCR позволяет это делать
Не "позволяет", а это она и есть.
OCR = optical character recognition = Оптическое распознавание символов (http://ru.wikipedia.org/wiki/%D0%9E%D0%BF%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%81%D0%B8%D0%BC%D0%B2%D0%BE%D0%BB%D0%BE%D0%B2)
Для Windows 7 есть бесплатные программы которые занимаются OCR - оптическим распознаванием символов?

Мне в принципе текст книги прежде всего нужен... Его можно напечатать и в Микрософт Ворде.
Название: Как отсканировать библиотеку
Отправлено: Лом d10 от июня 20, 2014, 16:57
Цитата: Bhudh от июня 20, 2014, 16:32
Цитата: Alexandra A от июня 20, 2014, 14:24А как потом сделать так, чтобы текст в формате .pdf можно было выделять мышкой, и копировать с помощью Ctrl+C Ctrl+V в документ Microsoft Word?
Цитата: Imp от июня 20, 2014, 14:32Я так понимаю, что эта же технология OCR позволяет это делать
Не "позволяет", а это она и есть.
OCR = optical character recognition = Оптическое распознавание символов (http://ru.wikipedia.org/wiki/%D0%9E%D0%BF%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%81%D0%B8%D0%BC%D0%B2%D0%BE%D0%BB%D0%BE%D0%B2)
ФайнРидер?
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 17:07
Я тут начал читать тыр-нет, говорят, что важно чтобы крышка была настолько подвижной, чтобы могла закрыть книгу сверьху. Ещё говорят, что пыль может быстро попадать внутрь сканера и это типа как не комильфо.

Canon вроде как неплохой, но он универсальный, для всего, хорошо бы услышать тех, кто именно книги много сканирует
Название: Как отсканировать библиотеку
Отправлено: Hellerick от июня 20, 2014, 17:44
Решил посмотреть, какие бывают дешевые "ломанные" сканеры, и наткнулся на это:



Любопытно.
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 20, 2014, 17:49
Цитата: Hellerick от июня 20, 2014, 17:44
Решил посмотреть, какие бывают дешевые "ломанные" сканеры, и наткнулся на это:



Любопытно.
Как там книгу положить? Обложкой вниз и печатным текстом вверх?

И где сканирующее устройство? Наверху?
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 20, 2014, 18:09
Если предполагается сканировать дофига и больше, то прежде свего надо смотреть на скорость сканирования на 300 дпи в оттенках серого. Отсканированное скармливается программе scantailor, затем собирается с помощью djvusmall и при необходимости распознается связкой Fine Reader (8 версии) и djvuocr.
Цитата: Alexandra A от июня 20, 2014, 17:49
И где сканирующее устройство? Наверху?
Там фактически дофигамегапиксельная камера.
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 20, 2014, 18:10
Цитата: Imp от июня 20, 2014, 17:07
Ещё говорят, что пыль может быстро попадать внутрь сканера и это типа как не комильфо.
У меня стареький сканер. Там и пыль и подтеки на стекле и царапины. Заметно это только на цветных картинках при большом увеличении.
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 20, 2014, 18:15
http://aluarium.net/forum/thread-432-post-5821.html#pid5821

Вот тут описание самого простого способа сделать электронную книгу в приличномм виде.
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 19:07
Цитата: Oleg Grom от июня 20, 2014, 18:15
http://aluarium.net/forum/thread-432-post-5821.html#pid5821

Вот тут описание самого простого способа сделать электронную книгу в приличномм виде.
Да, спасибо большое!

А как быть с этим : "выбираем подходящий язык распознавания", если у меня таджикско-русский или, прости господи, уйгурско-английский (с арабицей) словарь?
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 20, 2014, 19:31
Offtop
Как тема попала в ПР? :what:
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 20, 2014, 19:35
Цитата: Oleg Grom от июня 20, 2014, 18:15
http://aluarium.net/forum/thread-432-post-5821.html#pid5821

Вот тут описание самого простого способа сделать электронную книгу в приличномм виде.
А что лучше:

Scantailor+ или Scantailor Enhanced?
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 19:41
Цитата: mnashe от июня 20, 2014, 19:31
Offtop
Как тема попала в ПР? :what:
Не знаю :P ну перенеси куда надо, если тут неправильно

А уже перенёс. Тода!
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 20, 2014, 20:12
Цитата: Imp от июня 20, 2014, 19:07А как быть с этим : "выбираем подходящий язык распознавания", если у меня таджикско-русский или, прости господи, уйгурско-английский (с арабицей) словарь?
Таджикский обычно есть в распознавалках, с арабским сложнее, тем более уйгурского пошиба...
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 20:19
Цитата: Bhudh от июня 20, 2014, 20:12
Цитата: Imp от июня 20, 2014, 19:07А как быть с этим : "выбираем подходящий язык распознавания", если у меня таджикско-русский или, прости господи, уйгурско-английский (с арабицей) словарь?
Таджикский обычно есть в распознавалках, с арабским сложнее, тем более уйгурского пошиба...
А если словарь двуязычный, даже если оба языка есть в распознавалках, то их оба сразу можно указать? Как быть с комбинрованными текстами?
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 20, 2014, 20:20
Цитата: Imp от июня 20, 2014, 20:19А если словарь двуязычный, даже если оба языка есть в распознавалках, то их оба сразу можно указать?
Хоть сто. Разница будет во времени распознавания и его точности (если в двух языках есть похожие глифы).
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 20, 2014, 20:33
Вот список языков из ABBYY PDF Transformer:
(http://lingvoforum.net/index.php?action=dlattach;topic=69351.0;attach=47889;image)
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 20, 2014, 20:40
Спасибо! Не густо у них с языками ... :down:
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 20, 2014, 20:44
Это программа бородатого года, да ещё бесплатная версия. В профессиональных пакетах языков может быть на порядок больше.
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 20, 2014, 22:05
Цитата: Imp от июня 20, 2014, 19:07
А как быть с этим : "выбираем подходящий язык распознавания", если у меня таджикско-русский или, прости господи, уйгурско-английский (с арабицей) словарь?
Посмотрите список поддерживаемых полной версией ФР языков. Там их ЕМНИП пара сотен. Плюс можно делать свои алфавиты с уникальным набором символов.
Цитата: Alexandra A от июня 20, 2014, 19:35
Scantailor+ или Scantailor Enhanced?
Второй сейчас мертв. Есть еще ST Featured. С его помощью можно делать высококачественные djvu с иллюстрациям (Дополнительно нужна программ DjVuImager).
Название: Как отсканировать библиотеку
Отправлено: autorun от июня 21, 2014, 00:01
https://yadi.sk/d/zOFjlzdiUKefp - видео урок по испольсованию ScanKromsator

https://yadi.sk/d/VLC1_8DgUKgEj - ScanKromsator

https://www.virustotal.com/ru/file/a22912c954075f6210c291180a73d36f2df75c30f4b2889feea57112fc483c6e/analysis/1403297618/ - ссылка на VirusTotal
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 01:31
Цитата: Oleg Grom от июня 20, 2014, 18:15
Вот тут описание самого простого способа сделать электронную книгу в приличномм виде.
Но это же охрененно долго: сначала сканировать в виде отдельных картинок, потом брошюрировать.
Сколько времени у вас займёт, допустим 100-страничная книга без иллюстраций (обычного формата, так, чтобы на разворот)?
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 21, 2014, 10:27
Цитата: antic от июня 21, 2014, 01:31
Цитата: Oleg Grom от июня 20, 2014, 18:15
Вот тут описание самого простого способа сделать электронную книгу в приличномм виде.
Но это же охрененно долго: сначала сканировать в виде отдельных картинок, потом брошюрировать.
Сколько времени у вас займёт, допустим 100-страничная книга без иллюстраций (обычного формата, так, чтобы на разворот)?
А у вас какая последовательность действий?
Название: Как отсканировать библиотеку
Отправлено: Rwseg от июня 21, 2014, 11:15
Цитата: Hellerick от июня 20, 2014, 17:44
Решил посмотреть, какие бывают дешевые "ломанные" сканеры, и наткнулся на это:

Любопытно.
Вы меня опередили. Когда-то хотел открыть тему о них. Однако эту модель нельзя нигде купить. Все остальные громоздкие как шкаф.
Название: Как отсканировать библиотеку
Отправлено: Rwseg от июня 21, 2014, 11:18
(http://cdn.instructables.com/FF9/E4RY/G43EJWQG/FF9E4RYG43EJWQG.MEDIUM.jpg)
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 11:23
Цитата: Imp от июня 21, 2014, 10:27
А у вас какая последовательность действий?
Каких действий?
Название: Как отсканировать библиотеку
Отправлено: Rwseg от июня 21, 2014, 11:24
http://en.flossmanuals.net/e-book-enlightenment/scanning-book-pages/
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 11:29
Цитата: Imp от июня 20, 2014, 17:07
говорят, что важно чтобы крышка была настолько подвижной, чтобы могла закрыть книгу сверьху.
Если вы будете разворот книги прижимать к стеклу крышкой, то нет никакой гарантии, что страницы полностью, по всей плоскости ровно прижмутся к стеклу (впрочем, это ещё зависит от того, какая книжка). Лучше всего прижимать руками, это надёжней, да и времени меньше тратится
Название: Как отсканировать библиотеку
Отправлено: Иван-Царевич от июня 21, 2014, 11:32
Цитата: antic от июня 21, 2014, 11:23
Цитата: Imp от июня 21, 2014, 10:27
А у вас какая последовательность действий?
Каких действий?
Создания ебука, десу же. Про это ведь речь.
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 21, 2014, 11:33
Цитата: antic от июня 21, 2014, 01:31
Сколько времени у вас займёт, допустим 100-страничная книга без иллюстраций (обычного формата, так, чтобы на разворот)?
На рабочем сканере 100 страниц с разворотом сканируется за 7 минут. Обработка и собирание в djvu такого объема займет часа пол, из которых человеческое вмешательство - минут 10. Остальное все делается на автомате. При желании можно наваять скрипт, который в автоматическом режиме обработает и соберет хоть стопку книг.
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 21, 2014, 11:37
Можно ли книгу сфотографировать на мобильный телефон, потом полученные изображения перевести в .pdf, а потом сделать так чтобы в .pdf можно было копировать текст с помощью Ctrl+C Ctrl+V и перенести его в Microsoft Word?
Название: Как отсканировать библиотеку
Отправлено: Иван-Царевич от июня 21, 2014, 11:45
Цитата: Alexandra A от июня 21, 2014, 11:37
Можно ли книгу сфотографировать на мобильный телефон, потом полученные изображения перевести в .pdf, а потом сделать так чтобы в .pdf можно было копировать текст с помощью Ctrl+C Ctrl+V и перенести его в Microsoft Word?
Опыт подсказывает, что таки нет. Сфотографированный текст, конечно, можно перевести в .pdf, бат выглядеть он будет как плохой скан (ну или хороший, в зависимости от качества фотоаппарата). А вот форматы .doc и иже с ним можно с легкостью переконвертировать в .pdf. И его уже можно копировать как обычный текст.
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 21, 2014, 11:49
Цитата: Alexandra A от июня 21, 2014, 11:37
Можно ли книгу сфотографировать на мобильный телефон, потом полученные изображения перевести в .pdf, а потом сделать так чтобы в .pdf можно было копировать текст с помощью Ctrl+C Ctrl+V и перенести его в Microsoft Word?
Если камера на телефоне приличная и способна выдать качество картинки, приемлемое для распознавания файнридером, то да.
Название: Как отсканировать библиотеку
Отправлено: Иван-Царевич от июня 21, 2014, 11:54
Цитата: Oleg Grom от июня 21, 2014, 11:49
Цитата: Alexandra A от июня 21, 2014, 11:37
Можно ли книгу сфотографировать на мобильный телефон, потом полученные изображения перевести в .pdf, а потом сделать так чтобы в .pdf можно было копировать текст с помощью Ctrl+C Ctrl+V и перенести его в Microsoft Word?
Если камера на телефоне приличная и способна выдать качество картинки, приемлемое для распознавания файнридером, то да.
Ей же именно копировать текст надо, чтобы как в Вёрде было. А файн вроде не все символы распознает. У меня только один раз толково получилось. При фотографировании для таких дел надо, как минимум, соблюдать несколько правил: разрешение около трёхсот точек на дюйм, повышенная резкость, и нормальная яркость.
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 11:55
Цитата: Oleg Grom от июня 21, 2014, 11:33
100 страниц с разворотом сканируется за 7 минут
Ну, это слишком дорогой сканер. Бытовые такой скорости не обеспечат
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 11:57
Цитата: Иван-Царевич от июня 21, 2014, 11:32
Создания ебука, десу же. Про это ведь речь.
Я не понял, вы что, хотите, чтобы я с нулевого цикла и до полного завершения расписал всю технологическую карту? Слишком это утомительно
Название: Как отсканировать библиотеку
Отправлено: Иван-Царевич от июня 21, 2014, 12:02
Цитата: antic от июня 21, 2014, 11:57
Цитата: Иван-Царевич от июня 21, 2014, 11:32
Создания ебука, десу же. Про это ведь речь.
Я не понял, вы что, хотите, чтобы я с нулевого цикла и до полного завершения расписал всю технологическую карту? Слишком это утомительно
Не-не, во-первых, не я, во-вторых, не всю. Просто и мне и Импу интересен ваш алгоритм действий. Вы же сами написали: "это охрененно долго". А как быстрее то?
Название: Как отсканировать библиотеку
Отправлено: Rwseg от июня 21, 2014, 12:26
Цитата: Alexandra A от июня 21, 2014, 11:37
Можно ли книгу сфотографировать на мобильный телефон
По-моему опыту это сложно. Нужен обязательно штатив или что-то подобное, как выше на картинке.
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 12:31
Быстрее, это не сканировать отдельно по картинке, а сразу сканировать в режиме создания ПДФ. Конечно, если использовать дорогой профессиональный сканер, где на проход каретки затрачивается несколько секунд и доли секунды на сохранение картинки, то это неактуально, а вот с обычным домашнем сканером, совсем другое дело

PS Собственно, я не понял в чём была причина вопроса: ведь если я написал, что по отдельности долго, то, понятное дело, я имел в виду, что целиком — быстрее
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 21, 2014, 12:32
Цитата: antic от июня 21, 2014, 11:55
Ну, это слишком дорогой сканер. Бытовые такой скорости не обеспечат
Эээ. Это далеко не самая дорогая МФУшка. На Яндекс маркете отдают за 6268 руб.
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 21, 2014, 12:33
Цитата: Иван-Царевич от июня 21, 2014, 12:02
Цитата: antic от июня 21, 2014, 11:57
Цитата: Иван-Царевич от июня 21, 2014, 11:32
Создания ебука, десу же. Про это ведь речь.
Я не понял, вы что, хотите, чтобы я с нулевого цикла и до полного завершения расписал всю технологическую карту? Слишком это утомительно
Не-не, во-первых, не я, во-вторых, не всю. Просто и мне и Импу интересен ваш алгоритм действий. Вы же сами написали: "это охрененно долго". А как быстрее то?
:+1: Именно это я и хотел сказать. Если то - долго, то как не долго? antic, поделитесь, лютфен
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 21, 2014, 12:34
Цитата: antic от июня 21, 2014, 12:31
Быстрее, это не сканировать отдельно по картинке, а сразу сканировать в режиме создания ПДФ.
И на выходе получать файлы огромного размера и дерьмового качества...
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 21, 2014, 12:39
Цитата: Oleg Grom от июня 21, 2014, 12:34
Цитата: antic от июня 21, 2014, 12:31
Быстрее, это не сканировать отдельно по картинке, а сразу сканировать в режиме создания ПДФ.
И на выходе получать файлы огромного размера и дерьмового качества...
Блин, люди, скажите, как лучше отсканировать книгу, например, африкаанс-русский словарь, чтобы в конце получился не самых монструозных размеров, но чистенький и напоминающий оригинал PDF файл формата чуть боле А4, по которому можно было бы делать поиск, как на африкаанс, так и на русском

И ещё какой принтер купить в пределах тыщ так +/-10, чтобы быстро и качественно это делал
Название: Как отсканировать библиотеку
Отправлено: Иван-Царевич от июня 21, 2014, 12:44
Цитата: Imp от июня 21, 2014, 12:39
Цитата: Oleg Grom от июня 21, 2014, 12:34
Цитата: antic от июня 21, 2014, 12:31
Быстрее, это не сканировать отдельно по картинке, а сразу сканировать в режиме создания ПДФ.
И на выходе получать файлы огромного размера и дерьмового качества...
Блин, люди, скажите, как лучше отсканировать книгу, например, африкаанс-русский словарь, чтобы в конце получился не самых монструозных размеров, но чистенький и напоминающий оригинал PDF файл формата чуть боле А4, по которому можно было бы делать поиск, как на африкаанс, так и на русском

И ещё какой принтер купить в пределах тыщ так 10, чтобы быстро и качественно это делал
Бро, ну вот мы на той странице писали про распознавание сфотографированных файлов в файне. Тебе туда. Правда я не знаю насколько хорошо файн сможет распарсить отсканенные пдфы, но, если попытаться получить более-менее четкий скан, то возможность распознавания велика.
Нащот принтира: я юзаю ХыПы, дескджет кажись. Хрен знает, какая модель, но юзается кошерно, причем, если учитывать его семилетний возраст, то вообще просто збс.
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 12:45
Цитата: Imp от июня 21, 2014, 12:33
Если то - долго, то как не долго?
Я специально не измерял, мне в редких случаях приходится отдельные страницы по картинкам делать, а также обложки книг. Целиком книгу в картинках я не делал.


Цитата: Oleg Grom от июня 21, 2014, 12:34
файлы огромного размера
После оптимизации они существенно уменьшаются
Огромного - вы какого имеете в виду?

Цитата: Oleg Grom от июня 21, 2014, 12:34
дерьмового качества
Вы считаете, что дежавюшное качество лучше пдфного? Я бы так не сказал. Не могли бы вы привести данные независимых экспертов по сравнению качества ПДФ и дежавю?
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 12:51
Цитата: Иван-Царевич от июня 21, 2014, 12:44
Цитата: Imp от июня 21, 2014, 12:39
Цитата: Oleg Grom от июня 21, 2014, 12:34
Цитата: antic от июня 21, 2014, 12:31
Быстрее, это не сканировать отдельно по картинке, а сразу сканировать в режиме создания ПДФ.
И на выходе получать файлы огромного размера и дерьмового качества...
Блин, люди, скажите, как лучше отсканировать книгу, например, африкаанс-русский словарь, чтобы в конце получился не самых монструозных размеров, но чистенький и напоминающий оригинал PDF файл формата чуть боле А4, по которому можно было бы делать поиск, как на африкаанс, так и на русском

И ещё какой принтер купить в пределах тыщ так 10, чтобы быстро и качественно это делал
Бро, ну вот мы на той странице писали про распознавание сфотографированных файлов в файне.

Имеется в виду Файнридер? Честно говоря, с Файнридером для меня не всё понятно. Можно ли с его помощью всунуть ОЦР-слой в графический ПДФ? У меня Файнридер 8, я там такой возможности не нашел, если сохранять как ПДФ, то он делает в режиме текстового ПДФ, а в таком случае ПДФ вроде и нафик не нужен, проще тогда  как ДОК сохранить
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 21, 2014, 13:09
Цитата: Иван-Царевич от июня 21, 2014, 11:54
Цитата: Oleg Grom от июня 21, 2014, 11:49
Цитата: Alexandra A от июня 21, 2014, 11:37
Можно ли книгу сфотографировать на мобильный телефон, потом полученные изображения перевести в .pdf, а потом сделать так чтобы в .pdf можно было копировать текст с помощью Ctrl+C Ctrl+V и перенести его в Microsoft Word?
Если камера на телефоне приличная и способна выдать качество картинки, приемлемое для распознавания файнридером, то да.
Ей же именно копировать текст надо, чтобы как в Вёрде было. А файн вроде не все символы распознает. У меня только один раз толково получилось. При фотографировании для таких дел надо, как минимум, соблюдать несколько правил: разрешение около трёхсот точек на дюйм, повышенная резкость, и нормальная яркость.
Вы не поняли.

Мне не нужен "текст как в Ворде." Мне нужен текст который потом можно перенести в Ворд и из Ворда распечатать.

Весь смысл копирования (сканнером, телефоном) - это сделать такой файл, чтобы потом текст можно было напечатать на принтере. Хорошо. если это будет .pdf котрый распознаёт текст как текст (а не как картинку) - текст который можно копировать при желании. Лучше, если это будет документ Ворда, текст которого скопирован из файла .pdf с помощью Ctrl+C Ctrl+V.
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 21, 2014, 13:12
Цитата: Oleg Grom от июня 21, 2014, 11:49
Цитата: Alexandra A от июня 21, 2014, 11:37
Можно ли книгу сфотографировать на мобильный телефон, потом полученные изображения перевести в .pdf, а потом сделать так чтобы в .pdf можно было копировать текст с помощью Ctrl+C Ctrl+V и перенести его в Microsoft Word?
Если камера на телефоне приличная и способна выдать качество картинки, приемлемое для распознавания файнридером, то да.
Fine Reader - это класс различных программ, раных кмопаний и авторов?

ST+ - это один из файн ридеров?
Название: Как отсканировать библиотеку
Отправлено: Иван-Царевич от июня 21, 2014, 13:14
Цитата: Alexandra A от июня 21, 2014, 13:09
Цитата: Иван-Царевич от июня 21, 2014, 11:54
Цитата: Oleg Grom от июня 21, 2014, 11:49
Цитата: Alexandra A от июня 21, 2014, 11:37
Можно ли книгу сфотографировать на мобильный телефон, потом полученные изображения перевести в .pdf, а потом сделать так чтобы в .pdf можно было копировать текст с помощью Ctrl+C Ctrl+V и перенести его в Microsoft Word?
Если камера на телефоне приличная и способна выдать качество картинки, приемлемое для распознавания файнридером, то да.
Ей же именно копировать текст надо, чтобы как в Вёрде было. А файн вроде не все символы распознает. У меня только один раз толково получилось. При фотографировании для таких дел надо, как минимум, соблюдать несколько правил: разрешение около трёхсот точек на дюйм, повышенная резкость, и нормальная яркость.
Вы не поняли.

Мне не нужен "текст как в Ворде." Мне нужен текст который потом можно перенести в Ворд и из Ворда распечатать.

Весь смысл копирования (сканнером, телефоном) - это сделать такой файл, чтобы потом текст можно было напечатать на принтере. Хорошо. если это будет .pdf котрый распознаёт текст как текст (а не как картинку) - текст который можно копировать при желании. Лучше, если это будет документ Ворда, текст которого скопирован из файла .pdf с помощью Ctrl+C Ctrl+V.
Я про это и говорил. Имелась ввиду возможность переноса текста куда-либо.
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 21, 2014, 13:20
Сканера у меня нет, а вот мобильный телефон есть.

Что надо сделать чтобы сфотографировать страницу книги мобильным телефоном и потмо перенести в Ворд?

Какие программы я должна установить?

Я уже установила Scan Tailor 0.9.11.1 (ST+ или ST Enhanced - не знаю).
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 21, 2014, 13:27
Цитата: antic от июня 21, 2014, 12:45
Не могли бы вы привести данные независимых экспертов по сравнению качества ПДФ и дежавю?
Любой человек мало мальски серьезно занимавшийся оцифровкой книг вам это скажет. Есть только один случай когда pdf однозначно решает - изначально компьютерная верстка. Отсканированную книгу конечно можно распознать, вычитать и переверстать, но геморроя столько, что мало кто этим занимается.
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 13:27
Цитата: Alexandra A от июня 21, 2014, 13:20
Какие программы я должна установить?
Любую распознавалку текстов. Насколько я понимаю, самой крутой распознавалкой считается Файнридер, но он платный
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 13:32
Цитата: Oleg Grom от июня 21, 2014, 13:27
Цитата: antic от июня 21, 2014, 12:45
Не могли бы вы привести данные независимых экспертов по сравнению качества ПДФ и дежавю?
Любой человек мало мальски серьезно занимавшийся оцифровкой книг вам это скажет.
Мне не интересно мнение любого любителя, который решил, что для него лично больше подходит дежавю. Если вы считаете себя специалистом в этом вопросе, то, пожалуйста выдайте объективные формализованные характеристики, определяющие качество
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 21, 2014, 13:38
Alexandra A,

Эту книжку я сфоткал лет 5 назад на "мыльницу" по характеристикам сравнимую с камерам на современных смартфонах средней ценовой категории. Вот подложенный под картинку текст по которому осуществляется поиск и который можно копировать:
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 21, 2014, 13:39
Возможно качество у пдф и дежавю разное, но я очень много пользуюсь файлами на айпаде и у меня есть очень хорошая программа для файлов пдф, с дежавю труднее, поэтому лично мне дежавю не подходит совсем
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 21, 2014, 13:52
Цитата: antic от июня 21, 2014, 13:32
Мне не интересно мнение любого любителя, который решил, что для него лично больше подходит дежавю. Если вы считаете себя специалистом в этом вопросе, то, пожалуйста выдайте объективные формализованные характеристики, определяющие качество
http://www.djvu-soft.narod.ru/ Там же есть форум, где можно пообщаться со "специалистами" по технической стороне сканообработки.
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 21, 2014, 13:54
Цитата: Oleg Grom от июня 21, 2014, 13:38
Alexandra A,

Эту книжку я сфоткал лет 5 назад на "мыльницу" по характеристикам сравнимую с камерам на современных смартфонах средней ценовой категории. Вот подложенный под картинку текст по которому осуществляется поиск и который можно копировать:
Спасибо.

Так как это делается? С помощью Scan Tailor? Все программы были бесплатные?

Да, это то что нужно. Книжка сфотографирована - а вот теперь есть текст который можно копировать и переносить куда угодно для распечатки.
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 14:14
Цитата: Oleg Grom от июня 21, 2014, 13:52
http://www.djvu-soft.narod.ru/ Там же есть форум, где можно пообщаться со "специалистами" по технической стороне сканообработки.
Узнавать о преимуществе дежавю на форуме дежавюшников, это то же самое, что узнавать о преимуществах крепостного строя в уездном дворянском собрании
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 21, 2014, 14:24
Цитата: Alexandra A от июня 21, 2014, 13:12Fine Reader - это класс различных программ, раных кмопаний и авторов?

ST+ - это один из файн ридеров?
Александра, Вы в интернете или где⁈
ABBYY FineReader (http://ru.wikipedia.org/wiki/ABBYY_FineReader) — это лицензионный продукт компании ABBYY, той же, что создала и PDF Transformer (http://store.abbyy.ru/catalog/program.php?ID=142177&CID=5486&FULL_DESC=Y&dict=), список поддерживаемых языков из какой я показывал.
Название: Как отсканировать библиотеку
Отправлено: dragun97yu от июня 21, 2014, 14:44
Дежавю лучше, ибо они размером меньше.
Хотя с ПО есть проблемы. На iOS, например, единственный ридер мне не понравился.
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 21, 2014, 14:45
Меньше, если нормально сделаны. Про DjVuʼшки на веб-архиве, к сожалению, этого сказать нельзя, там и побольше pdfʼок размером встречаются.
Название: Как отсканировать библиотеку
Отправлено: dragun97yu от июня 21, 2014, 14:46
Цитата: Bhudh от июня 21, 2014, 14:45
Меньше, если нормально сделаны.
Это да.
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 14:46
Дежавю не вполне портабельны
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 21, 2014, 14:47
В чём портабельность? Для Линуха нет читалок? :o
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 21, 2014, 14:52
Цитата: Bhudh от июня 21, 2014, 14:47
В чём портабельность? Для Линуха нет читалок? :o
Дежавю объективно менее распространены и для них меньше программ, их намного реже могут читать ридеры, если вообще хоть какие-то могут
Название: Как отсканировать библиотеку
Отправлено: dragun97yu от июня 21, 2014, 14:53
Цитата: Imp от июня 21, 2014, 14:52
Дежавю объективно менее распространены и для них меньше программ, их намного реже могут читать ридеры, если вообще хоть какие-то могут
Ридеры на Windows, MacOS и Linux точно есть.
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 21, 2014, 14:53
Цитата: Imp от июня 21, 2014, 14:52их намного реже могут читать ридеры
Всмысле хардовые читалки? Электронные книжки?
Ибо для компа софт для них чаще всего раздельный.
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 21, 2014, 14:55
Цитата: Bhudh от июня 21, 2014, 14:53
Цитата: Imp от июня 21, 2014, 14:52их намного реже могут читать ридеры
Всмысле хардовые читалки? Электронные книжки?
Ибо для компа софт для них чаще всего раздельный.
Да да электронные читалки для книжек
Название: Как отсканировать библиотеку
Отправлено: dragun97yu от июня 21, 2014, 14:56
Цитата: Imp от июня 21, 2014, 14:55
Цитата: Bhudh от июня 21, 2014, 14:53
Цитата: Imp от июня 21, 2014, 14:52их намного реже могут читать ридеры
Всмысле хардовые читалки? Электронные книжки?
Ибо для компа софт для них чаще всего раздельный.
Да да электронные читалки
Я могу с уверенностью сказать, что современные читалки будут поддерживать Djvu.
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 21, 2014, 14:57
Ну за это монстра по имени Adobe надо благодарить.
Первоначально PDF для читалок тоже не предназначался, там свои форматы: E-Pub, Mobi и т. п.
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 21, 2014, 14:59
Вот есть прожка, которая читает всё: (wiki/ru) STDU Viewer (http://ru.wikipedia.org/wiki/STDU_Viewer).
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 21, 2014, 15:01
Могу рассказать о своём опыте: на яблочном айпаде замечательно и без проблем читаются pdf файлы, для них есть масса удобных приложений и совершенно диспропорционально мало софта для дежавю файлов. Amazon Kindle и в версии для электронной книжки, и для компьютера и для айПада вообще дежавю не читает никак.

Есть ли вообще ридеры для электронных книг (как отдельное устройство), которые распознают файлы дежавю?
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 21, 2014, 15:02
Цитата: dragun97yu от июня 21, 2014, 14:56
Цитата: Imp от июня 21, 2014, 14:55
Цитата: Bhudh от июня 21, 2014, 14:53
Цитата: Imp от июня 21, 2014, 14:52их намного реже могут читать ридеры
Всмысле хардовые читалки? Электронные книжки?
Ибо для компа софт для них чаще всего раздельный.
Да да электронные читалки
Я могу с уверенностью сказать, что современные читалки будут поддерживать Djvu.
Я об отдельных устройствах для чтения электронных книг. Kindle точно не распознаёт и по-моему как минимум несколько других устройств тоже нет
Название: Как отсканировать библиотеку
Отправлено: dragun97yu от июня 21, 2014, 15:05
Цитата: Imp от июня 21, 2014, 15:02
Цитата: dragun97yu от июня 21, 2014, 14:56
Цитата: Imp от июня 21, 2014, 14:55
Цитата: Bhudh от июня 21, 2014, 14:53
Цитата: Imp от июня 21, 2014, 14:52их намного реже могут читать ридеры
Всмысле хардовые читалки? Электронные книжки?
Ибо для компа софт для них чаще всего раздельный.
Да да электронные читалки
Я могу с уверенностью сказать, что современные читалки будут поддерживать Djvu.
Я об отдельных устройствах для чтения электронных книг. Kindle точно не распознаёт и по-моему как минимум несколько других устройств тоже нет
Вот вам и брендовая вещь :fp:
Я об устройствах и говорила :(
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 21, 2014, 15:10
Так без платной программы Fine Reader не обойтись?

(Я никогда не приобретала через Интернет платные программы...)
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 21, 2014, 15:11
Цитата: Imp от июня 21, 2014, 15:01Есть ли вообще ридеры для электронных книг (как отдельное устройство), которые распознают файлы дежавю?
http://market.yandex.ru/search.xml?text=электронные книги +djvu (http://market.yandex.ru/search.xml?text=%D1%8D%D0%BB%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5+%D0%BA%D0%BD%D0%B8%D0%B3%D0%B8+%2Bdjvu)
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 21, 2014, 15:13
Цитата: Alexandra A от июня 21, 2014, 15:10Так без платной программы Fine Reader не обойтись?
:fp: FineReader не единственная программа для OCR. Есть много бесплатных, например свободный движок Tesseract (http://ru.wikipedia.org/wiki/Tesseract), который ещё и обучается.
Название: Как отсканировать библиотеку
Отправлено: antic от июня 21, 2014, 15:16
Цитата: Alexandra A от июня 21, 2014, 15:10
Так без платной программы Fine Reader не обойтись?
Можно юзать фриварные распознавалки, но они, по определению, хуже.

По секрету, могу также сказать, что на каждую платную программу существует бесплатный кряк
Название: Как отсканировать библиотеку
Отправлено: Alexandra A от июня 21, 2014, 15:26
Цитата: Bhudh от июня 21, 2014, 15:13
Цитата: Alexandra A от июня 21, 2014, 15:10Так без платной программы Fine Reader не обойтись?
:fp: FineReader не единственная программа для OCR. Есть много бесплатных, например свободный движок Tesseract (http://ru.wikipedia.org/wiki/Tesseract), который ещё и обучается.
Какой именно установочный файл загрузить? У меня Windows 7.
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 21, 2014, 15:28
Цитата: Bhudh от июня 21, 2014, 15:11
Цитата: Imp от июня 21, 2014, 15:01Есть ли вообще ридеры для электронных книг (как отдельное устройство), которые распознают файлы дежавю?
http://market.yandex.ru/search.xml?text=электронные книги +djvu (http://market.yandex.ru/search.xml?text=%D1%8D%D0%BB%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5+%D0%BA%D0%BD%D0%B8%D0%B3%D0%B8+%2Bdjvu)
То есть только продукция под брендом PocketBook
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 21, 2014, 15:33
Цитата: dragun97yu от июня 21, 2014, 15:05
Цитата: Imp от июня 21, 2014, 15:02
Цитата: dragun97yu от июня 21, 2014, 14:56
Цитата: Imp от июня 21, 2014, 14:55
Цитата: Bhudh от июня 21, 2014, 14:53
Цитата: Imp от июня 21, 2014, 14:52их намного реже могут читать ридеры
Всмысле хардовые читалки? Электронные книжки?
Ибо для компа софт для них чаще всего раздельный.
Да да электронные читалки
Я могу с уверенностью сказать, что современные читалки будут поддерживать Djvu.
Я об отдельных устройствах для чтения электронных книг. Kindle точно не распознаёт и по-моему как минимум несколько других устройств тоже нет
Вот вам и брендовая вещь :fp:
Ну устройства с привязкой к какой-то одной, пусть и разветвлённой компании, вообще всегда имеют усечённый функционал, но даже более независимые ридеры далеко не поголовно читают дежавю
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 21, 2014, 19:09
Цитата: dragun97yu от июня 21, 2014, 14:56
Я могу с уверенностью сказать, что современные читалки будут поддерживать Djvu.
Моя довольно древняя и примитивная читалка неплохо умеет djvu. Современные модели по идее должны читать. А покупать девачс который не понимает один из наболее распространенных форматов электронных книг, это извините, ссзб.
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 21, 2014, 21:57
Цитата: Oleg Grom от июня 21, 2014, 12:34
Цитата: antic от июня 21, 2014, 12:31Быстрее, это не сканировать отдельно по картинке, а сразу сканировать в режиме создания ПДФ.
И на выходе получать файлы огромного размера и дерьмового качества...
+100500

Цитата: antic от июня 21, 2014, 12:45
Цитата: Oleg Grom от июня 21, 2014, 12:34дерьмового качества
Вы считаете, что дежавюшное качество лучше пдфного? Я бы так не сказал.
При чём тут это?
Качество зависит от обработки, от выбора оптимального режима, а не от того, в каком формате сохранять.
Конечный формат определяет только размер файла: у djvu при равном качестве размер раза в полтора меньше.
Но это не имеет никакого отношения к обсуждаемому вопросу: дерьмовое качество по вашему методу получается из-за метода, а не из-за формата.

P.S.
Вот пример:
Цитата: mnashe от января  3, 2013, 18:33
Был у меня 900-страничный этимологический словарь Кляйна, переснятый фотоаппаратом и выложенный в виде 460-мегабайтного pdf.
Пользоваться этим монстром было очень неудобно: низкий контраст, неравномерное освещение, вьюер работал медленно из-за огромного размера.
Какой-то умник ужал его до 100 мегабайт и в таком виде выложил на UZT.
Скачал я, посмотрел на этот ужас и сразу стёр. Это вообще уже было нечитабельно, буквы порасплывались...
Какого было трогать файл, если лень посмотреть, что получилось?‥
Пришлось потратить около 40 часов в ScanTailor'е и привести книгу в божеский вид (djvu 62 MB).
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 21, 2014, 22:11
Полезные ссылки:
Обработка изображений. Подскажите (http://lingvoforum.net/index.php/topic,43675.html)
Чем собрать jpgʼшки в pdf? (http://lingvoforum.net/index.php/topic,56676.html)
Ишо 1 безответный вопрос: как уменьшить pdf? (http://lingvoforum.net/index.php/topic,41641.html)
Название: Как отсканировать библиотеку
Отправлено: antic от июня 22, 2014, 01:22
Цитата: mnashe от июня 21, 2014, 21:57
дерьмовое качество
Факты в студию!
Лично я, например, видел гораздо больше дежавюшек хренового качества

Цитата: mnashe от июня 21, 2014, 21:57
переснятый фотоаппаратом и выложенный в виде 460-мегабайтного pdf.
Ну а в этом то случае чо на ПДФ грешить! Тут исходная информация хреново получена
Название: Как отсканировать библиотеку
Отправлено: Иван-Царевич от июня 22, 2014, 01:26
Цитата: antic от июня 22, 2014, 01:22
Лично я, например, видел гораздо больше дежавюшек хренового качества
:+1:
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 22, 2014, 02:16
Плюсадын оно может и плюсадын, только этих больше было больше чего? Больше пэдээфок-сканов или пэдээфок вообще? Большая часть пэфээфок изначально создаются как электронные документы, то есть это аналог doc, а не аналог djvu.
Название: Как отсканировать библиотеку
Отправлено: Skvodo от июня 22, 2014, 04:04
Цитата: Иван-Царевич от июня 22, 2014, 01:26
Цитата: antic от июня 22, 2014, 01:22
Лично я, например, видел гораздо больше дежавюшек хренового качества
:+1:
Так и есть.
Идея массово использовать djvu для книг возникла 10 лет назад, когда интернет-трафик и место на диске было в дефиците. Не совсем понятно, почему этот формат по инерции продолжает использоваться для электронных книг до сих пор.
Из-за сложных настроек формата, создание качественного djvu-файла требует большого опыта. Поэтому, например, на http://twirpx.com качественные djvu-книжки "собственного" производства выкладывают единицы пользователей.
Сохранять в djvu-файл что-то меньше 600 dpi с предварительной тщательной обработкой, например в ScanKromsator, означает потерю качества, вплоть до полной потери читаемости. PDF позволяет сохранять OCR-распознанный текст под изображением страницы, избавляя тем самым от вычитки. Это актуально для лингвистической и другой научной литературы с её сложной версткой, таблицами, формулами и тд.
Я забыл о djvu, после того, как мне стали попадаться книги, в которых абсолютно все кириллические "и" заменены на "н" или наоборот (такой вот алгоритм сжатия). Этого бы не произошло, если бы тот же текст был сохранён в PDF или JPEG. Возможности впоследствии создать удобочитаемую книжку из 300-мегабайтного pdf больше, чем пытаться "улучшать" из пережатого DJVU в 2мб.

PS:
Алгоритм "Создание электронных книг из сканов: как получить DjVu или PDF из бумажной книги":
http://rutracker.org/forum/viewtopic.php?t=2160930
http://rutracker.org/forum/viewtopic.php?t=2556964
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 22, 2014, 04:09
Цитата: Skvodo от июня 22, 2014, 04:04PDF позволяет сохранять OCR-распознанный текст под изображением страницы
В DjVu тоже есть текстовый слой.
Название: Как отсканировать библиотеку
Отправлено: Skvodo от июня 22, 2014, 04:18
Цитата: Bhudh от июня 22, 2014, 04:09
В DjVu тоже есть текстовый слой.
Раньше, чтобы добавить текстовый слой в DjVu, нужны были танцы с бубном. Сейчас, вроде бы, это можно сделать напрямую через Finereader.
Название: Как отсканировать библиотеку
Отправлено: autorun от июня 22, 2014, 05:10
DjVu обычно бывает с разрешением 600dpi, вы хоть попробуйте запаковать JPG изображения 300 страничной книги хотя бы с разрешением 300dpi в PDF, ещё попробуйте без предварительной обработки конвертнуть в DjVu, в DjVu не возможно добавить распознанный слой но тоже можно распознать.
Название: Как отсканировать библиотеку
Отправлено: Лом d10 от июня 22, 2014, 05:10
Цитата: Bhudh от июня 21, 2014, 14:59
Вот есть прожка, которая читает всё: (wiki/ru) STDU Viewer (http://ru.wikipedia.org/wiki/STDU_Viewer).
она хоть и всеядна тормознутая по полной программе, лучше уж тогда браузер с плагинами использовать.
Название: Как отсканировать библиотеку
Отправлено: autorun от июня 22, 2014, 05:22
В DjVu как и в PDF тоже можно добавить содержание.
Название: Как отсканировать библиотеку
Отправлено: autorun от июня 22, 2014, 05:43
Извлечь изображения из PDF без потери качества можно с помощью PDF Image Extraction Wizard
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 22, 2014, 06:16
Цитата: autorun от июня 22, 2014, 05:10в DjVu не возможно добавить распознанный слой но тоже можно распознать
Не распарсил.
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 22, 2014, 06:20
Цитата: Лом d10 от июня 22, 2014, 05:10она хоть и всеядна тормознутая по полной программе
:green: Не без этого. Потому я её не использую (хотя в коллекции ридеров есть). Для djvuʼшек у меня DjVu Viewer, для pdfʼок Foxit Reader (иногда Adobe Reader, если Фоксит внезапно подглючивает).
Название: Как отсканировать библиотеку
Отправлено: antic от июня 22, 2014, 06:29
Цитата: autorun от июня 22, 2014, 05:10
запаковать JPG изображения 300 страничной книги хотя бы с разрешением 300dpi в PDF
ЙПГ в ПДФ — не слишком хорошая идея, мягко говоря. В ПДФ нужно кодировать из натуральной основы (БМП или несжатый ТИФ)
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 07:58
Цитата: antic от июня 22, 2014, 01:22
Цитата: mnashe от июня 21, 2014, 21:57дерьмовое качество
Факты в студию!
Лично я, например, видел гораздо больше дежавюшек хренового качества
А ты что думал — дерьмовый pdf при конвертации в djvu волшебным образом становится конфеткой?
Все эти хреносканы, независимо от формата, в котором они сохранены, получены кривым методом: автоматические настройки сканера, выдающие «фотографию» с серым фоном, и затем прямое сохранение полученных «фотографий» в pdf или djvu безо всякой обработки. Естественно, оба формата пытаются сохранить максимум из скормленной им информации, уложившись в предоставленный им размер, но они никак не могут отличить полезную информацию от грязи. В итоге 95% объёма файла идёт на сохранение грязи, а оставшихся 10% на собственно текст никак не хватает.

Цитата: antic от июня 22, 2014, 01:22
Цитата: mnashe от июня 21, 2014, 21:57переснятый фотоаппаратом и выложенный в виде 460-мегабайтного pdf.
Ну а в этом то случае чо на ПДФ грешить! Тут исходная информация хреново получена
Ну дык а я ж о чём?
Качество зависит только от метода, а ни в коей мере не от формата.
Оба формата обеспечивают прекрасное качество, если вся подготовка сделана правильно и на каждой стадии, вплоть до конечной, выбраны подходящие настройки.
Название: Как отсканировать библиотеку
Отправлено: antic от июня 22, 2014, 08:11
Цитата: mnashe от июня 22, 2014, 07:58
автоматические настройки сканера, выдающие «фотографию» с серым фоном
Поясните, что за серый фон

Цитата: mnashe от июня 22, 2014, 07:58
сохранение полученных «фотографий» в pdf или djvu безо всякой обработки
Поясните, какая обработка требуется для сканов, прежде чес брошюровать их а ПДФ (на мой взгляд, обработка может только ухудшить качество, ибо полученный со сканера битмаповский образ наиболее близок к вещественному оригиналу, какая-либо обработка от этого оригинала только отдалит)
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 22, 2014, 08:15
Цитата: mnashe от июня 22, 2014, 07:58
Естественно, оба формата пытаются сохранить максимум из скормленной им информации, уложившись в предоставленный им размер, но они никак не могут отличить полезную информацию от грязи. В итоге 95% объёма файла идёт на сохранение грязи, а оставшихся 10% на собственно текст никак не хватает.
Золоты слова, mnashe, а теперь можно тебя лично попросить коротенько описать как ты делаешь это более эффективно. Я уже запутался в этой дискуссии. Я точно буду создавать PDF с OCR, но как лучше всего и эффективнее это сделать. Мне конечно же нужны не очень большие файлы, но одновременно хотелось бы видеть красивые белые странички, а не серые нечитаемые портянки. Какой программой для распознавания стал бы пользоваться лично ты и какие настройки для сканирования лично ты бы выбрал для себя?
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 08:19
Цитата: Skvodo от июня 22, 2014, 04:04
Из-за сложных настроек формата, создание качественного djvu-файла требует большого опыта.
Это не относится к голому тексту без иллюстраций, или с монохромными иллюстрациями.
Там вообще нет никаких сложных настроек, и при этом информация сохраняется полностью, без потерь (из монохромной картинки вдвое большего разрешения). Качество идеальное. Никаких «и→н», разумеется, не происходит.
Лично я для таких сканов всегда использую djvu: как уже отметил, итоговый размер файла при том же качестве раза в полтора меньше, чем pdf.
Если полноцветные (или в оттенках серого) иллюстрации есть, но всего на паре десятков страниц на всю книгу — то я собираю в djvu все остальные страницы, сохраняю в чёрно-белом режиме (без потерь), а затем добавляю в нужные места иллюстрированные страницы и сохраняю в режиме photo (не экономя в размере).
Если же почти на всех страницах полноцветные иллюстрации — то djvu не даёт никаких преимуществ.

Цитата: Skvodo от июня 22, 2014, 04:04
Я забыл о djvu, после того, как мне стали попадаться книги, в которых абсолютно все кириллические "и" заменены на "н" или наоборот (такой вот алгоритм сжатия). Этого бы не произошло, если бы тот же текст был сохранён в PDF или JPEG.
Этого бы не произошло, если бы форматом djvu пользовались по назначению, а не скармливали ему грязный скан с серым фоном, не обращая внимание на выбор формата при сохранении.
А если бы его сохраняли в PDF или тем более JPEG с размером файла даже в 5 раз большим, чем этот кривой djvu, то замены "и" → "н" никто бы уже не заметил: настолько размытым при этом получается текст.

Цитата: Skvodo от июня 22, 2014, 04:04Возможности впоследствии создать удобочитаемую книжку из 300-мегабайтного pdf больше, чем пытаться "улучшать" из пережатого DJVU в 2мб.
Удивительно, правда? :green:
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 08:22
Цитата: antic от июня 22, 2014, 06:29
ЙПГ в ПДФ — не слишком хорошая идея, мягко говоря. В ПДФ нужно кодировать из натуральной основы (БМП или несжатый ТИФ)
Это в той же мере относится и к djvu.
Название: Как отсканировать библиотеку
Отправлено: Awwal12 от июня 22, 2014, 08:33
Цитата: antic от июня 22, 2014, 08:11
Цитата: mnashe от июня 22, 2014, 07:58автоматические настройки сканера, выдающие «фотографию» с серым фоном
Поясните, что за серый фон
"Цвет" окружающего буквы пространства, отличный от чистого белого. В дальнейшем затрудняет как сжатие, так и распознавание.
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 08:49
Цитата: antic от июня 22, 2014, 08:11
Цитата: mnashe от июня 22, 2014, 07:58автоматические настройки сканера, выдающие «фотографию» с серым фоном
Поясните, что за серый фон
Ползунки на гистограмме нужно выставить так, чтобы верхнему пределу (255) соответствовали самые тёмные участки фона. Тогда на скане будет только полезная информация.
(Аналогично, самым светлым буквам нужно поставить в соответствие 0).
Автоматические настройки сканера этого не делают — наоборот, они стараются сохранить всё по максимуму.
Ещё одна проблема — развороты. Если часть текста попадает на разворот, то её нужно обрабатывать отдельно, поскольку у неё совсем другие уровни освещённости текста и фона, да ещё и градиент. Тут уже без обработки вообще никак. И очень желательна специальная программа — в фотошопе на исправление этих участков уходит очень много времени, ведь каждую страницу приходится исправлять вручную.
Если на разворотах текста нет, то проблема решается намного проще: достаточно всего лишь выставить границы так, чтобы разворот не попадал в сканируемую область, и только после этого выставлять ползунки на гистограмме. Но криворукие сканировщики и этого не делают — в результате проблема «серого фона» резко усугубляется.

Цитата: antic от июня 22, 2014, 08:11
на мой взгляд, обработка может только ухудшить качество, ибо полученный со сканера битмаповский образ наиболее близок к вещественному оригиналу, какая-либо обработка от этого оригинала только отдалит
Ну разумеется.
Только не забываем про 95%.
В типичной текстовой странице фон составляет где-то 90±5%.
Если ты хочешь передать всю информацию — ты должен обеспечить соответствующий размер файла (в 10–20 раз больше).
Если ты попытаешься вместить эти «наиболее близкие к вещественному оригиналу» сканы в нечто не столь увесистое — ты получишь дерьмовый результат (независимо от формата), поскольку на действительно полезную информацию фактически отводится в 10–20 раз меньший объём.
Поэтому сохранять «наиболее близкие к вещественному оригиналу» изображения ни в коем случае нельзя (если, конечно, речь идёт о текстовой книге, а не о наборе репродукций из музея).
Название: Как отсканировать библиотеку
Отправлено: autorun от июня 22, 2014, 09:02
Сканировать с OCR возможно только в RTF, WordPad или Microsoft Office Word
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 09:03
Цитата: Imp от июня 22, 2014, 08:15
Я точно буду создавать PDF с OCR, но как лучше всего и эффективнее это сделать.
В создании комбинированных pdf у меня нет опыта.
Я делал только 2 процесса:
1. Прямое сканирование в FineReader → распознавание → вычитка там же → сохранение в HTML с дальнейшим переформатированием или в PDF (pdf для любителей — мне он не был нужен).
2. Сканирование в картинки (градации серого, 300 dpi, белый фон) → обработка в сканкромсаторе или скантейлоре (исправление разворотов, разрезка, перевод в монохромное изображение вдвое большего разрешения) → сшивание в djvu.
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 22, 2014, 09:08
Цитата: autorun от июня 22, 2014, 09:02
Сканировать с OCR возможно только в RTF, WordPad или Microsoft Office Word
А потом только переводить это дело в PDF, верно?
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 22, 2014, 09:08
Цитата: mnashe от июня 22, 2014, 09:03
Цитата: Imp от июня 22, 2014, 08:15
Я точно буду создавать PDF с OCR, но как лучше всего и эффективнее это сделать.
В создании комбинированных pdf у меня нет опыта.
Я делал только 2 процесса:
1. Прямое сканирование в FineReader → распознавание → вычитка там же → сохранение в HTML с дальнейшим переформатированием или в PDF (это для любителей — мне такое не было нужно).
2. Сканирование в картинки (градации серого, 300 dpi, белый фон) → обработка в сканкромсаторе или скантейлоре (исправление разворотов, разрезка, перевод в монохромное изображение вдвое большего разрешения) → сшивание в djvu.
Тода!
Название: Как отсканировать библиотеку
Отправлено: antic от июня 22, 2014, 09:09
Цитата: Awwal12 от июня 22, 2014, 08:33
"Цвет" окружающего буквы пространства, отличный от чистого белого
При чёрно-белом сканировании цвет фона является белым по определению. В книгах с хорошей бумагой, хорошей полиграфией текст без иллюстраций имеет смысл сканировать в Ч/Б, рои разрешении 300 полючается очень хорошее качество и не такой уж большой объём. Когда бумага плоховата, то приходится сканировать в серых тонах, но ведь у современных сканеров есть хорошая функция (в моём она называется "предотвращение просвечивания"). При включении этой функции параметры оптико-электронного преобразования становятся такими, что небольшое затемнение фона не учитывается и кодируется как белое.

Так что незачем городить проблемы с фоном, при правильных режимах его нет

А сердцевинки разворотов составляют не такую уж большую часть площяди разворота, так что незачем с ними и мучиться

Цитата: mnashe от июня 22, 2014, 08:49
Если ты попытаешься вместить эти «наиболее близкие к вещественному оригиналу» сканы в нечто не столь увесистое — ты получишь дерьмовый результат
Вот только не надо мне говорить, что я получу. То, что я получаю, я сам вижу, и ничего дерьмового в это мне нахожу.
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 09:23
Цитата: antic от июня 22, 2014, 09:09
Вот только не надо мне говорить, что я получу. То, что я получаю, я сам вижу, и ничего дерьмового в это мне нахожу.

Цитата: antic от июня 22, 2014, 09:09
но ведь у современных сканеров есть хорошая функция (в моём она называется "предотвращение просвечивания"). При включении этой функции параметры оптико-электронного преобразования становятся такими, что небольшое затемнение фона не учитывается и кодируется как белое.

Цитата: antic от июня 22, 2014, 09:09
Так что незачем городить проблемы с фоном, при правильных режимах его нет
Вот именно!
Если настройки при сканировании выставлены правильно, и страница прижимается к стеклу полностью (нет приподнятого текста на разворотах), то вся пост-обработка сводится к лёгкому повороту страниц, лёгших не строго горизонтально, (иногда и этого не нужно), разрезке на страницы и подрезанию полей.
Криворукие же сканировщики не делают ничего из этого и сохраняют грязные наразрезанные сканы с серым фоном в 50 МБ pdf или 20 МБ djvu отвратительного качества вместо чистого djvu идеального качества размером 5 МБ.
Название: Как отсканировать библиотеку
Отправлено: autorun от июня 22, 2014, 09:24
Распознанный текст можно в OpenOffice Writer экспортировать в PDF
Название: Как отсканировать библиотеку
Отправлено: antic от июня 22, 2014, 10:00
Цитата: mnashe от июня 22, 2014, 09:23
разрезке на страницы
НЕ факт, что это так уж необходимо. Разворот из двух страниц нормально на экран ложится, так даже удобней, чем просматривать по одной странице.

Цитата: mnashe от июня 22, 2014, 09:23
подрезанию полей
А это-то зачем? Текст без полей очень неприятно смотрится.
Название: Как отсканировать библиотеку
Отправлено: autorun от июня 22, 2014, 10:11
В по I.R.I.S OCR сканера HP
Язык OCR:
Албанский
Арабский
Болгарский
Каталонский
Хорватский
Чешский
Датский
Голландский (Нидерланды)
Английский (Соединенное королевство)
Английский (США)
Эстонский
Финский
Французкий (Франция)
Немецкий (Германия)
Греческий
Иврит
Венгерский
Итальяский (Италия)
Японский
Корейский
Литовский
Норвежский (Букмол)
Польский
Португальский (Бразилия)
Португальский (Португалия)
Румынский
Русский
Уращенная китайская
Словацкий
Словенский
Испанский (Традиционная раскладка)
Шведский
Китайская традиционная
Турецкий
Украинский
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 10:20
Цитата: antic от июня 22, 2014, 10:00
Цитата: mnashe от июня 22, 2014, 09:23разрезке на страницы
НЕ факт, что это так уж необходимо. Разворот из двух страниц нормально на экран ложится, так даже удобней, чем просматривать по одной странице.
Если ты делаешь скан исключительно для себя — можно и не разрезать.
Если ты хочешь, чтобы этим сканом пользовались люди — то не стоит халтурить.
Разрезанные страницы можно читать как в виде разворотов на широком экране (выставляя соответствующую настройку в меню View), так и в виде страницы на планшетнике.
Халтуру с неразрезанными разворотами на планшетнике не почитаешь — приходится постоянно двигать страницу влево-вправо-вверх-вниз.

Цитата: antic от июня 22, 2014, 10:00
Цитата: mnashe от июня 22, 2014, 09:23подрезанию полей
А это-то зачем? Текст без полей очень неприятно смотрится.
Затем, чтобы поля со всех сторон были одинаковыми, а не скакали как попало.
Подрезание полей вовсе не означает, что полей не будет вообще. Программа сначала срезает лишнее, а потом симметрично добавляет поля (в соответствии с настройками) со всех сторон — получается аккуратно, красиво.
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 22, 2014, 10:25
А что будет если я попробую сделать OCR для узбекско-английского словаря? Как я понимаю, узбекский большинство программ не распознаёт. Можно ли сделать так, чтобы распозналась хотя бы английская часть текста, то есть чтобы в будущем в PDF файле этого словаря можно было делать поиск по английскому тексту? Или надо обязательно, чтобы или всё распознавалось, или ничего?
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 22, 2014, 10:26
Цитата: Skvodo от июня 22, 2014, 04:04
Из-за сложных настроек формата, создание качественного djvu-файла требует большого опыта. Поэтому, например, на http://twirpx.com качественные djvu-книжки "собственного" производства выкладывают единицы пользователей.
эээ. Вообще-то создание pdf от djvu из сканов отличается только на одном этапе. И в чем сложность? Выбрать нужный пресет из 10? В 99% случаев этого достаточно.
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 22, 2014, 10:30
Цитата: Imp от июня 22, 2014, 10:25
А что будет если я попробую сделать OCR для узбекско-английского словаря? Как я понимаю, узбекский большинство программ не распознаёт. Можно ли сделать так, чтобы распозналась хотя бы английская часть текста, то есть чтобы в будущем в PDF файле этого словаря можно было делать поиск по английскому тексту? Или надо обязательно, чтобы или всё распознавалось, или ничего?
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 10:41
Цитата: Oleg Grom от июня 22, 2014, 10:26
И в чем сложность? Выбрать нужный пресет из 10? В 99% случаев этого достаточно.
Видимо, имеются в виду комбинированные страницы (большая часть — текст, но есть цветная или grayscale иллюстрация).
Я где-то читал описание, как из этого получить djvu-страницу, где текст будет сохранён монохромно, а картинка в виде фото — и всё в пределах одной страницы. Идеальное качество при минимальном размере.
Впечатлила сложность процесса.
Видел примеры работы. Красиво.
Но сам повторить не пробовал, поскольку, как ты уже сказал, в 99% случаев в этом нет нужды.
Название: Как отсканировать библиотеку
Отправлено: Imp от июня 22, 2014, 10:42
Цитата: Oleg Grom от июня 22, 2014, 10:30
Цитата: Imp от июня 22, 2014, 10:25
А что будет если я попробую сделать OCR для узбекско-английского словаря? Как я понимаю, узбекский большинство программ не распознаёт. Можно ли сделать так, чтобы распозналась хотя бы английская часть текста, то есть чтобы в будущем в PDF файле этого словаря можно было делать поиск по английскому тексту? Или надо обязательно, чтобы или всё распознавалось, или ничего?
Это хорошо  ;up: Спасибо!
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 22, 2014, 10:47
Цитата: mnashe от июня 22, 2014, 10:41
Впечатлила сложность процесса.
Видел примеры работы. Красиво.
Но сам повторить не пробовал, поскольку, как ты уже сказал, в 99% случаев в этом нет нужды.
Это на первый взгляд кажется трудно. При использовании ST Featured+DjvuSmall+DjvuImager - это буквально нажжать 4 кнопки.
Название: Как отсканировать библиотеку
Отправлено: autorun от июня 22, 2014, 10:53
Кодировать с помощью DjVu Small v0.4 или Document Express Enterprise,
добавить cодержание - Document Express 6.5 Professional
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 10:55
Цитата: Oleg Grom от июня 22, 2014, 10:47
При использовании ST Featured+DjvuSmall+DjvuImager - это буквально нажжать 4 кнопки.
Ты делал?
Попробую, если возникнет необходимость...
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 10:57
Кстати, надо мне оглавление добавить в словарь Кляйна.
Описание процесса читал давно, уже всё забыл.
Напомнишь, где его можно прочесть?
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 22, 2014, 11:06
Цитата: mnashe от июня 22, 2014, 10:55
Ты делал?
В последнее время только так и делаю.
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 22, 2014, 11:08
Цитата: mnashe от июня 22, 2014, 10:57
Кстати, надо мне оглавление добавить в словарь Кляйна.
Описание процесса читал давно, уже всё забыл.
Напомнишь, где его можно прочесть?
http://sourceforge.net/projects/djvubookmarker/ Подсунуть ему текст с оглавлением и номерами страниц, а дальше там все интуитивно понятно.
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 11:10
Спасибо!
Название: Как отсканировать библиотеку
Отправлено: antic от июня 22, 2014, 11:48
Цитата: mnashe от июня 22, 2014, 10:20
в виде страницы на планшетнике
Планшетники — это извращение, я на них никогда не расчитываю. Убеждён, что серьёзный человек будет заниматься серьёзной работой на нормальном десктопе, в крайнем случае на ноутбуке, но никак не на детской игрушке
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 22, 2014, 11:52
Цитата: Imp от июня 22, 2014, 10:25А что будет если я попробую сделать OCR для узбекско-английского словаря? Как я понимаю, узбекский большинство программ не распознаёт.
Если какой-то язык какая-то программа не распознаёт, в дело вступает обучение. Tesseract я уже упоминал.
Название: Как отсканировать библиотеку
Отправлено: mnashe от июня 22, 2014, 13:27
Цитата: antic от июня 22, 2014, 11:48
Планшетники — это извращение, я на них никогда не расчитываю. Убеждён, что серьёзный человек будет заниматься серьёзной работой на нормальном десктопе, в крайнем случае на ноутбуке, но никак не на детской игрушке
Ну, значит, я несерьёзный человек, раз иногда читаю pdf / djvu в дороге или в очереди.
Мой коллега ещё несерьёзней: он каждый день в подвозке читает с планшетника.
А ещё есть несерьёзные люди с экранами 1280×1024. Вот у меня на работе на трёх из пяти моих компьютеров — такие.

Я всё же думаю, что если уж тратишь время на скан, — лучше делать работу как следует, а не халтурить, рассчитывая на каких-то сферических «серьёзных людей».
Название: Как отсканировать библиотеку
Отправлено: antic от июня 22, 2014, 13:36
Цитата: mnashe от июня 22, 2014, 13:27
Ну, значит, я несерьёзный человек
Я так и понял
Название: Как отсканировать библиотеку
Отправлено: Red Khan от июня 23, 2014, 13:53
Тему пробежал глазами, извините, если уже было.
Название: Как отсканировать библиотеку
Отправлено: Red Khan от июня 23, 2014, 14:00
Цитата: Imp от июня 20, 2014, 19:07
А как быть с этим : "выбираем подходящий язык распознавания", если у меня таджикско-русский или, прости господи, уйгурско-английский (с арабицей) словарь?
Я тут один русско-татарский словарь, распознанный OCR ковыряю, там часто татарские буквы распознаны как русские (например ң как ц).
Название: Как отсканировать библиотеку
Отправлено: Иван-Царевич от июня 23, 2014, 14:06
Цитата: antic от июня 22, 2014, 13:36
Цитата: mnashe от июня 22, 2014, 13:27
Ну, значит, я несерьёзный человек
Я так и понял
Ну вы еще срач тут устройте. :fp:
Название: Как отсканировать библиотеку
Отправлено: Bhudh от июня 23, 2014, 14:51
Цитата: Red Khan от июня 23, 2014, 14:00там часто татарские буквы распознаны как русские
А татарские там хоть какие-то распознаны?
Название: Как отсканировать библиотеку
Отправлено: Red Khan от июня 23, 2014, 15:08
Цитата: Bhudh от июня 23, 2014, 14:51
Цитата: Red Khan от июня 23, 2014, 14:00там часто татарские буквы распознаны как русские
А татарские там хоть какие-то распознаны?
Да, если они группами. Словарь довольно специфический, медицинский и если идёт какой-нибудь термин, а за ним татарские окончания (например абляциянең), то буквы не распознаются. Ситуация усугубляется ещё тем, что в сам термин написан курсивом, а окончание обычным текстом.
Хотя возможно те, кто изначально сканировал словарь сделали это не совсем правильно, отсюда и ошибки.

Предполагаю, что при разных алфавитах (латиница - арабица) такого будет меньше. FR вроде даже можно обучить распознавать язык.
Название: Как отсканировать библиотеку
Отправлено: Oleg Grom от июня 24, 2014, 14:09
Кастомный словарь для файн-ридера восьмой версии. Молдавская кириллица:

ЦитироватьЫн компарацие ку стилул литературий белетристиче сау ку
чел журидико-административ (орь офичиал, кум есте нумит уне-
орь ын литература де спечиалитате), каре ау ынчепут сэ се кон-
турезе ын анумите скриерь релиӂиоасе, ын кроничь, ын примеле
манифестэрь але експримэрий артистиче молдовенешть ши, рес-
пектив, ын акте канчелэрешть, скрисорь партикуларе ши леӂюирь
дин секолеле XVI—XVII, стилул штиинцифик молдовенеск а луат
фиинцэ мулт май тырзиу. Требуе сэ менционэм ынсэ, кэ унеле
елемеите карактеристиче ачестуй стил — кум ар фи ынтребуинца-
ря унор терминь ку карактер май мулт сау май пуцин штиинци-
фик сау комуникаря суб формэ де рационаменте а унуй анумит
концинут — апар спорадик ынкэ ын секолул ал XVII-ля ын кро-
пичь ши кяр ын скриериле релиӂиоасе. Астфел, митрополитул
Дософтей ынтребуинцязэ пентру прима датэ ын лимба молдове-
няска о серие де терминь ку карактер штиинцифик, ын спечиал
де ориӂине грякэ, латинэ ши славэ: аритхмитики «аритметикэ»,
астрологхие «астролоӂие», автократор «аутократ», енкиклопедие
«енчиклопедие», гхеометрие «ӂеометрие», индропикэ «хидропи-
зие, дропикэ», лексикон «лексикэ», леопард «пантерэ», комес
«конте, воевод», консциенцие «конштиинцэ», музикэ, нотариу
«нотар», пендикондарх «кондукэтор милитар ал уней унитэць де
50 де осташь», поетик «поет», провиденцие «провиденцэ», пролог
«ынтродучере, префацэ», сиринэ «сиренэ», сенат «сфат», стихурь
ямвичешть «версете ямбиче», тестамент ш. а.
А се компара, де екземплу, фрагментул дин «Вяца ши петреа-
черя св/и/нцилор»: «ми-и жеале к-ам ынвэцат тоате мештершу-
гуриле дэскэлиий философией, риторики, аритхмитики, гхеомет-
рия ши тоатэ енкиклопедия, ши май выртос к-ам ынвэцат ши
ачея веселитэ музикэ а кынтэрий, спэсытоаре де с[у]фл(е]те, ши
ынкэ ши дин астрологхие н-ам лэсат немикэ, дин тоатэ, не-мвэ-
цат»1.
Название: Как отсканировать библиотеку
Отправлено: Лом d10 от августа 30, 2014, 08:01
Цитата: Bhudh от июня 22, 2014, 06:20
Цитата: Лом d10 от июня 22, 2014, 05:10она хоть и всеядна тормознутая по полной программе
:green: Не без этого. Потому я её не использую (хотя в коллекции ридеров есть). Для djvuʼшек у меня DjVu Viewer, для pdfʼок Foxit Reader (иногда Adobe Reader, если Фоксит внезапно подглючивает).
лучше Суматра, тоже всеядна, но она как-то коряво отображает Fb2 (вероятно и епаб тоже). а вообще Яндекс.браузером всё читается на ура)) кроме дежаву((
Название: Как отсканировать библиотеку
Отправлено: Bhudh от августа 30, 2014, 13:39
Для любого браузера, чтоб читалось на ура, нужны плагины.
Название: Как отсканировать библиотеку
Отправлено: Лом d10 от августа 30, 2014, 16:49
Цитата: Bhudh от августа 30, 2014, 13:39
Для любого браузера, чтоб читалось на ура, нужны плагины.
в Яндексе они предустановленны.
Название: Как отсканировать библиотеку
Отправлено: Wolliger Mensch от августа 30, 2014, 17:03
Цитата: Лом d10 от августа 30, 2014, 16:49
Цитата: Bhudh от августа 30, 2014, 13:39
Для любого браузера, чтоб читалось на ура, нужны плагины.
в Яндексе они предустановленны.
Вы ж говорите, что дежавю не читает.
Название: Как отсканировать библиотеку
Отправлено: Лом d10 от сентября 2, 2014, 10:15
Цитата: Wolliger Mensch от августа 30, 2014, 17:03
Цитата: Лом d10 от августа 30, 2014, 16:49
Цитата: Bhudh от августа 30, 2014, 13:39
Для любого браузера, чтоб читалось на ура, нужны плагины.
в Яндексе они предустановленны.
Вы ж говорите, что дежавю не читает.
да, не читает, а PDF, FB2, ePub читает без плагинов (т.е. информации о них в самом браузере нет, они вшиты в него, вероятно).
Название: Как отсканировать библиотеку
Отправлено: _Swetlana от октября 30, 2014, 20:32
Цитата: Oleg Grom от июня 20, 2014, 18:15
http://aluarium.net/forum/thread-432-post-5821.html#pid5821
Вот тут описание самого простого способа сделать электронную книгу в приличномм виде.
Отсканировала книжку, хочу в один документ собрать. Adobe Reader требует платный аккаунт завести.
Скачала ScanTailor 32-разрядный, а у меня 64-разрядная 8-ка. Программка работать будет?
Название: Как отсканировать библиотеку
Отправлено: Bhudh от октября 30, 2014, 20:33
32-разрядную систему в виртуалку и будет.
Название: Как отсканировать библиотеку
Отправлено: _Swetlana от октября 30, 2014, 20:38
Цитата: Bhudh от октября 30, 2014, 20:33
32-разрядную систему в виртуалку и будет.
Это я студентам говорю - перед началом работы с прологом установите виртуальную машину. Они тут же лезут в инет и устанавливают. А сама я этого никогда не делала, и что-то лень. 64-разрядной бесплатной программы нет? Книжка маленькая, без картинок.
Название: Как отсканировать библиотеку
Отправлено: _Swetlana от октября 30, 2014, 23:41
Обработала сканы с помощью ScanTailor. Скачала DjVuSmall, он не запускается.
Название: Как отсканировать библиотеку
Отправлено: _Swetlana от октября 30, 2014, 23:48
Не поняла.
Самолично и саморучно разрезала каждый разворот на две страницы. А в книжке опять развороты  :o
Ничё так, книжка симпатишная и огромная  :o Наверно, не надо было было в jpg сканы сохранять.
Название: Как отсканировать библиотеку
Отправлено: Bhudh от октября 31, 2014, 00:04
Цитата: _Swetlana от октября 30, 2014, 23:48А в книжке опять развороты
Небось где-то в настройках стоит незаметная галка «Соединять соседние страницы».
Название: Как отсканировать библиотеку
Отправлено: Hellerick от октября 31, 2014, 02:59
Недавно написал себе на питоне программку, которая бы разрезала мне сканы разворотов на две страницы (с небольшим перехлестом и так, чтобы граница проходила по пикселям кратным 8 — дабы не накладывать на изображение новую сетку JPEG-артефактов).
Название: Как отсканировать библиотеку
Отправлено: _Swetlana от октября 31, 2014, 09:55
Да порнография, а не книжка. Залью её куда-нить в инет, кто-нибудь скачает, откроет и скажет: Ага, нам татарам одна порнография.
Из уважения к РЯ отсканирую заново, по одной страничке, сохраню в формате tiff (если таковой имеется), потом снова соберу. Книжка маленькая, 86 стр., вернуть её нужно в воскресенье. А вообще я её уже распознала, теперь нужно собственноручно каждую татарскую буковку вписать и все таблицы заново переделать.
Название: Как отсканировать библиотеку
Отправлено: true от марта 16, 2016, 11:08
Кто-нибудь может собрать скрины (https://yadi.sk/d/tpwUg6ybqE5NF) в одну книжку, не важно - pdf или djvu? Или подскажите как это делается. Первое более желательно, конечно :-[

(http://s019.radikal.ru/i601/1603/23/2d97a37b6427.png)
Название: Как отсканировать библиотеку
Отправлено: antic от марта 16, 2016, 11:14
А в чём проблема? Запускаете Адобу Акробат и создаете ПДФ
Название: Как отсканировать библиотеку
Отправлено: Hellerick от марта 16, 2016, 11:16
Цитата: true от марта 16, 2016, 11:08
Кто-нибудь может собрать скрины (https://yadi.sk/d/tpwUg6ybqE5NF) в одну книжку, не важно - pdf или djvu? Или подскажите как это делается. Первое более желательно, конечно :-[

https://yadi.sk/i/Mrw1OyBvqE6f6
Название: Как отсканировать библиотеку
Отправлено: true от марта 16, 2016, 11:29
Цитата: antic от марта 16, 2016, 11:14
Адобу Акробат
Нет у меня его :-[
Hellerick, таңры ялкасын, айналайын! ;up:
Название: Как отсканировать библиотеку
Отправлено: smith371 от марта 16, 2016, 11:31
Цитата: true от марта 16, 2016, 11:08
Кто-нибудь может собрать скрины (https://yadi.sk/d/tpwUg6ybqE5NF) в одну книжку, не важно - pdf или djvu? Или подскажите как это делается. Первое более желательно, конечно :-[

(http://s019.radikal.ru/i601/1603/23/2d97a37b6427.png)

JPEG to PDF converter юзает Смит и не жалуется.
Название: Как отсканировать библиотеку
Отправлено: antic от марта 16, 2016, 12:30
Цитата: true от марта 16, 2016, 11:29
Нет у меня его
На Рутрекере забесплатно раздают всем желающим
Название: Как отсканировать библиотеку
Отправлено: Bhudh от марта 16, 2016, 12:41
А його зобанели. :eat:
Название: Как отсканировать библиотеку
Отправлено: true от марта 16, 2016, 13:28
antic, мне надо-то всего один раз в жизни. Пока я его освою, кто-то хороший сделает это действие и получит мое благодарствие. Но все равно спасибо, что откликнулись :UU:
Название: Как отсканировать библиотеку
Отправлено: antic от марта 16, 2016, 13:52
А там и осваивать-то ничо не надо
Название: Как отсканировать библиотеку
Отправлено: _Swetlana от марта 16, 2016, 14:36
Цитата: true от марта 16, 2016, 13:28
Пока я его освою, кто-то хороший сделает это действие и получит мое благодарствие. Но все равно спасибо, что откликнулись :UU:
узнаю брата Колю  :UU:
Название: Как отсканировать библиотеку
Отправлено: true от марта 16, 2016, 14:44
Если кто-то может сделать лучше - доверься ему :yes: