Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Собирание книги

Автор Rōmānus, декабря 10, 2008, 23:06

0 Пользователи и 1 гость просматривают эту тему.

Rōmānus

Уважаемые!

мне по почте прислали флеш со сканами очень редкой и ценной книги. Теперь у меня есть около 192 бмп высокого разрешения (примерно 2500х4000, одна страница весит около 10М) - и весит это всё чудо > 2Г. Можно это как-то:

1) сжать не теряя разрешение
2) собрать в удобочитаемую книгу?

Подозреваю, что джвю больше всего для этого подходит, но я такой профан в этих делах  :'(

Чего делать?  :)

Надежда - мать дураков (с) Литовская пословица

ou77

1) джипег, но потеряется качество.
2) дежавью, пдф. Но качество лучше ужать а то куда 2Г. Под пдф есть пдффактори оно встает как принтер и можно поэксперементировать с разрешениями и размерами. Для дежавью есть програмка не помню как называется мне кто-т ос форума прислал прямо в развернутом виде, вспомню, напишу.

tmadi

Цитата: Roman от декабря 10, 2008, 23:06

Чего делать?  :)


Заливайте все это чудо на рапиду или другой слив, скомпилирую как захотите - пыдыфы или дыжывы.



sceptic

Цитата: Roman от декабря 10, 2008, 23:06
Уважаемые!

мне по почте прислали флеш со сканами очень редкой и ценной книги. Теперь у меня есть около 192 бмп высокого разрешения (примерно 2500х4000, одна страница весит около 10М) - и весит это всё чудо > 2Г. Можно это как-то:

1) сжать не теряя разрешение
2) собрать в удобочитаемую книгу?

Подозреваю, что джвю больше всего для этого подходит, но я такой профан в этих делах  :'(

Чего делать?  :)

1) Можно - предварительно обработав ScanKromsator'ом или  RasterID'ом (найти их в Сети легко; один из путей - через http://www.djvu-soft.narod.ru/) собрать в djvu-файл с помощью Document Express (от LizardTech, версии 4 и выше). Объем сократится в 3-20 раз (зависит от качества сканов). Пользоваться DjVu Solo не советую - она порождает djvu-файл версии 1.3, тогда как нынче в ходу уже версия 1.5 (разница в качестве и размере файлов ощутимая).
2) Можно - распознать, и изготовить djvu-файл с текстовым слоем (при этом нет нужды держаться за исходное разрешение, тем самым очень сильно сокращая объем (возможно - в несколько десятков раз). Эта работа требует определенной квалификации - и, потому, предлагаю обратиться за помощью к профессионалам с файлом, полученным в п. 1.

На

1 нельзя без потери.
2 можно попробовать распознать как текст (если он не рукописный, используется не редкий язык и качество скана хорошее) и получить вордовский файл.

sceptic

Цитата: На от декабря 15, 2008, 13:32
1 нельзя без потери.

потери чего?
Если разрешения, то Вы не правы - возьмите любой рисунок и сохраните его в tiff'e с разными степенями сжатия. Увидите - размер файлов разный, а резрешение одинаково.
Если качества изображения, то Roman и не выставляет такого требования (оно и понятно: речь идет не о фотографиях или рисунках, здесь на первом месте - читабельность текста). Впрочем, возможно, я не вполне понял Roman'а, и он хочет сохранить ауру и аромат древнего манускрипта  :).

Rōmānus

Цитата: "На" от
можно попробовать распознать как текст

Текст на французском (в основном) с вставлением ирландского и фонетической транскрипции (не МФА) - так что распознать его гиблое дело.

Цитата: "sceptic" от
Впрочем, возможно, я не вполне понял

Правильно вы меня поняли. Меня интересует содержание книги, а не аура - для меня это должен быть настольный текст
Надежда - мать дураков (с) Литовская пословица

tmadi

Смотрите мой предыдущий ответ в этой теме. Распознать можно почти все.

sceptic

Roman, за дело (пока tmadi не передумал)!
1. Разрешение: пережмите страницы в 600х600 (комфортно для распознования). Здесь вы сократите размер примерно в 25-27 раз. В качестве инструмента можно использовать любую граф. программу, позволяющую менять разрешение (я предпочитаю RasterID и IrfanView).
2. Цветность: если ваши бмп цветные или серые (16 разрядов) - переведите их в серые (8 разрядов): если цветность ниже - оставьте ее как есть. Здесь также произойдет сокращение размера файлов, если цветность изменится. Инструменты - те же, или Photoshop.
3. Переведите bmp в tif со сжатием (серые - сжатие LZW, ч/б - Group4).
Здесь вы еще уменьшите размер файлов в разы.
В итоге вы сократите объем материала до нескольких (я думаю, не больше 2-х) десятков Mb - вполне терпимая цифра для выкладывания в Сети.
4. Для удобства передачи соберите все tif'ы в один файл (либо tif, либо архив) и залейте, как советует tmadi, на какой-либо файл-обменник. Ссылку приведите здесь: tmadi - изготовит вам книгу. Может быть, еще кто-нибудь откликнется (себя я не обещаю - сильно занят  :what:) - будет что сравнивать.
Надеюсь, tmadi добавит свои советы и пожелания в части препарирования материала перед передачей в работу.

tmadi

sceptic,

Мне добавить почти нечего, спасибо за толковые инструкции к подготовке сканов. Дальше пойдет механика, вернее, на 85% автоматическая обработка сканов прогами - СканКромсатор, шестой экспресс про, итд.

shravan

Эх, я бы с удовольствием поучаствовал, но со временем завал и боюсь компьютер не потянет такие объемные файлы.
Маленькое дополнение: в качестве исходника для работы в сканкромсаторе вполне сгодятся серые сканы с разрешением 300 dpi, а вот на выходе надо получить ч/б 600 dpi.

Как вариант могу посоветовать после обработки сканкромсатором до ч/б LZW-сжатых сканов с разрешением 600 dpi изготовить бумажную книгу с помощью MS Publisher. Распечатайте несколько брошюр по 5-6 листов каждая и отдайте в переплет. Результат вполне пригоден для работы и намного удобнее электронного djvu-документа.

Описание кромсатора
Инструкция по работе с кромсатором
Подробная инструкция по созданию djvu-книг

ܐܝܠ ܐܝܠ ܠܡܢܐ ܫܒܩܬܢܝ

Rōmānus

Уважаемые,

дошли руки до моей книги. По данным тут советам сделал то, что предлагал sceptic:

1) страницы ужал IrfanView до ширины 600х900
2) цветность понижена до 256 цветов
3) файлы переведены в tiff с LZW компрессией

Экономия места очевидна, из 2Г осталось 80М, однако я соврал бы если бы сказал, что качество не пострадало. Теперь вокрус чёрным букв на сером фоне появились белые "обводы", которые иногда "подъели" буквы. Текст конечно читабелен, но довольно неприятно выглядит. Пока что стирать оригинал мне страшно.

Теперь вопрос - улучшится ли качество после распознания или мне надо предварительно текст подправить, а только потом заливать, а? Я очень надеюсь, что великодушное предложение tmadi всё ещё в силе.

з.ы. И куда заливать?На рапиду?
Надежда - мать дураков (с) Литовская пословица

tmadi

В силе. Март у меня немного напряженный, но помогу по-любому. Лейте на рапиду.

Rōmānus

Вот залил

http://rapidshare.com/files/204707344/Jonval.zip.html

Но вы мне честно скажите - читабельно ли там? Я особенно переживаю насчёт фонетической транскрипции. Мне кажется, что перечёркнутое внизу g теперь практически неотличимо от простого g :(
Надежда - мать дураков (с) Литовская пословица

tmadi

Если честно - то вообще никак, если только отдать кому-нибудь перепечатать вручную. Автоматическим средствам распознавания не поддается, попробовал ФР прочесть стр. 4 (Tableau du système consonantique) - результатов ноль, в упор не видит не только транскрипционных символов, но и простой французской латиницы.
Может, лучше попробовать обработать исходные гигантские сканы? Сможете залить?

Rōmānus

А куда их залить? 2Г кто ж примет?

А насчёт читания - в чём проблема основная? Слишком малый контраст серого с чёрным? :???
Надежда - мать дураков (с) Литовская пословица

tmadi

Зачем всем агрегатом-то? По частям. На рапиде по 200 мб как раз 10 кусков выйдет. Гемор, конечно, но меньший по сравнению с процессом ручного распознавания получитаемых символов.

Проблема даже не в контрасте, а в размытости букв, они уже идут "разбитым" шрифтом. Плюс общая зернистость, получается нечто вроде большевистской листовки.

Rōmānus

Заливание этого займёт много времени, так что на пару дней отложим это занятие, мне на работу надо бежать уже. Но вот в порядке эксперимента - оригинал (неужатый) 4ой страницы - 11,2М.

http://rapidshare.com/files/204719749/sjoestedt004.bmp.html

Файл в формате бмп так, как он есть у меня самого, но если я хоть что-то могу сделать, чтобы упростить для вас процесс (ужать сколько-то, поменять в тифф или ещё что-то простое с IrfanView) - вы мне скажите, всё ж быстрее и заливаться будет, да и вам качать проще
Надежда - мать дураков (с) Литовская пословица

tmadi

Посмотрите сами - результат можно считать читаемым?

Кстати, вы действительно можете в Ирфане пережать все сканы в jpg, но не менее 80%. Профит в объеме будет более чем ощутим.

Rōmānus

:= Результат просто шикарен, особенно джвю :yes:

Цитата: "tmadi" от
Кстати, вы действительно можете в Ирфане пережать все сканы в jpg, но не менее 80%.

Объясните популярно для чайника, что значит "не менее 80%"? :???
Надежда - мать дураков (с) Литовская пословица

tmadi

В Ирфане при перегонке из одного формата в другой вы можете регулировать процент качества вверху панели сохранения - как на рисунке. Обычно менее чем 20% перепад ничем не страшен.


Rōmānus

Цитата: "tmadi" от
Обычно менее чем 20% перепад ничем не страшен.

Т.е. мне никаких других параметров (цветность, размер и т.д.) не менять, а только поменять формат с сохранением 80% качества? Я правильно понял?
Надежда - мать дураков (с) Литовская пословица

tmadi

Да. Изменение процента тоже не обязательно, просто рекомендую по опыту. Объем снижается в дека-разы.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр