Уважаемые!
мне по почте прислали флеш со сканами очень редкой и ценной книги. Теперь у меня есть около 192 бмп высокого разрешения (примерно 2500х4000, одна страница весит около 10М) - и весит это всё чудо > 2Г. Можно это как-то:
1) сжать не теряя разрешение
2) собрать в удобочитаемую книгу?
Подозреваю, что джвю больше всего для этого подходит, но я такой профан в этих делах :'(
Чего делать? :)
1) джипег, но потеряется качество.
2) дежавью, пдф. Но качество лучше ужать а то куда 2Г. Под пдф есть пдффактори оно встает как принтер и можно поэксперементировать с разрешениями и размерами. Для дежавью есть програмка не помню как называется мне кто-т ос форума прислал прямо в развернутом виде, вспомню, напишу.
Цитата: Roman от декабря 10, 2008, 23:06
Чего делать? :)
Заливайте все это чудо на рапиду или другой слив, скомпилирую как захотите - пыдыфы или дыжывы.
http://djvu-inf.narod.ru/
http://www.radioscanner.ru/files/djvu.php
Цитата: "Xico" от
http://djvu-inf.narod.ru/
Точно называлась программа DjVu Solo
Цитата: Roman от декабря 10, 2008, 23:06
Уважаемые!
мне по почте прислали флеш со сканами очень редкой и ценной книги. Теперь у меня есть около 192 бмп высокого разрешения (примерно 2500х4000, одна страница весит около 10М) - и весит это всё чудо > 2Г. Можно это как-то:
1) сжать не теряя разрешение
2) собрать в удобочитаемую книгу?
Подозреваю, что джвю больше всего для этого подходит, но я такой профан в этих делах :'(
Чего делать? :)
1) Можно - предварительно обработав ScanKromsator'ом или RasterID'ом (найти их в Сети легко; один из путей - через http://www.djvu-soft.narod.ru/) собрать в djvu-файл с помощью Document Express (от LizardTech, версии 4 и выше). Объем сократится в 3-20 раз (зависит от качества сканов). Пользоваться DjVu Solo не советую - она порождает djvu-файл версии 1.3, тогда как нынче в ходу уже версия 1.5 (разница в качестве и размере файлов ощутимая).
2) Можно - распознать, и изготовить djvu-файл с текстовым слоем (при этом нет нужды держаться за исходное разрешение, тем самым очень сильно сокращая объем (возможно - в несколько десятков раз). Эта работа требует определенной квалификации - и, потому, предлагаю обратиться за помощью к профессионалам с файлом, полученным в п. 1.
1 нельзя без потери.
2 можно попробовать распознать как текст (если он не рукописный, используется не редкий язык и качество скана хорошее) и получить вордовский файл.
Цитата: На от декабря 15, 2008, 13:32
1 нельзя без потери.
потери
чего?
Если разрешения, то Вы не правы - возьмите любой рисунок и сохраните его в tiff'e с
разными степенями сжатия. Увидите - размер файлов разный, а
резрешение одинаково.
Если качества изображения, то
Roman и не выставляет такого требования (оно и понятно: речь идет не о фотографиях или рисунках, здесь на первом месте - читабельность текста). Впрочем, возможно, я не вполне понял
Roman'а, и он хочет сохранить ауру и аромат древнего манускрипта :).
Цитата: "На" от
можно попробовать распознать как текст
Текст на французском (в основном) с вставлением ирландского и фонетической транскрипции (не МФА) - так что распознать его гиблое дело.
Цитата: "sceptic" от
Впрочем, возможно, я не вполне понял
Правильно вы меня поняли. Меня интересует содержание книги, а не аура - для меня это должен быть настольный текст
Смотрите мой предыдущий ответ в этой теме. Распознать можно почти все.
Roman, за дело (пока tmadi не передумал)!
1. Разрешение: пережмите страницы в 600х600 (комфортно для распознования). Здесь вы сократите размер примерно в 25-27 раз. В качестве инструмента можно использовать любую граф. программу, позволяющую менять разрешение (я предпочитаю RasterID и IrfanView).
2. Цветность: если ваши бмп цветные или серые (16 разрядов) - переведите их в серые (8 разрядов): если цветность ниже - оставьте ее как есть. Здесь также произойдет сокращение размера файлов, если цветность изменится. Инструменты - те же, или Photoshop.
3. Переведите bmp в tif со сжатием (серые - сжатие LZW, ч/б - Group4).
Здесь вы еще уменьшите размер файлов в разы.
В итоге вы сократите объем материала до нескольких (я думаю, не больше 2-х) десятков Mb - вполне терпимая цифра для выкладывания в Сети.
4. Для удобства передачи соберите все tif'ы в один файл (либо tif, либо архив) и залейте, как советует tmadi, на какой-либо файл-обменник. Ссылку приведите здесь: tmadi - изготовит вам книгу. Может быть, еще кто-нибудь откликнется (себя я не обещаю - сильно занят :what:) - будет что сравнивать.
Надеюсь, tmadi добавит свои советы и пожелания в части препарирования материала перед передачей в работу.
sceptic,
Мне добавить почти нечего, спасибо за толковые инструкции к подготовке сканов. Дальше пойдет механика, вернее, на 85% автоматическая обработка сканов прогами - СканКромсатор, шестой экспресс про, итд.
Эх, я бы с удовольствием поучаствовал, но со временем завал и боюсь компьютер не потянет такие объемные файлы.
Маленькое дополнение: в качестве исходника для работы в сканкромсаторе вполне сгодятся серые сканы с разрешением 300 dpi, а вот на выходе надо получить ч/б 600 dpi.
Как вариант могу посоветовать после обработки сканкромсатором до ч/б LZW-сжатых сканов с разрешением 600 dpi изготовить бумажную книгу с помощью MS Publisher. Распечатайте несколько брошюр по 5-6 листов каждая и отдайте в переплет. Результат вполне пригоден для работы и намного удобнее электронного djvu-документа.
Описание кромсатора (http://www.djvu-soft.narod.ru/kromsator/)
Инструкция по работе с кромсатором (http://www.djvu-soft.narod.ru/kromsator/sk_5_91_melirius.htm)
Подробная инструкция по созданию djvu-книг (http://www.djvu-soft.narod.ru/kromsator/sk_5_91_melirius.htm)
Уважаемые,
дошли руки до моей книги. По данным тут советам сделал то, что предлагал sceptic:
1) страницы ужал IrfanView до ширины 600х900
2) цветность понижена до 256 цветов
3) файлы переведены в tiff с LZW компрессией
Экономия места очевидна, из 2Г осталось 80М, однако я соврал бы если бы сказал, что качество не пострадало. Теперь вокрус чёрным букв на сером фоне появились белые "обводы", которые иногда "подъели" буквы. Текст конечно читабелен, но довольно неприятно выглядит. Пока что стирать оригинал мне страшно.
Теперь вопрос - улучшится ли качество после распознания или мне надо предварительно текст подправить, а только потом заливать, а? Я очень надеюсь, что великодушное предложение tmadi всё ещё в силе.
з.ы. И куда заливать?На рапиду?
В силе. Март у меня немного напряженный, но помогу по-любому. Лейте на рапиду.
Вот залил
http://rapidshare.com/files/204707344/Jonval.zip.html
Но вы мне честно скажите - читабельно ли там? Я особенно переживаю насчёт фонетической транскрипции. Мне кажется, что перечёркнутое внизу g теперь практически неотличимо от простого g :(
Если честно - то вообще никак, если только отдать кому-нибудь перепечатать вручную. Автоматическим средствам распознавания не поддается, попробовал ФР прочесть стр. 4 (Tableau du système consonantique) - результатов ноль, в упор не видит не только транскрипционных символов, но и простой французской латиницы.
Может, лучше попробовать обработать исходные гигантские сканы? Сможете залить?
А куда их залить? 2Г кто ж примет?
А насчёт читания - в чём проблема основная? Слишком малый контраст серого с чёрным? :???
Зачем всем агрегатом-то? По частям. На рапиде по 200 мб как раз 10 кусков выйдет. Гемор, конечно, но меньший по сравнению с процессом ручного распознавания получитаемых символов.
Проблема даже не в контрасте, а в размытости букв, они уже идут "разбитым" шрифтом. Плюс общая зернистость, получается нечто вроде большевистской листовки.
Заливание этого займёт много времени, так что на пару дней отложим это занятие, мне на работу надо бежать уже. Но вот в порядке эксперимента - оригинал (неужатый) 4ой страницы - 11,2М.
http://rapidshare.com/files/204719749/sjoestedt004.bmp.html
Файл в формате бмп так, как он есть у меня самого, но если я хоть что-то могу сделать, чтобы упростить для вас процесс (ужать сколько-то, поменять в тифф или ещё что-то простое с IrfanView) - вы мне скажите, всё ж быстрее и заливаться будет, да и вам качать проще
Посмотрите сами - результат можно считать читаемым?
Кстати, вы действительно можете в Ирфане пережать все сканы в jpg, но не менее 80%. Профит в объеме будет более чем ощутим.
:= Результат просто шикарен, особенно джвю :yes:
Цитата: "tmadi" от
Кстати, вы действительно можете в Ирфане пережать все сканы в jpg, но не менее 80%.
Объясните популярно для чайника, что значит "не менее 80%"? :???
В Ирфане при перегонке из одного формата в другой вы можете регулировать процент качества вверху панели сохранения - как на рисунке. Обычно менее чем 20% перепад ничем не страшен.
(http://i008.radikal.ru/0903/f7/c8a5caeb7e34.jpg)
Цитата: "tmadi" от
Обычно менее чем 20% перепад ничем не страшен.
Т.е. мне никаких других параметров (цветность, размер и т.д.) не менять, а только поменять формат с сохранением 80% качества? Я правильно понял?
Да. Изменение процента тоже не обязательно, просто рекомендую по опыту. Объем снижается в дека-разы.
Конвертировал в йпг с 80% качества. Валовый объём упал до 380М, т.е. в 10 раз. :up: Сейчас начну заливать
ок, ждем.
Во блин долбаная Рапида :(
Первая половина
http://rapidshare.com/files/205333041/sjoestedt-1.zip.html
Вторая половина
http://rapidshare.com/files/205355004/sjoestedt-2.zip.html
Ну, как-то так:
(http://s49.radikal.ru/i124/0903/d0/7e46f36ce08e.jpg)
TIFF-сканы (http://rapidshare.com/files/205435444/Sjoestedt.rar), 11.1 MB
PDF (http://rapidshare.com/files/205433102/Sjoestedt.pdf), 11.6 MB
DJVu (http://rapidshare.com/files/205434039/Sjoestedt.djvu), 7.07 MB
Могу ли я полученную книгу выложить на uz-translations?
Конечно, выкладывайте! Такую работу проделали!!!
У меня есть вторая часть (Грамматика) в ксеро - можем ли мы повторить процедуру? Конечно надо будет сначала сосканить всё :???
Цитата: "Roman" от
Конечно, выкладывайте! Такую работу проделали!!!
У меня есть вторая часть (Грамматика) в ксеро - можем ли мы повторить процедуру? Конечно надо будет сначала сосканить всё :???
Спасибо. Давайте повторим.
http://www.uz-translations.net/?category=irishbooks-irish&altname=phonetique_dun_parler_irlandais_de_kerry
Цитироватьджипег, но потеряется качество.
Ничего подобного. Если грамотно сконвертировать - ничего не потеряется. Иначе этот формат не взяли бы по умолчанию для фотоаппаратов.
Цитата: "tmadi" от
Теперь вокрус чёрным букв на сером фоне появились белые "обводы", которые иногда "подъели" буквы.
Легко убирается фотожопой или корэлом.
Цитата: jvarg от марта 7, 2009, 09:33
Цитата: "tmadi" от
Теперь вокрус чёрным букв на сером фоне появились белые "обводы", которые иногда "подъели" буквы.
Легко убирается фотожопой или корэлом.
Вы мне чужие слова не приписывайте, ОК?
Я отсканировал сегодня вторую книгу Шёстедт-Жонваль (грамматику). Получилось 100 тиффов на 800М. Я ужал с ИрфанВью до 60М йпэгов.
Вот линк, будем надеяться, что tmadi найдёт время сделать книгу из этих сканов :???
http://rapidshare.com/files/227280893/Sjoestedt3.zip.html