Format DjVu a problem digitalizacji gazet i czasopism.

 

*  Czego nie należy przeoczyć podczas digitalizacji gazet

*  Przyjęta strategia digitalizacji

*  Kiedy przygotowywany sposób konwersji (profil) jest gotowy

*  Czy skanowanie z rozdzielczością 450 dpi to przypadek

*  „Głos Narodu” – format DjVu

*  „Ilustrowany Kuryer Codzienny” – format DjVu

*  Rozmiar zdigitalizowanych stron czasopism

*  Uwagi końcowe

*  Artykuły pokrewne

 

Stare gazety i czasopisma (obok ozalidowych kopii rysunków technicznych) niewątpliwie należą do tej grupy dokumentów papierowych, których digitalizacja nastręcza najwięcej kłopotów. Ponadto, należy mieć na uwadze fakt, iż znacząca ilość bibliotecznych zasobów gazet i czasopism wydrukowana została na „kwaśnym papierze”, a zatem ich jakość z każdym rokiem spada.

 

         O tym, czy w celu ochrony dziedzictwa kulturowego zbiory m.in. gazet i czasopism należy poddać mikrofilmowaniu czy też digitalizacji, prowadzone są od dawna dyskusje na forach internetowych, w tym m.in. na forum EBIB Biblioteka Narodowa, EBIB Digitalizacja i biblioteki cyfrowe lub Internetowe Forum Archiwalne.

 

         Bez względu na to, który sposób ochrony jest bardziej właściwy, wydaje się być naturalnym, że powinien on gwarantować zachowanie - z możliwie najwyższą wiernością - zarówno treści jak i szaty graficznej dokumentu papierowego, zwłaszcza, iż nie należy wykluczyć, że za kilkadziesiąt lat być może będzie on jedynym śladem czy też cyfrową kopią oryginału, który już przestał istnieć. Skoro zatem postać cyfrowa dokumentu rozpatrywana jest jako instrument ochrony dziedzictwa kulturowego, może należy odstąpić od półśrodków czy też metod umożliwiających tworzenie takich postaci cyfrowych, które swoją jakością tak naprawdę jedynie sygnalizują jaka jest (lub była) oryginalna postać papierowa. W innym przypadku, trudno jest logicznie uzasadnić, że gazety lub inne czasopisma sprzed niemal dwóch wieków a może tylko sprzed 100 lat, zawierające poza tekstem (wydrukowanym  czarną lub czerwoną farbą drukarską) także zdjęcia lub rysunki (w odcieniach szarości), potrafimy stosując najnowsze technologie światowe XXI w. archiwizować z precyzją 1 koloru (czyli w postaci bitonalnej). Wydaje się być nie do końca zrozumiałym to, iż stosunkowo często można się spotkać z opiniami typu, „...skoro jakość zgromadzonych gazet w bibliotekach jest niska, wystarczy zastosować skanowanie w trybie czarno-białym..”. Brak w takich opiniach uzasadnienia, co oznacza termin „niska”. Niska względem czego ? Innych egzemplarzy w bibliotece? Niska względem zasobów innych bibliotek? Może niska dla osoby, która dokonała ich oglądu. Niestety, nie dotarliśmy do opisów, czym jest ta „niskość” dla algorytmów nowoczesnych aplikacji pozwalających na ratowanie niszczejących z każdym dniem zasobów papierowych, a taka informacja byłaby zapewne najbardziej wiarygodną. Akurat stoimy na stanowisku, że skanowanie w trybie czarno-białym wydaje się być rozsądnym środkiem jedynie dla dokumentów o wyśmienitej lub przynajmniej dobrej jakości i to z zastrzeżeniem, że nie dotyczy to dokumentów zawierających ryciny, rysunki lub zdjęcia. Zastosowanie zaś takiego sposobu skanowania dla dokumentów częściowo zniszczonych lub wypłowiałych może być ocenione jako działanie albo dalece nieprzemyślane, albo zbyt pochopne. W stanowisku takim utwierdza nas to, że oczekując jakości być może jak poniższym przykładzie

 

 

Bardzo często w zasobach bibliotek cyfrowych spotkać można postaci cyfrowe o czytelności zbliżonej do poniższych przykładów

 

    

 


Poniższy artykuł powstał zupełnie przypadkowo. Podczas realizacji pracy testowej oceniającej przydatność technologii DjVu w archiwizacji gazet i czasopism w postaci trwale zszytych roczników, w kilku sytuacjach poszukując wskazówek w rozwiązaniu tej czy innej kwestii, informacje – wprawdzie nie uzasadniane – z którymi zapoznaliśmy się na forach internetowych (tematy dotyczące digitalizacji) niezupełnie pokrywały się z naszymi obserwacjami i uzyskanymi wynikami.

 

W Bibliotece Jagiellońskiej Uniwersytetu Jagiellońskiego w Krakowie wykonano krótką serię skanów dwóch czasopism „Głos Narodu” z roku 1915 oraz „Ilustrowany Kuryer Codzienny” z roku 1927. Skanowanie przeprowadzono w rozdzielczościach 300, 450 i 600 dpi oraz w trybach pełnego koloru i odcieni szarości. Skanami czarno-białymi – po zapoznaniu się z niektórymi publikacjami internetowymi - nie byliśmy zainteresowani w ogóle uznając, że jest to zbyt skromny środek dla procesu digitalizacji.

 

 

Podstawowym celem testu było przedstawienie takiego sposobu konwersji do formatu DjVu powierzonych nam plików w formacie Tiff, by powstała postać cyfrowa dokumentów papierowych posiadała możliwie najbardziej uniwersalne zastosowanie, a zatem :

*  Możliwie największa wierność względem papierowego oryginału (kolorystyka, wymiary, zawartość),

*  Możliwie najwyższa jakość plików poszczególnych stron (czytelność zdjęć i rysunków, ocena możliwości rozpoznania OCR, wysoka czytelność tekstu),

*  Rozsądny rozmiar plików DjVu (a zatem niekoniecznie najmniejszy),

*  Możliwie najbardziej czytelne wydruki poszczególnych stron na drukarkach kolorowych jak i monochromatycznych,

*  Udzielenie odpowiedzi na pytania typu ”czy skanowanie w rozdzielczości 300 dpi to optimum, a może mało popularna rozdzielczość 450 dpi to akurat wartość, dla której należy budować archiwum cyfrowe”, „Jakie są korzystne a jakie niekorzystne konsekwencje decyzji o budowie postaci cyfrowych w rozdzielczości 600 dpi”.

 

 

Czego nie należy przeoczyć podczas digitalizacji gazet

 

 


 


   Pierwszy kłopot na jaki napotyka digitalizacja gazet i czasopism związany jest z gramaturą ich papieru, którą ocenić można w przedziale 40÷70 g/m². Skanowanie arkuszy o gramaturze poniżej 80 g/m² (a stosowanej np. dla papieru kserograficznego) często obarczone jest niepożądanym efektem częściowego zawarcia w zeskanowanej stronie treści drugiej strony, co obniża jakość takiego skanu. Przebijanie zawartości strony odwrotnej jest tym bardziej intensywne, im mniejsza jest gramatura skanowanej strony. Wprawdzie efekt ten można podczas skanowania może nie wyeliminować a znacząco obniżyć, ale wymaga to dodatkowej pracy. Przed skanowaniem każdej strony, należy pod tą stronę po prostu włożyć czarny arkusz. Tylko, że wizja np. 100 tysięcy takich operacji zniechęca do jej wykonania. Obok przedstawiono powiększalny fragment zeskanowanej i skonwertowanej do formatu DjVu strony gazety. W tym wypadku efekt, o którym mowa, może nie jest zbyt uciążliwy, ale może być podstawą oceny jakości skanu gazety jako niski, bo ... zawiera plamy, część liter w każdej szpalcie jest wytłuszczona, a to pewnie obniży jakość OCR strony itd. itp. Tyle, że będzie to ocena w oparciu o doświadczenia ze starymi technologiami przechowywania postaci cyfrowych takimi jak format tiff lub pdf.
W przypadku formatu DjVu można pokusić się o próbę „odjęcia” uciążliwego tła. Takie uciążliwe tło pokazano (jako powiększana miniatura) obok. Zawiera poza tłem zeskanowanej strony również fragment zdjęcia i część tekstu zawartego na stronie odwrotnej do zeskanowanej. „Odejmowanie” to nic innego jak – w miarę możliwości – najbardziej idealna segmentacja zawartości strony. Oprogramowanie DocumentExpress wyposażone jest w kilka profili (czy też sposobów) prowadzenia konwersji z pliku źródłowego do pliku w formacie DjVu. Jeżeli takie profile nie wykonają segmentacji w sposób idealny, pozostaje jeden z nich doprecyzować lub napisać profil od nowa. Narzędzie umożliwiające tworzenie lub redagowanie profili konwersji to ConfigurationManager będący składnikiem pakietu DocumentExpress Enterprise. Po „odjęciu” tła od widoku kompletnego strony otrzymujemy „oczyszczoną” warstwę treści strony gazety.
Okazuje się, że w takiej warstwie wszystkie litery i to w każdej szpalcie są już jednolite a plamy znikły (miniatura obok). Zatem nie jakość gazety była niska, tylko efekt światła skanera przechodzącego przez „cienkie strony” poszerzył zawartość skanu strony gazety o „niepożądane dodatki strony odwrotnej”, i to było przyczyną powstania nieprecyzyjnej oceny jej jakości.

Dlaczego operacja efektywnej segmentacji jest tak istotna ? Otóż użytkownicy, którzy zechcą przeprowadzić rozpoznanie tekstu w pliku DjVu, powinni być świadomi, że jakość tej operacji zależy wyłącznie od zawartości warstwy treści i jednocześnie nie zależy od tego czy warstwa tła w ogóle istnieje (pliki bitonalDjVu jej nie posiadają) lub od tego, co jest w niej zawarte (SegmentedDjVu).
 

Jednak segmentacja zawartości strony dostępna w technologii DjVu nie jest „lekiem na całe zło” niskiej gramatury gazet.

Zwyczajowo, roczniki gazet oprawione w sztywną oprawę przechowywane są tak, że grzbiet oprawy widoczny jest dla oczu bibliotekarza. Jest to normalne z punktu widzenia konieczności stałego odszukiwania w bibliotece określonego woluminu. Zaś z punktu widzenia nie obniżania jakości przechowywanych gazet, grzbiet musiałby być u góry, by nie dopuścić do trwałych odkształceń arkuszy. Aby ocenić jak w danej bibliotece przechowywany jest zasób czasopism, wystarczy ogląd części strony przeciwległej do zszytego boku. Obok pokazano fragment strony gazety na pewno przechowywanej „w pionie” z grzbietem oprawy wyeksponowanym do oczu bibliotekarza.

Niestety, testy wykazały, że takie odkształcenia znacząco obniżają jakość rozpoznania tekstu OCR. Na całe szczęście, profil konwersji nie jest „zainteresowany” tym, czy tekst strony jest liniowy czy też oparty na krzywej przypominającej owal lub elipsę, więc segmentacja jest nadal efektywna a czytelność wysoka.

 

 

 

 


Kolejnym problemem z jakim przyjdzie się zmierzyć podczas digitalizacji gazet i czasopism to pofalowanie powierzchni poszczególnych stron oprawionego rocznika. Odkształcenie takie można częściowo zniwelować podczas skanowana, ale trzeba dysponować skanerem z szybą dociskową, a to już urządzenia bardzo drogie. Przyczyna takiego odkształcenia może być różna (kwasowość papieru, zmiany wilgotności pomieszczenia, w którym przechowywane były roczniki, ...) i oczywiście dla samego procesu digitalizacji nie jest istotna.

Istotnym jest zaś to, że skan pofalowanej strony może zawierać w jednym – nazwijmy to wierszu – literę „m” o szerokości mniejszej od litery „n”. I to jest kłopot podwójny, gdyż trudno przewidzieć jak zawężona lub poszerzona litera zostanie rozpoznana podczas pracy algorytmów OCR oraz do którego wiersza strony będzie przypisana, skoro wiersz w takim przypadku to określenie dalece niejednoznaczne. Obok pokazano fragment strony zapisanej w formacie tiff a poniżej (z lewej) warstwę treści skonwertowanego pliku tiff do formatu DjVu. Nie należy obawiać się tego, czy zróżnicowana kolorystyka liternictwa w warstwie treści strony DjVu wpłynie na jakość rozpoznania OCR. Rozpoznanie OCR w ogóle „nie widzi” tego, że obiekt w warstwie treści (litera, cyfra, wykres, ...) posiada jakikolwiek kolor. Zatem, gdyby udało się zeskanować stronę w trybie bitonal jak poniżej (z prawej) efekt OCR dla obu przypadków byłby identyczny. Tyle, że poniżej przedstawiono czarno-biały wygląd kolorowej warstwy treści zaprezentowanej po stronie lewej.

 

 

Powyższe spostrzeżenia prowadzą do wniosku, że skanowanie gazet w trybie kolor lub w odcieniach szarości umożliwia konwersję pozyskanych skanów do formatu DjVu z na tyle precyzyjną segmentacją, że czytelność tekstu będzie wysoka. Z kolei skanowanie gazet w trybie bitonal doprowadzi do zdegenerowania poziomu zabrudzeń i przebijającej zawartości strony odwrotnej do poziomu tekstu na skanowanej stronie. Uniemożliwi to jakiekolwiek operacje na otrzymanym skanie, gdyż zarówno tekst jak i niepożądane dodatki przedstawione będą jednolitym czarnym kolorem. Co gorsza (dla takich digitalizacji), należy się także liczyć z utratą części tekstu, który był zbyt wypłowiały (rozjaśniony), co może postawić duży znak zapytania nad sensem takiej strategii w ochronie dóbr kultury. Ograniczenia te zobrazowano trzema poniższymi przykładami zaczerpniętymi z bitonalnych publikacji dostępnych w internecie.

 

   

 

Czasami można spotkać efekt przedstawiony poniżej. Pojawia się on w dwóch przypadkach. Pierwszym jest przypadek kiedy posiadamy gazetę, w której - podczas gdy ją drukowano - w niektórych częściach strony powstało podwójne odbicie tekstu. Drugim przypadkiem jest poruszenie strony gazety podczas gdy skaner nie zakończył całkowicie skanować jej powierzchni. Taki efekt na trwałe wpisuje się w postać cyfrową dokumentu papierowego i nawet idealna segmentacja zawartości nie potrafi ukryć jego zaistnienia.

 

 

 

Użytkownicy oprogramowania DocumentExpress posiadający już pewne doświadczenie w tworzeniu plików DjVu mogą z mniejszą lub większą dokładnością przewidzieć jaka będzie precyzja segmentacji fragmentów strony gazety zaprezentowanej powyżej. Generalnie, należy oczekiwać, że profile Manuscript lub Scanned najprawdopodobniej najbardziej „wypłowiałe” i rozjaśnione fragmenty wyrazów umieszczą w warstwie tła. Dla przykładu (widok po prawej stronie) należy oczekiwać, że słowo „PRENUMERATA” w części „PRENU” trafi do warstwy tła, a pozostałe 3 sylaby do warstwy treści.

W takim przypadku można się nawet zgodzić z tym, że to jest właśnie przykład niskiej jakości gazet. Przykład digitalizacji takiej jakości tekstu poprzez skanowanie czarno-białe (bitonal) pokazano poniżej. Część tekstu zaprezentowanych stron utracona została bezpowrotnie.

 

   

 

Jednak efekt pracy precyzyjnie przygotowanego profilu konwersji do formatu DjVu może mile zaskoczyć. Może nawet wręcz doprowadzić do podejrzeń o manipulację, bo przecież widok warstwy treści w skonwertowanym pliku DjVu jak zaprezentowano poniżej jest chyba niemożliwy?

 

 

A jednak, jest to efekt zwykłego wydania myszką polecenia „Start Job”, a dokładniej, poprzedzone jeszcze w programie DocumentExpress Enterprise wskazaniem nazwy profilu konwersji i zaznaczenia, czy powinno być prowadzone automatyczne rozpoznanie warstwy tekstowej OCR.

 

 

Oznacza to, że być może pojawiła się realna szansa – a nie sygnalizowana do chwili obecnej na żadnym forum – całkowitego zachowywania zawartości digitalizowanych dokumentów a nie tylko takiej ich części, na zachowanie jakiej pozwalały domyślne ustawienia używanego oprogramowania. Warunek jest tylko jeden. Stosując technologię DjVu, dla określonej i podobnej jakością partii roczników potrzebny jest precyzyjnie napisany profil. Może (ale nie musi) okazać się, że taki profil rewelacyjnie poradzi sobie z kolejną partią (a nieco odmiennych) gazet poddanych digitalizacji. Jeżeli jednak dla innych roczników napisany profil nie będzie tak wydajny, to wystarczy napisać profil kolejny. Prezentowane w niniejszym artykule czasopisma „Głos Narodu” oraz „Ilustrowany Kuryer Codzienny” skonwertowano za pomocą dwóch różnych profili. Ponieważ zasób biblioteczny takiego dla przykładu „Kuryera” może sięgać kilkudziesięciu tysięcy stron, więc może praca nad jednym profilem bardziej się opłaca niż zgadywanie, czy skanować gazety w trybie bitonal, a może podnieść rozdzielczość skanowania, a może też wykonać obie te czynności na raz. Można też dokonać oszacowania o jakich ilościach digitalizacji mowa. Jeżeli 14-stronicowe pismo np. w/w IKC wychodziło 6 dni w tygodniu i posiadamy zasób 7 lat (po 52 tygodnie każdy) tego pisma, to digitalizacji poddać należy 7 * 52 * 6 * 14 = 30.576 stron. A wystarczy tylko jeden profil.

 

Przedstawione powyżej mankamenty dotyczące jakości gazet podlegających digitalizacji – poza rozdarciami arkusza, na które się nie natknęliśmy – powinny stanowić komplet kwestii, które należy mieć na uwadze przygotowując proces digitalizacji. Analiza – chociaż pobieżna – materiału przeznaczonego do digitalizacji pozwoli dokonać oceny, jakiej jakości postać cyfrową powinniśmy otrzymać, czy w ogóle jest sens prowadzić rozpoznanie tekstu OCR dla ocenianej partii dokumentów, no i przede wszystkim pod jakim kątem precyzować profil konwersji, według którego powstanie kolekcja plików DjVu. Kolejnym i ostatnim krokiem jest uruchomienie jednym poleceniem tysięcy konwersji poszczególnych stron.

 

 

Dla digitalizacji oprawionych gazet i czasopism przyjęto następującą strategię digitalizacji :

 

*  Wybór - spośród roczników przeznaczonych do digitalizacji – możliwie największej ilości tomów zawierających czasopisma o podobnej szacie graficznej, zbliżonym stopniu zażółcenia stron, zawierające (lub nie) zdjęcia lub ryciny,

*  Pobieżna analiza wybranej partii dokumentów,

*  Skanowanie czasopism w trybie pełnego koloru lub w odcieniach szarości z preferowaną wartością rozdzielczości optycznej,

*  Wybór (jeżeli posiadamy) lub stworzenie profilu konwersji do formatu DjVu

*  Testy i wnikliwa ocena działania profilu na niewielkiej próbie zeskanowanych plików Tiff

*  Konwersja całej kolekcji plików Tiff do formatu DjVu,

*  Kompozycja plików DjVu w wielostronicowe dokumenty elektroniczne.

 

 

Kiedy przygotowywany sposób konwersji (profil) jest gotowy

 

Przed rozpoczęciem konwersji kilkunastu a może kilkudziesięciu tysięcy stron należy upewnić się, że przygotowany profil nie zawiedzie. Wydaje się, że najprostszym sprawdzeniem jest wykonanie próbnej konwersji dla kilkunastu stron i wnikliwa ocena otrzymanych plików DjVu.

Jedyne co, to należy znaleźć sposób, choćby bardzo prosty lecz dokonujący oceny jakości otrzymanej postaci cyfrowej zdigitalizowanej partii dokumentów papierowych. Inaczej, o tym, czy postać cyfrowa posiada pożądaną jakość przesądzi zapewne tylko opinia osoby uznanej za „Guru w temacie”, tylko ...

Tylko, że potrzebna jest uzasadniona ocena, czy jakość konwersji, którą osiągnięto to optimum i czy posiadamy już postać finalną profilu. Chyba, że dostrzegamy pewne niedociągnięcia, to weryfikowany odcinek pracy należy skorygować.

 

Niewłaściwie wskazany profil konwersji czy też wadliwie napisany, może zadowalająco dla przykładu konwertować tekst małą i dużą czcionką na stronie gazety, a jednocześnie załączone na niej zdjęcia zniszczy, bo jak inaczej ocenić poniższy przykład.

 

 

Jako przykładowy sposób oceny proponujemy przeanalizować nie jakość wizualną zawartości zdigitalizowanej strony ale jakość jej niepożądanego dodatku czyli przebijającej zawartości ze strony odwrotnej. Propozycja może kontrowersyjna ale za to oparta na logicznej i prostej zależności. Jeżeli szum czy też przebijającą treść udało się wyeksponować w pliku DjVu czytelnie, to i jakość zawartości samej strony względem jakości papierowego oryginału zapewne będzie bardzo wysoka. Oczywiście, zakładamy tu, że również jakość plików Tiff powstałych ze skanowania postaci papierowej została oceniona pozytywnie, gdyż jest to warunkiem koniecznym do wystawienia poprawnej oceny jakości strony w formacie DjVu względem postaci papierowej. Zaletą takiego sposobu weryfikacji jakości konwersji jest również to, że nie jest nam potrzebna do wglądu postać papierowa, więc konwersję prowadzić można nawet poza murami biblioteki (np. zbiory lwowskie można digitalizować we wrocławskiej siedzibie Ossolineum), a pomimo to osoba prowadząca konwersje nie popełni błędu. Ponadto, podczas oceny porównujemy elementy tej samej strony, zatem nie jest ważne czy strona poprzednia posiadała dla przykładu mnóstwo plam po zalaniu a bieżąca strona jest "bardzo ładna", gdyż ocena dotyczy tylko relacji konkretna strona czasopisma - odpowiadający jej plik DjVu.
Gdyby zaś skupić się wyłącznie na treści samej strony celem jej oceny, to nie dysponując „pewnym wzorcem odniesienia” celem porównań, nie będziemy mogli jednoznacznie odpowiedzieć nawet na pytanie typu „czy prawy oczodół łysego pana był w oryginale taki jasny, czy to może błąd enkodera DjVu, a wtedy ... fragment zdjęcia nie jest wyeksponowany prawidłowo”.

Jeżeli różnice odcieni szarości zdjęcia pozwalają nam wygodnie odczytać na łysinie napis „ierownik Tartak”, który jest fragmentem tytułu ze strony odwrotnej „Kierownik Tartaku”, możemy być pewni, że postać cyfrowa zdigitalizowanej strony jest na pewno wiarygodna, a warstwa tła pliku DjVu nie jest rozmyta. Celem ułatwienia odczytu przebijającego napisu, zdjęcie łysego pana odwrócono o 180°, co zresztą widać po odwróconym pasku narzędziowym nad zdjęciem. Zaprezentowane poniżej fragmenty pochodzą z cyfrowej postaci DjVu „IKC” strony 11 i 12.

 

 

Czy skanowanie z rozdzielczością 450 dpi to przypadek

 

Jak wspomniano wyżej, czasopisma skanowane były dla trzech wartości rozdzielczości, a mianowicie dla 300, 450 i 600 dpi. Wartości 300 oraz 600 dpi wydają się być dobrane w naturalny sposób, natomiast wartość 450 dpi wymaga słowa komentarza. Otóż, wybór ten podyktowany był niektórymi mechanizmami enkodera formatu DjVu.

Podczas powstawania pliku DjVu zawartość konwertowanej strony dzielona jest na warstwę treści oraz warstwę tła. I to zapewne jest jasne i oczywiste. Natomiast istotnym jest krok kolejny czyli sposób w jaki warstwy te „trafią” do pliku DjVu. Nie może to być jeden sposób, ponieważ warstwy te zawierają zupełnie odmienne naturą elementy konwertowanej strony. Do warstwy treści trafiają obiekty najczęściej jedno- lub dwubarwne (litery, cyfry, linie, znaki, ...), co oznacza, że sposób ich zapisu i kompresji musi być całkowicie odmienny od sposobu zapisu nie obiektów, lecz współtworzących warstwę tła obszarów, w których jakość oddania kolorów a właściwie przejść tonalnych przyczynia się do finalnej oceny jakości pliku DjVu.

Stąd też użytkownicy wersji Enterprise mogą ustawiać osobno dzielnik dla kompresji obiektów w warstwie treści (foreground subsample od 1 do 12) jak i dzielnik – nie dla poziomu kompresji – ale do wyznaczenia wartości rozdzielczości z jaką powstanie warstwa tła (background subsample od 1 do 10). Tą ostatnią wartość można ustawiać również w wirtualnej drukarce LizardTecha.


Ponieważ prezentowana digitalizacja posiadała charakter testowy, potrzebne były mechanizmy wiarygodnego porównywania jakości otrzymanych postaci cyfrowych.

Poniższa tabela pokazuje, że dla rozdzielczości plików Tiff 300, 450 i 600 dpi można tak przeprowadzić konwersję (czy też tak ustawić dzielniki, o których wspomniano wyżej), że powstałe pliki DjVu będą posiadać albo identyczną wartość rozdzielczości dla warstwy tła albo/oraz identyczną wartość dla warstwy treści pomimo, iż powstały z plików Tiff o różnych rozdzielczościach. Dla trzech rozdzielczości - 300, 450 i 600 dpi jednocześnie można dobrać 3 takie warianty : 150, 75 i 50, zaś dla dwóch wartości rozdzielczości plików Tiff dostępne są kolejne 4 warianty – 300, 100, 60, 37.5).


Jednocześnie tabela pokazuje, że gdyby zamiast rozdzielczości 450 dpi wybrać wartość 400 dpi, możliwe byłyby tylko 2 warianty – 100 i 50. Dla dwóch wartości rozdzielczości spośród 300-400-600) dostępny byłby tylko 1 wariant - 200.
Poza tym, wartość 450 dpi jest średnią arytmetyczną wartości 300 i 600 i można sądzić, że lepiej nadaje się do oceny tego, jak podnoszenie rozdzielczości skanowania dokumentu papierowego wpływa na jakość konwersji do formatu DjVu.

 

Dzielnik 1÷12

1

2

3

4

5

6

7

8

9

10

11

12

300

[dpi]

300

150

100

75

60

50

 

37,5

 

30

 

25

450

[dpi]

450

225

150

112,5

90

75

 

 

50

45

 

37,5

600

[dpi]

600

300

200

150

120

100

 

75

 

60

 

50

400

[dpi]

400

200

133,33

100

80

66,66

 

50

 

40

 

 


Po wskazaniu wartości dzielnika 2 dla konwersji plików Tiff 300 dpi (czyli 300/2 = 150 dpi) i odpowiednio 3 dla plików Tiff 450 dpi oraz 4 dla plików Tiff 600 dpi otrzymano (i zaprezentowano w niniejszym artykule) takie publikacje DjVu, w których obiekty (litery, znaki, linie, ...) w warstwach treści o rozdzielczościach odpowiednio 300, 450 i 600 dpi zawsze były kompresowane dla 150 dpi.
Zapoznając się z dowolną publikacją można wywołać z menu przeglądarki opcję szczegółów informacji o stronie, by odczytać informacje jak pokazano niżej. W każdym przedstawionym fragmencie okienka informacyjnego, dane o warstwie treści wykazane są w dwóch ostatnich wierszach.
 

     


Poniżej przedstawiono otrzymane postaci cyfrowe zdigitalizowanych czasopism. Należy jeszcze zwrócić uwagę, że „Głos Narodu” nie zawiera żadnych zdjęć, zaś „Ilustrowany Kuryer Codzienny” posiada zdjęcia, rysunki, czerwone tytuły, itd. I właśnie te elementy różniące w/w czasopisma, były podstawą do napisania dwóch diametralnie różniących się od siebie profili, wg których przeprowadzono konwersję do formatu DjVu.

Niespodzianką okazała się efektywność działania profili podczas konwersji do formatu DjVu. W przypadku konwersji „Ilustrowanego Kuryera Codziennego,” praktycznie idealną segmentację (rozumianą jako umieszczenie wszystkich liter w warstwie treści pliku DjVu) uzyskuje się tylko dla rozdzielczości 300 dpi. Dla niektórych stron z rozdzielczością 450 dpi, jedna-dwie litery (z tytułów wydrukowanych dużą czcionką) pozostają w warstwie tła. Najbardziej kłopotliwą dla idealnej segmentacji okazała się konwersja dla 600 dpi i to nawet przy uwzględnieniu takich niuansów konwersji jak wartość parametru Resolution Multiplayer, który po uaktywnieniu posiada określone przez producenta wartości dla rozdzielczości 300 dpi oraz dla „konwersji powyżej 400 dpi”. Problem polega na tym, że nie wiadomo o ile powyżej 400 dpi parametr ten wpływa jeszcze korzystnie na przebieg konwersji. A może właśnie tłumaczy, dlaczego dla wartości 450 dpi (bliskiej wartości 400 dpi) jakość konwersji można uznać za satysfakcjonującą.
Konwersja „Głosu Narodu” przebiegła zgodnie z zamysłem testu, i to zarówno dla konwersji 300, 450 jak i 600 dpi (w kolorze i odcieniach szarości) osiągnięto idealną segmentację treści stron gazet od ich tła. Przykładowe warstwy tła skonwertowanych publikacji „IKC” oraz „Głos Narodu” w kolorze i odcieniach szarości pokazano poniżej.
Z kolei jakość poszczególnych liter, które umieszczone zostały podczas konwersji w warstwie treści pliku DjVu, jest oczywiście najwyższa dla plików powstałych podczas konwersji plików Tiff 600 dpi.
 

Warstwa tła stron publikacji w formacie DjVu

300 dpi

450 dpi

600 dpi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

„Głos Narodu” – format DjVu

 

Strony „Głosu Narodu” posiadają rozmiar 47.9 cm * 61.0 cm, zaś dzielnik dla warstwy treści ustawiono w profilu na wartość sześciokrotnie mniejszą niż domyślna wartość producenta. Dlatego też otwarcie poszczególnych stron może nie być błyskawiczne i trwać około 2÷3 sekundy. Gdyby celem nadrzędnym prezentacji była publikacja postaci elektronicznej w internecie, zapewne wspomniany wyżej dzielnik byłby ustawiony, co najwyżej trzykrotnie niżej od wartości domyślnej.

 

Digitalizacja czasopisma „Głos Narodu” (pojedyncze strony kilku numerów)

300 dpi

450 dpi

600 dpi

 

 

 

 

 

 

 

Ocenę jakości, czytelności stron jak i poszczególnych segmentacji – pozostawiamy czytelnikowi.

 

„Ilustrowany Kuryer Codzienny” – format DjVu

 

Dla digitalizacji „Ilustrowanego Kuryera Codziennego” o rozmiarach strony 33.2 cm * 45.9 cm (zeskanowanowanego wyłącznie w trybie pełnego koloru) wykonano poza konwersją postaci podstawowej także :

*  Konwersję plików Tiff 300 dpi, w których nie uwzględniono osadzonego w tych plikach profilu barwnego, czyli popełniono celowy błąd. Konwersja taka nie dość, że jako najciemniejsza charakteryzuje się najniższym komfortem zapoznawania z jej treścią, to dodatkowo przy wydruku jej zawartości zużywać będzie największą ilość atramentów czy też tonerów.

*  Konwersję dla każdej rozdzielczości plików Tiff, które przed konwersją poddano modyfikacjom za pomocą aplikacji Adobe PhotoShop (AutoColor, AutoContrast, cienie, światła, ...). Operacja ta miała na celu ustalenie wpływu powyższych modyfikacji na ewentualną zmianę efektywności segmentacji podczas konwersji do formatu DjVu lub zmiany jakości rozpoznania OCR. Pomimo, iż „rozjaśnianie” postaci cyfrowej jest w pewnym stopniu zaprzeczeniem zachowania wiarygodności względem postaci papierowej czasopisma, to jednak jest sposobem podniesienia komfortu zapoznawania się z jego treścią oraz obniżenia kosztów wydruku. Po porównaniu okazało się, że efektywność rozpoznania OCR nie zmieniła się w sposób na tyle znaczący, by warto było różnice te przytoczyć.

*  Ponieważ spotkaliśmy się już z dosyć oryginalną opinią użytkownika, który zlecił firmie trzeciej skanowanie książek : „... zleciliśmy skanowanie pojedynczych stron książki, a otrzymaliśmy skany jak w markecie. Każdy, poza zeskanowaną stroną zawierał dodatkowo 15% strony sąsiadującej gratis”, wykonano więc konwersję dla 300 dpi po uprzednim skadrowaniu plików Tiff prostym programem. Niedoskonałości tej metody widać na kilku stronach. Wykonano także konwersję dla 450 dpi, gdzie kadrowaniu towarzyszył stosowny obrót do pionu wg wskazanego obrzeża, a korekcję koloru, kontrastu i innych parametrów dobrano na tyle delikatnie, by maksymalnie podnieść jakość oraz czytelność i jednocześnie zachować wiarygodność postaci cyfrowej względem postaci papierowej. Należy dodać, że kadrowanie zeskanowanych plików Tiff przed konwersją jest znacznie przydatniejsze w przypadku digitalizacji małych formatów, gdyż umożliwia to wyświetlanie treści dwóch stron książki jednocześnie. Wyświetlanie dwóch stron niekadrowanych skanów „z dodatkami gratis” wygląda bardzo topornie i na pewno nie kojarzy się z nowoczesnymi technologiami informatycznymi.

 

Digitalizacja 14-stronicowego czasopisma „Ilustrowany Kuryer Codzienny

300 dpi

450 dpi

600 dpi


Konwersja podstawowa plików TIFF z uwzględnieniem profilu barwnegoKonwersja podstawowa plików Tiff 300 dpi bez uwzględnienia profilu barwnegoKonwersja plików Tiff po modyfikacji ich zawartości za pomocą Adobe PhotoShop


300 dpi

450 dpi

600 dpi


Konwersja kadrowanych plików Tiff 300Konwersja kadrowanych plików Tiff 450


 

Aby (zamiast prowadzić analizę, co decyduje o jakości otrzymanych plików DjVu) przekonać się jaką jakość oferują powyższe pliki DjVu, polecamy wydruk kolorowy i monochromatyczny ostatniej strony „Ilustrowanego Kuryera Codziennego”. Ostatnia strona zawiera jasne zdjęcie, ciemne zdjęcie, rysunek i tekst podstawowy oraz tekst na czarnym tle. Wydruk kolorowy (kompletny) pozwoli ocenić jakość zdjęć, wydruk monochromatyczny zaprezentuje jakość tekstu i rysunku. Proponujemy wydruk wersji skadrowanej w rozdzielczości 450 dpi.

Przy okazji, powyższy link otworzy czasopismo w trybie wyświetlania dwóch stron jednocześnie jak na poniższej (powiększanej) miniaturce.

 

 

Uwaga! Przypomnieć można, że aby zrealizować wydruk monochromatyczny warstwy treści dla pliku DjVu z segmentacją zawartości, należy po jego otwarciu w przeglądarce Lizardtech DjVu Browser wywołać z menu podręcznego opcję „Wyświetlanie/ Warstwa/ Czarno-biała treść”. Dopiero w tym momencie wybiera się opcję „Drukuj...” i potwierdza „OK”. Wydrukowana zostanie czarno-biała treść strony w formacie DjVu.

 

Rozmiar zdigitalizowanych stron czasopism.

 

Jeżeli przyjęta zostanie strategia konwersji skanów w formacie Tiff do formatu DjVu za pośrednictwem proili podstawowych oprogramowania DocumentExpress (np. Manuscript), to każdy użytkownik posiada własne doświadczenia i kwestia wielkości plików nie wymaga omawiania. Natomiast, jeżeli wybrana zostanie strategia doprecyzowania profilu konwersji, dokładnej odpowiedzi udzielić nie można.

Zanim powstał satysfakcjonujący ze względu na jakość konwersji profil dla gazety „Głos Narodu” zachowano kilkanaście plików DjVu o całkiem przyzwoitej jakości i posiadających rozmiary od 490 kB do 1.470 kB na stronę gazety (47.9 cm * 61.0 cm, 300 dpi). Dla najlepiej dobranego profilu - względem założeń podanych na początku artykułu - strona gazety w formacie DjVu posiada rozmiar 873 kB. Jak wspomniano wcześniej, obniżona niemal do minimum kompresja obiektów w warstwie treści powoduje, że nie zaprezentowano publikacji zoptymalizowanych pod kątem dystrybucji za pośrednictwem sieci rozległych. Gdyby taką optymalizację przeprowadzić, objętość 873 kB takiej strony można obniżyć do pojemności rzędu 600÷700 kB.

 

W poniższej tabeli zebrano kolejno rozmiary plików :

*  skanów w formacie Tiff,

*  dla porównania rozmiary publikacji w formacie pdf utworzonej za pośrednictwem aplikacji Adobe Acrobat Professional oraz

*  kolejnych konwersji „Głosu Narodu” wg indywidualnego profilu do formatu DjVu.

 

Pomimo, iż rozmiar czasopisma w formacie DjVu nie był specjalnie ograniczany, porównanie wielkości czasopism w różnych formatach właściwie nie wymaga komentarza.

 

 

Rozmiar gazety w [MB]

Średni rozmiar strony [MB]

 

Tiff

Pdf

DjVu

Tiff

Pdf

DjVu

Color, 300 dpi

1 516,0

52,7

12,1

116,61

4,05

0,93

Color, 450 dpi

3 420,0

86,8

13,4

263,08

6,68

1,03

Color, 600 dpi

6 072,0

151,0

16,8

467,08

11,62

1,29

 

 

 

 

 

 

 

Grayscale, 300 dpi

506,0

57,1

10,8

38,92

4,39

0,83

Grayscale, 450 dpi

1 137,0

85,3

13,0

87,46

6,56

1,00

Grayscale, 600 dpi

2 017,0

164,0

16,9

155,15

12,62

1,30

 


Na powyższym wykresie nie umieszczono rozmiarów plików TIFF, ponieważ wtedy rozmiary plików DjVu przedstawione są nie jako różnobarwne słupki, lecz jako elipsy, zatem figury płaskie. Można dodać, że przekazane do testu 13 skanów w formacie Tiff (600 dpi, color) zajmują 6072.0 MB, zapisane w formacie pdf 151.9 MB zaś w formacie DjVu 16.8 MB. Odpowiednie wartości dla rozdzielczości 300 dpi przedstawiają się następująco : 1516.0 MB (Tiff), 52.7 MB (pdf) oraz 12.1 MB (DjVu).

Warte zauważenia jest to, że stosunek rozmiarów publikacji pdf dla 600 i 300 dpi 151/52.7 = 2.9 nie odpowiada stosunkowi odpowiednich rozmiarów publikacji DjVu 16.8/12.1 = 1.3. Jest to oczywiście konsekwencją daleko bardziej zaawansowanych i nowoczesnych algorytmów kompresji a znamiennych dla technologii DjVu oraz sposobu konstrukcji użytego profilu konwersji, czyli takiego układu liczbowego, który tworzy pliki DjVu tak jak to zamierzyła osoba realizująca konwersję a nie względem wejściowej objętości konwertowanych plików Tiff, jak to ma miejsce w przypadku zapisu do formatu pdf. Dlaczego z kolei Adobe Acrobat Professional utworzył publikacje w odcieniach szarości (300 i 600 dpi) większe od odpowiadających im publikacji kolorowych nie analizowaliśmy, gdyż nie było to przedmiotem testu. Bez względu na to, w jaki sposób tworzone są w bibliotekach pliki – często nazywane Master – w formacie Tiff (rozdzielczość, kolor, odcienie), stosując technologię DjVu z odpowiednio skonstruowanym profilem, na pewno nie pojawi się problem drastycznie narastającego rozmiaru postaci cyfrowej dla konwersji o wyższych rozdzielczościach jak to ma miejsce w przypadku formatu pdf.

Otrzymane wyniki przekonują również, że digitalizacja w odcieniach szarości nie ma żadnego uzasadnienia – ani jakościowego, ani względem rozmiaru postaci cyfrowych (w formacie DjVu). Skanowanie w trybie czarno-białym (bitonalnym) jak przytoczono przykłady z różnych serwerów (na początku artykułu) nie pokazuje niczego co mogłoby satysfakcjonować bibliotekę publikującą takie postaci cyfrowe.

Kwestia celowości prowadzenia automatycznego rozpoznania OCR wydaje się być otwartą lub też określona następująco. Im więcej w digitalizowanym roczniku gazet stron takich jak poniższa (po chwilowym „zdjęciu” z niej tekstu),

 


a zatem z licznymi pomarszczeniami, pofalowaniami stron, z tym gorszym automatycznym rozpoznaniem tekstu należy się liczyć. Ponadto, im więcej użyto w gazecie czcionek nieznanych procedurom rozpoznania OCR, tym więcej pojawi się błędów w odczycie słów wydrukowanych taką czcionką.

 

 

Uwagi końcowe.

 

1.    Nie ulega wątpliwości, że technologia DjVu na chwilę obecną jest bardzo dobrym instrumentem do digitalizacji zasobów gazet i czasopism. Pomimo, iż narzędzia do tworzenia plików w formacie DjVu obecne są na rynku od ośmiu lat, technologia DjVu wciąż dla wielu użytkowników komputerów jest nowością lub technologią nieznaną. Jest to tak samo dziwne jak fakt, że na forach internetowych problem digitalizacji podnoszony jest bardzo często, precyzyjnie formułowane są życzenia i właściwości, którymi powinna charakteryzować się postać cyfrowa gazet, a jednocześnie brak (a przynajmniej takiej dyskusji nie znaleźliśmy) choćby próby nakreślenia tego, jak taką czynność zrealizować od strony technicznej i czego należy się podczas takiego procesu wystrzegać. Być może właśnie dlatego – z braku dyskusji o możliwościach i środkach jakie oferują różne technologie lub gotowe aplikacje – biblioteki ulegając stereotypom, decydują się na wybór technologii niekoniecznie najbardziej odpowiadających ich potrzebom.

 

2.    Przy tworzeniu profili konwersji dla dokumentów typu gazety, czasopisma czy też ozalidowe kopie rysunków technicznych należy pamiętać, że są to dokumenty dużo bardziej złożone i skomplikowane dla enkodera DjVu niż np. wydruk dokumentu Worda z drukarki laserowej. Wiele obserwacji z dotychczasowego używania oprogramowania DocumentExpress w takich konwersjach nie ma zastosowania. Najprostszym uzasadnieniem tak postawionej tezy może być – na ogół znany - parametr „Treshold”, dostępny w ConfigurationManager oraz w wirtualnej drukarce LizardTech Virtual Printer Pro. Generalnie, użytkownicy DocumentExpress są świadomi, że im mniejsza wartość tego parametru (w skali 0÷100), tym bardziej niejednoznacznie rozpoznane obiekty (ambiguous objects) enkoder kierował będzie do warstwy treści, a im większa wartość tego parametru – tym częściej obiekty przeniesione zostaną do warstwy tła. W zależności od czynionych przez użytkownika zmian, zmienia się zawartość poszczególnych warstw w pliku DjVu a jego rozmiar albo sukcesywnie rośnie, albo sukcesywnie maleje. I tak jest oczywiście dla – nazwijmy to – prostych lub niezniszczonych – dokumentów. Z kolei w przypadku np. gazet, zasada ta nie obowiązuje i nie jest tak, że bez względu na to czy wskaże się wartość 35 czy też 45, to efekt będzie albo identyczny albo bardzo zbliżony. Dla trudniejszych konwersji, nawet wartości 43 i 44 mogą dać w efekcie działania odmienne efekty, co przedstawia wykres obok. Poza tym, zmieniając wartość tego parametru, rozmiar powstałych plików DjVu zamiast sukcesywnie wzrastać lub maleć będzie raz mniejszy raz większy. Dlatego na początku artykułu wspomniano, że profil dla danej partii dokumentów może rewelacyjnie spisać się także dla innych dokumentów, ale równie dobrze może zajść konieczność jego doprecyzowania do nowej sytuacji czy też innej jakością partii dokumentów.

 

3.    Gdyby bez zagłębiania się w jakikolwiek aspekt digitalizacji dokumentów papierowych odpowiedzieć na pytanie „czy oglądany plik ma przyzwoitą jakość”, można zaryzykować stwierdzenie, że jeżeli po jego powiększeniu do 300% (a przynajmniej do 200%) widok w przeglądarce jest czytelnym (jakość tekstu, kolorystyka, odcienie zdjęć czarno-białych), to postać cyfrowa powinna spełniać oczekiwania większości osób zainteresowanych jego zawartością. Oczywiście mowa tu o powiększeniu względem rzeczywistego rozmiaru dokumentu papierowego, ponieważ również publikowanie w skali 1:1, czy też ustalenie wymiarów strony gazety w postaci cyfrowej,  potrafi czasem sprawić psikusa. Dla przykładu Dziennik Polski, którego wiele numerów dostępne jest w bibliotece cyfrowej (ładna jakość, tryb bitonal), opublikowano w rozmiarach typu : I.1951 :7.3 * 10.8 cm, I.1954 : 7.0 * 10.3 cm, XI.1954 : 7.6 * 10.6 cm. Dla publikacji o takich rozmiarach rodem z Kingsajzu o ocenie jakości świadczyć może dopiero powiększenie do 600÷800%.

 

Uwaga! Aby odczytać rozmiar wyświetlonej strony otwartego dokumentu DjVu, wystarczy z menu wywołać opcję „Informacje o stronie DjVu” :

 

 

Rozmiar - jak w okienku powyżej - wynosi : 3301 pikseli/1200 dpi = 2.75 cala lub 2.75 * 2.54 = 7,0 cm szerokości oraz 4872 pikseli / 1200 dpi * 2.54 = 10.3 cm wysokości.

 

4.    Zastanawiając się nad tym jaki sposób digitalizacji jest na daną chwilę najlepszy, nie należy brać pod uwagę tego, że pewien spośród rozpatrywanych sposobów powoduje np. konieczność oczekiwania na wyświetlenie się strony czasu rzędu 3 sekund. Zanim zostanie zdigitalizowany zasób - załóżmy - ćwierć miliona stron, minie pewnie rok a może i dwa, wydajność oferowanych na rynku procesorów znów „ucieknie” do góry i oczekiwanie 3 sekund a dokuczliwe dzisiaj, skróci się pewnie do 1 sekundy. Natomiast jakość, z którą zostanie wykonana postać cyfrowa zmianom nie podlega.

 

5.    Dla większości gazet digitalizacja z wykorzystaniem technologii DjVu powinna dać satysfakcjonujące rezultaty zarówno dla rozdzielczości plików skanów 300, 450 jak i 600 dpi. Zatem jaką rozdzielczość w bibliotekach powinny mieć pliki Master Tiff można uzależnić od innych potrzeb.

 

6.    Idealną segmentację tekstu umieszczonego na stronach czasopism od ich tła, osiągnięto w przypadku digitalizacji gazet, które zawierały na kolejnych stronach tylko tekst. Uwaga ta dotyczy konwersji plików Tiff zarówno 300, 450 jak i 600 dpi. Pod kątem takich właśnie gazet napisany został pierwszy profil konwersji do formatu DjVu (konwersja „Głosu Narodu”). Dodać wypada, że jest to profil znacznie prostszy konstrukcją od kolejnego profilu, ponieważ praktycznie powierzono mu za zadanie jedynie maksymalną segmentację tekstu z pominięciem "czułości" na różne odcienie szarości i przejścia tonalne obiektów, co jest charakterystyczne w przypadku zdjęć. Natomiast, najlepsze rezultaty (również z punktu widzenia precyzji segmentacji zawartości stron w plikach DjVu), dla czasopism zawierających : tekst różnej wielkości czcionkami, zdjęcia, rysunki, kolorowe tytuły, osiągnięto podczas digitalizacji plików Tiff o rozdzielczości 300 dpi. Napisany dla tego typu gazet profil, którego działanie można określić jako dalece bardziej delikatne (niż działanie pierwszego profilu), podczas konwersji wykonywał znacznie więcej porównań, czy analizowany fragment strony jest "obrazkiem" czy też literą lub innym znakiem. Takim sposobem możliwe jest wiarygodne odzwierciedlenie w tworzonych plikach DjVu jednocześnie zdjęć, rysunków jak i tekstu. Na początku artykułu pokazano fragment strony zawierającej zdjęcie, które nazwano zniszczonym. Przyczyną owego "zniszczenia" było właśnie użycie do konwersji niewłaściwego profilu. Podczas konwersji - dla wyższych rozdzielczości - gazet zawierających zdjęcia, enkoder DjVu (sterowany odpowiednim profilem) dzieli konwertowaną stronę precyzyjniej na analizowane elementy. Sprzyja to podniesieniu jakości takich stron, których znacząca część powierzchni to rysunki, obrazy lub zdjęcia, a w przypadku czasopism pojawia się zjawisko kiedy enkoder nie zawsze "odgadnie", czy analizowany element to "duża" litera czy obszar wypełnony pojedynczym kolorem. Zatem, należy pamiętać, że im większą czcionką zapisano tytuł artykułu, tym większa tendencja ku temu, by litery takiego tytułu umieścić w warstwie tła (zatem potraktowane będą jako obszary wypełnione kolorem, a nie jako duże litery). Nawet jeżeli uda się umieścić je w warstwie treści strony pliku DjVu, nie jest to gwarantem tego, że litery te będą analizowane przez „silnik OCR firmy Read Iris” (zaimplementowanego w programie DocumentExpress), który posiada podobne ograniczenia do rozróżniania co „jest tekstem” a co rysunkiem. Cechę tą potwierdza zwykły test - w dowolnym programie graficznym można narysować wypełniony czarnym kolorem kwadrat o wielkości połowy tej strony i taką stronę poddać rozpoznaniu OCR. Silnik OCR na pewno nie rozpozna kwadratu jako znaku kropki kończącej zdanie. A przecież taka „kropka” posiada wysoką jakość a jaka duża. Poza oceną precyzji segmentacji zawartości stron gazet testowanych plików, pozostaje ocena ich jakości. Różnice jakościowe plików DjVu 300, 450 i 600 dpi, zwłaszcza podczas zapoznawania się z ich treścią na ekranie monitora lub wydruku są albo niezauważalne albo symboliczne. Przy bardzo dużych powiększeniach oczywiście zostaną dostrzeżone. Oczywiście jakość tekstu jest wprost proporcjonalna do trafności rozpoznania tekstu OCR poszczególnych stron, jeżeli operacja taka będzie przeprowadzona. Wtedy należy przewidywać najlepszy rezultat dla pliku DjVu 600 dpi.

 

Artykuły pokrewne

 

Zapraszamy do zapoznania się z przykładowymi propozycjami digitalizacji skarbów pochodzących ze zbiorów Biblioteki Jagiellońskiej w Krakowie a przedstawiającymi :

 

*  Rękopis z początku XIV wieku „Iustinianus, Codex cum glossa ordinaria Accursii”, stron 655

*  Starodruk „Figliki” Mikołaja Reja z roku 1574, stron 90

*  Starodruk „Zwierzyniec” Mikołaja Reja z roku 1574, stron 305

*  Pismo „ISKRA”, zeszyt 1 oraz 2 z roku 1944, stron 12

 

lub też jedynie opisu sposobu wykonania tej prezentacji.

 

Ponadto, dla osób zainteresowanych możliwościami technologii DjVu w ratowaniu ozalidowych kopii dokumentów technicznych jak i zniszczonych kalek, polecamy prezentację dokumentacji technicznej.

Ostatni przykład tej prezentacji pokazuje sposób w jaki technologię DjVu można wykorzystać do odświeżenia czy tez oczyszczenia zdigitalizowanego rysunku i ... wyprodukowaniu z pliku DjVu „czyściutkiego” pliku Tiff.Zapraszamy serdecznie.


Styczeń 2008

Grzegorz Bednarek
GB Soft, Zabrze
grzegorz@djvu.pl

http://www.djvu.com.pl