De
kwaliteit van een documentscan wordt voor digitale verwerking niet enkel
bepaald door de resolutie van de afbeelding (uitgedrukt in ppi, aantal pixels per inch). Ook factoren als opnamehoek, kromming, en beeldcontrast zijn van
belang bij de georeferentie van kaarten en bij optische tekenherkenning van
tekst.
Naast
afwegingen over resolutie en compressie,
onderscheiden we criteria voor digitale beeldkwaliteit op paginaniveau
(geometrische vervorming, ruis, belichting), op het niveau van tekstregels
(scheve of kromme lijnen), en lettertekens (binarizatie).
Historische kaarten
Het belangrijkste aandachtspunt bij de digitalisatie van kaartmateriaal is het vermijden van enige geometrische vervorming. Dit geldt in het bijzonder voor landmeterskaarten, kadastrale plannen en topografische kaarten die op het terrein werden opgemeten d.m.v. driehoeksmeting of triangulatie (vanaf de 16de eeuw). Deze historische kaarten zijn geschikt voor het verwerken met GIS-software (georeferentie), omdat de fouten in de onderlinge afstand van de kaartelementen t.o.v. de werkelijke afstand op het terrein beperkt zijn. Vervorming van het beeld tijdens het scannen verlaagt de nauwkeurigheid van de digitale verwerking achteraf, en vermindert de betrouwbaarheid van bv. de berekende afstanden en oppervlakten.
Perspectiefvervorming treedt op wanneer de camera niet loodrecht op het document gericht staat. Kaartelementen verder van de camera lijken kleiner dan die zich dichterbij bevinden. Aangezien het kalibreren van een digitale camera voor het bekomen van de juiste beeld- of opnamehoek niet eenvoudig is, krijgen glasplaat- (“flatbed”) of “overhead” documentscanners de voorkeur. Recent winnen “overhead” scanners aan populariteit bij archief- en erfgoedinstellingen, omdat de historische documenten niet in aanraking komen met de glasplaat of het deksel van de scanner. Dit brengt echter nieuwe aandachtspunten met zich mee: krommingen in het papier (kaarten die geplooid of opgerold zijn bewaard) kunnen het digitale beeld vervormen, zgn. “warping”. Hetzelfde geldt overigens voor gebonden boeken, waarbij de pagina’s naar de rug toe krommen, of geplooid drukwerk (bv. kranten en tijdschriften). Er bestaan softwareprogramma’s die de kromming van gescande pagina’s kunnen corrigeren, vaak ingebouwd in of te verkrijgen met de documentscanner, maar deze werken het best op gedrukte tekst.
Achttiende-eeuwse notarisakte gedigitaliseerd
met een spiegelreflexcamera. De schuine opnamehoek (perspectiefvervorming)
verhindert de herkenning van de tekstregels (segmentatie van de tekst) in het
Handwritten Text Recognition (HTR) softwareprogramma Transkribus.
Historische teksten
Het machine-leesbaar maken van teksten is onderhevig aan striktere voorwaarden dan de digitalisatie van teksten voor menselijke lezers. De productie van een machine-leesbare tekst start bij het scanproces. De richtlijnen op document- of paginaniveau omtrent geometrische vervorming gelden tevens bij het digitaliseren van tekstdocumenten. Wat betreft de segmentatie van de tekst in lijnen en het identificeren van individuele karakters in voorbereiding op automatische transcriptie, zijn er nog enkele andere aandachtspunten. Naast kromming van het blad (“warp”) is ook het scheeftrekken van de digitale afbeelding (“skew” - voor digitale kaarten eenvoudiger te corrigeren bij de georeferentie) belangrijk om te vermijden met het oog op de optische tekenherkenning die volgt.
Ongelijke
belichting, schaduwen, en ruis hebben daarnaast een invloed op het contrast
tussen de te onderscheiden karakters en de beeldachtergrond. Bij historische
documenten die onderhevig zijn geweest aan degradaties allerhande is ruis niet
altijd te verhinderen; digitalisatie van het originele document i.p.v. de
microfilmopname (indien mogelijk) en het tegengaan van het doorschijnen van
onderliggende pagina’s zijn enkele acties die ruis kunnen verminderen. Ook de
keuze voor het bestandsformaat en eventuele bestandscompressie heeft een
invloed op de ruis rond de karakters: bij de digitalisatie van tekstdocumenten
krijgt TIFF de voorkeur op JPEG.
De impact van bestandscompressie op ruis. Patrick Jentsch & Stephan Porada. “From Text to Data. Digitization, Text Analysis and Corpus Linguistics”, in: Silke Schwandt (red.). Digital Methods in the Humanities: Challenges, Ideas, Perspectives. Bielefeld University Press, 2021, p. 104.
Afhankelijk van de software die zal gebruikt worden voor de optische tekenherkenning, volgt na het scannen nog een fase van “preprocessing”. De meeste OCR-software voor hedendaagse gedrukte tekst integreert de belangrijkste stappen van de "preprocessing" (binarizatie en segmentatie) meteen met de transcriptie van de gescande documenten, in tegenstelling tot de HRT-software specifiek ontwikkeld voor historische handschriften. Binarizatie is het omzetten van kleurbeelden naar zwart-wit; zwarte tekst met een witte achtergrond in het geval van digitale teksten. Dit verhoogt het contrast en dus de (machine-)leesbaarheid, vermindert ruis, en comprimeert het bestand (wat de verwerkingssnelheid ten goede komt). Tools werden ontwikkeld om de binarizatiefase ook voor handgeschreven bronnen te vergemakkelijken. Tekstsegmentatie dient in de voorbereidingsfase van automatische documenttranscriptie om individuele tekstregels, woorden, en karakters te onderscheiden. In het geval van Handwritten Text Recognition (HTR) is deze “layout analysis” een afzonderlijke fase in het transcriptieproces.
Voor de digitalisatie van geschreven bronnen zijn, vanwege hun kleinere papierformaat, ook draagbare scanners een optie. READ-COOP, de coöperatie achter het Transkribus HTR-platform, bracht de ScanTent uit, die het mogelijk maakt hoogkwalitatieve foto’s te maken van documenten met een smartphone. De bijhorende DocScan-app geeft feedback over belichting, contrast, en perspectiefvervorming om voorbewerking (“preprocessing”) van de gedigitaliseerde teksten tot een minimum te kunnen beperken. De app bewaart ook de metadata van elk document, en laat toe de scans en de metadata meteen in Transkribus te uploaden voor het genereren van transcripties.
Meer weten?
- De Cultureel ErfgoedStandaarden Toolbox (CEST), kennisplatform van het Vlaams instituut voor het archief meemo, over compressie
- Het Online Computer Library Center (OCLC) over digitalisatiestandaarden en scanners
- Caterina Balletti, Alessandro Ceregato, Caterina Gottardi, Francesca Rizzi & Andrea Vianello, 3D Digitization and Web Publishing of an ISMAR Cartographic Heritage: Historical Maps of Venice Lagoon, e-Perimetron, 11/2, 2016, p. 47-56 over digitalisatie van historische kaarten m.b.v. fotogrammetrie
- Patrick Jentsch & Stephan Porada, From Text to Data. Digitization, Text Analysis and Corpus Linguistics, in: Silke Schwandt, Digital Methods in the Humanities. Challenges, Ideas, Perspectives. Bielefeld University Press, 2020, p. 89-128 over evaluatie van scankwaliteit en preprocessing voor automatische tekstherkenning
- James P. Philips & Nasseh Tabrizi, Historical Document Processing: A Survey of Techniques, Tools, and Trends, in: Proceedings of the 12th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management, IC3K 2020, Volume 1: KDIR, Budapest, Hungary, November 2-4, 2020, SciTePress, 2020, p. 341-349 over tools voor digitalisatie, preprocessing, en automatische tekstherkenning
- Chris Tensmeyer & Tony Martinez, Historical Document Image Binarization: A Review, SN Computer Science, 1/173, 2020 over binarizatie
- Günter Mühlberger, Markus Diem, Stefan Fiel & Florian Kleber, D5.14. ScanREAD (European Union Horizon 2020 rapport), 2016 over Transkribus DocScan en ScanTent