Een soort blog van D.P.P. Humpelmayer, over alles en nog wat.
Over het "digitale drama"
2 oktober 2011
NRC Weekend, 10 september 2011
Onderzoekers in de alfawetenschappen maken tegenwoordig ruimschoots gebruik van de computer bij het analyseren van gedrukte teksten. In het krantenartikel Het digitale drama¹ worden de problemen geschetst die zij tegenkomen bij het daarvoor noodzakelijke digitaliseren van het te bestuderen (Nederlandse) materiaal. Daarover de volgende opmerkingen.
Een A4-vullende tekst van 3500 lettertekens kan worden opgeslagen in ongeveer evenzoveel bytes.
Het scannen van een A4 (in grijstinten) levert levert bij 150 dpi een bestand van 2 MB² op (TIFF formaat. 8 bits/pixel, verliesvrije compressie). De gescande versie kost dus bijna 600 keer zoveel opslagruimte als het tekstbestand. Dit is een van de redenen om gescande documenten met OCR in een tekstbestand om te zetten. Een andere reden is dat een tekstbestand heel gemakkelijk te doorzoeken is met google-achtige zoekmachines. Dat is, althans voor veel wetenschappers in de humaniora, misschien wel de belangrijkste reden om OCR toe te passen. OCR brengt echter heel wat problemen met zich mee. Het eerste is dat het niet foutloos gebeurt. Correctie is altijd nodig, en volgens het artikel gebeurt dat door in India ingehuurde - geen Nederlands kennende - correctors. In gunstige gevallen kan het aantal fouten beperkt worden tot 1 per bladzijde. Er wordt niet vermeld of deze frequentie bereikt wordt voor of na het visueel vergelijken door de menselijke OCR machines. In elk geval maakt het voor de eindgebruiker niet eens veel uit wat de foutfrequentie is: zodra er fouten zijn, al zijn het er nog zo weinig, moet je aan elke letter die je leest twijfelen.
Een tweede probleem is dat illustraties en typografie, die in veel gevallen een essentieel bestanddeel van een boek of artikel zijn, in de OCR-versie niet zonder meer meegenomen kunnen worden. Er zijn wel OCR-systemen die tekst en niet-tekst van elkaar kunnen onderscheiden. Meenemen van de niet-tekst (illustraties) vermindert in aanzienlijke mate het ruimtebesparings-voordeel van OCR.
Een derde probleem is dat niet-standaard lettertypen zich niet, of niet zonder 'training' van het systeem lenen voor OCR. Herkenning van lopend handschrift is niet mogelijk met de in de nabije toekomst te voorziene stand van de techniek.
Het digitale drama beperkt zich tot toepassingen in de humaniora, waarbij in veel gevallen verdedigbaar is dat het voornamelijk om de tekst gaat. Maar in de betawetenschappen wemelen de publicaties van speciale tekens, formules, en voor het begrip onmisbare tekeningen, diagrammen en afbeeldingen. Door diverse instanties worden belangrijke publicaties op het gebied van de betawetenschappen dan ook al in gescande vorm beschikbaar gesteld. Ook op dit gebied wordt wel geOCRd materiaal op het web geplaatst. Soms gaat dat goed - waarschijnlijk na een kostbaar proces van vergelijken, dat in dit geval absoluut door deskundigen gedaan moet worden - maar meestal leidt het tot waardeloze non-informatie, zie Geen OCR alstublieft op deze blog.
Een bottom-up oplossing (anders dan het instellen van commissies) zou de volgende kunnen zijn. Plaats gescand materiaal in pdf-vorm op het web, voorzien van Wikipedia-achtige metadata, aanvankelijk bestaande uit niet meer dan een ISBN-achtig identificatienummer en de standaard bibliografische informatie. Een geïnteresseerde onderzoeker kan op basis van de metadata een tekst selecteren en downloaden, en hem desgewenst op zijn eigen computer OCRen en doorzoeken. Het controleren van het OCR-resultaat kan hij waar hij dat nodig acht zelf uitvoeren. Op basis van zijn werk met het document kan hij de metadata verrijken, en zelfs aanvullen met geOCRde tekst. Het hele proces wordt hierdoor waarschijnlijk aanzienlijk goedkoper, al zal de onderzoeker zelf wat meer moeite moeten doen. Per saldo zullen hij en zijn collega's daarmee stukken beter af zijn.
Dat scanbestanden (pdf's) meer plaats kosten dan tekst is een steeds kleiner wordend probleem, gegeven de snelheid waarmee de prijs van lange-termijn opslag afneemt³. Bovendien: de kostbare scan-bestanden, of ze voor OCR worden gebruikt of niet, zullen sowieso opgeslagen moeten blijven. Dan kunnen ze evengoed ook voor de onderzoekers of andere eindgebruikers toegankelijk gemaakt worden.
¹ Karel Berkhout: Het digitale drama. NRC Weekend / Wetenschap, 10/9/2011.
² MB megabyte; dpi dots per inch; OCR Optical Character Recognition.
³ Gemiddeld over de afgelopen 30 jaar is de prijs per bit elk jaar gehalveerd.
Tegenwoordig wordt de fotografie van de vorige eeuw (met filmpjes en donkere kamers) vaak aangeduid als 'analoog', als tegenhanger van de moderne 'digitale' techniek.
De tegenstelling analoog/digitaal dateert uit het begin van het computertijdperk (jaren 1950 en '60), toen er twee soorten computers in zwang waren: analoge en digitale.
De digitale computer van toen verschilde niet wezenlijk van die van nu, al is hij dan zo klein geworden dat je hem in een fototoestel kunt stoppen, samen met een grote hoeveelheid, maar stuk voor stuk door de computer uit te lezen lichtgevoelige elementjes: de sensor.
De analoge computer werkte niet met bits of getallen, maar met electrische spanningen, die tussen bepaalde grenzen (vaak -10 en +10 volt) continu konden varieren. De benaming 'analoog' komt voort uit de analogie van de toegepaste manipulatie van electrische grootheden met allerlei andere fysische processen, die met elkaar gemeen hebben dat ze door dezelfde wiskundige vergelijking beschreven worden: ze zijn analogons van elkaar. Die andere processen, of het nu het vullen van een emmer met water, het slingeren van een gewicht aan een touwtje, of het lanceren van een ruimtesonde betrof, kon je dus allemaal 'doorrekenen' op een analoge computer.
De digitale-computerelectronica, opgebouwd uit 'logische' schakelingen die onderling niet continue maar discrete (laag/hoog of 0/1) signalen uitwisselen, vond al spoedig zijn weg in heel veel toepassingen buiten de computer, en werd 'digitale electronica' genoemd. De analoge computer is in de jaren '70 in onbruik geraakt, maar de er in toegepaste traditionele, op continue veranderlijke signalen gebaseerde electronica bleef bestaan (audio, radio, tv), en die werd in het vervolg als 'analoge electronica' aangeduid.
Helaas heeft het woord 'analoog' daarmee de onterechte betekenis van 'niet-digitaal' gekregen, en vandaar nu ook de term 'analoge fotografie'.
Ik vind dat je niet over analoge fotografie moet spreken, maar over Daguerre- (of Niepce- of voor mijn part chemische) fotografie. En ik zou niet zo gauw kunnen verzinnen waarvan die een analogon is.
Werkend antiek
15 januari 2011
In de krant¹ ging het onlangs onder de kop 'Een erfgoed redden van de soldeerbout' over de vraag of je historische computers in werkbare toestand mag houden, net als (sommige) stoomlocomotieven. Er wordt gesuggereerd dat dit alleen kan door er - ten koste van de authenticiteit - 'met een soldeerbout in te gaan wroeten'. Men spreekt in dit verband ook wel van 'onherstelbaar vernieuwen'.
Nu zijn er zeker 'onherstelbaar-vernieuwers' onder de verzamelaars van oude apparatuur. Vooral antieke radio's moeten er vaak aan geloven. Maar waar het museale collecties betreft - van radio's, stoomlocomotieven of computers - gaat men anders te werk.
De authenticiteit van een computer gaat zeker niet verloren als het onderhoud plaats vindt met dezelfde technieken (waaronder het gebruik van de soldeerbout!) en dezelfde onderdelen, en aan de hand van dezelfde documentatie als in de tijd dat hij nog gewoon door een onderhoudstechnicus in bedrijf werd gehouden. Als het gaat om een niet meer op deze manier in stand te houden machine kiest men óf voor 'mummificering' (maar dan werkt het echt niet meer), óf voor complete reconstructie, waarbij de look-and-feel van het origineel wordt hersteld zonder de claim dat het geheel authentiek is.
De grens van levensvatbaarheid is bereikt als je essentiële onderdelen moet gaan vervangen door moderner materiaal (zoals germaniumtransistors door siliciumtransistors), waarmee het geheel op zijn best een bruikbare reconstructie zou worden, en op zijn slechtst een knutsel zonder historische waarde.
Natuurlijk moet je je afvragen waarom je überhaupt een oude computer (of een replica er van) in werkbare toestand zou willen houden.
Er zijn tenminste drie redenen voor: je kunt zo'n apparaat nuttig gebruiken, bijvoorbeeld om er antieke programma's op te 'draaien' of om er al lang uit de mode geraakte informatiedragers zoals ponskaarten mee te kunnen lezen; om de apparaten op een aantrekkelijke manier, namelijk in werkende toestand, aan het publiek te kunnen presenteren; en last but not least omdat computers, net als stoomlocomotieven, beter bewaard blijven als ze af en toe tot leven worden gebracht.
¹ Volkskrant 8/1/2011, Wetenschapsbijlage.
Illustratie: werkende EAI680 analoge computer.
Perpetuum Mobile
22 december 2010
Dit is een motor-generator: de electromotor links drijft een dynamo (rechts) aan, die op zijn beurt electriciteit produceert, in de praktijk meestal van een andere stroomsoort (gelijkspanning ipv wisselspanning). De onlangs toevallig gevonden foto¹ deed mij denken aan mijn uitvinding van het perpetuum mobile toen ik een jaar of tien was. Stel dat de dynamo ook wisselspanning produceert. Verbind dan de dynamo electrisch met de motor, die daardoor van stroom voorzien wordt. De motor drijft dan weer mechanisch de dynamo aan waardoor het systeem, eenmaal op gang gebracht, blijft draaien tot de jongste dag. Al gauw begreep ik dat je dan net zo goed alles weg kunt laten behalve de beide assen, die je tot een enkele as kunt samenvoegen. De linkerhelft van die as drijft de rechterhelft aan en omgekeerd: klaar is kees. Dat dit in de praktijk niet klopt wist ik toen al uit ervaring. Pas later leerde ik dat zo'n perpetuum mobile niet per se in strijd is met de natuurkunde. Maar in de praktijk wordt altijd roet in het eten gegooid door wrijving (vooral in de onvermijdelijke aslagers), laat staan dat je de as zou kunnen gebruiken om er een extern apparaat mee aan te drijven.
¹ Website 'Herplaatsingsdatabase'
Geen OCR alstublieft
22 december 2010
Ik zocht op het net een 19de-eeuwse tekst (Kempe: Handbook of electrical testing, 1887). Deze blijkt voorhanden te zijn in 'facsimile' formaat, dus gescande beelden van het origineel verpakt in een pdf. Maar ook in de vorm van een tekstbestand dat verkregen is door middel van Optical Character Recognition (OCR), losgelaten op het gescande origineel. In deze vorm wordt het boek zelfs commercieel aangeboden! Dat dit heel vreemd is blijkt als je de originele tekst (linker plaatje) vergelijkt met wat OCR er van maakt (rechter plaatje). Helaas staat dit voorbeeld niet op zichzelf: er zijn hele websites mee gevuld. Het voordeel van OCR is natuurlijk dat het eindresultaat veel minder opslagruimte nodig heeft, en dat de tekst ook door een zoekmachine bekeken kan worden. Maar het is alleen zinvol als er geen informatie verloren gaat. OCR bestaat al heel lang, maar men is er nog steeds niet in geslaagd om het bruikbaar te maken voor het interpreteren van antiek en/of beschadigd drukwerk, van wiskundige formules en van lopend schrift.
Flagrante miskopen (1)
22 december 2010
In juli 2009 heb ik bij een een grote boekwinkel in Amsterdam een Iliad e-reader aangeschaft voor €599 (daar koop je nu een iPad-plus voor!). Na enkele maanden spaarzaam gebruik van het apparaat bleken er op het scherm storende verticale strepen te ontstaan. Al googlend merkte ik dat ik lang niet de enige was met dit probleem. Op aanraden van de winkel heb ik zelf contact opgenomen met de fabrikant, Irex Technologies. Met deze firma ontstond een eindeloze uitwisseling van emails (in het engels), waarin ik moest uitleggen wat ik precies met de Iliad had gedaan, toegelicht met foto's. Het advies van de winkel om dit zelf aan te pakken was dus niet zo gek! Gelukkig oordeelde Irex dat het probleem door de garantie werd gedekt. Ik heb de Iliad opgestuurd en kreeg hem weken later zonder strepen terug. Maar niet lang daarna waren ze er weer, nu zo ernstig dat het apparaat in feite onbruikbaar was geworden - zie bovenstaand plaatje. Toen ik weer mijn beklag bij de winkel deed, werd mij door een medewerker te verstaan gegeven dat de winkel zich niet verantwoordelijk acht. Problemen met het scherm - toch niet het minst belangrijke onderdeel van een e-reader - zouden volgens hem niet eens onder de garantie vallen, ook niet bij e-readers van andere fabrikaten(!). Ik moest maar voor lief nemen dat ik met de aanschaf van de Iliad een stukje pionierswerk had gedaan, met alle risico's van dien. Op emails en aangetekende brieven naar het hoofdkantoor van de boekwinkelketen werd niet gereageerd. Volgens de Consumentenbond moet ik de koop alsnog ongedaan kunnen maken; maar aan zo'n advies heb je weinig als de leverancier niet thuis geeft. Een interessante bijkomstigheid: Irex is ondertussen failliet gegaan.