Af Jan Mattias Jonsson Agger

Har du svært ved at læse håndskrifterne der skal bruges til din opgave eller dit slægtsforskningsprojekt? Eller har du en trykt historisk tekst som du gerne vil gøre søgbar? Så kan hjælpen være på vej!

Som nævnt i det seneste blogindlæg har projekt Retro arbejdet med transskriberingsværktøjet Transkribus og lavet tests med dennes ”Handwritten Text Recognition”.

Med de positive resultater må det oplagte næste skridt være at se på mulighederne for at benytte funktionen.

Den mest oplagte brug er selvfølgelig at lade modellen stå for transskriberingen af en protokol. Resultatet kan give en god fornemmelse, men kræver korrekturlæsning for at være helt rigtig. Dermed gør det processen væsentligt hurtigere, da computeren transskriberer 50 sider hurtigere end de fleste mennesker kan transskribere én. Dertil anbefales det også at læse korrektur på menneskeligt transskriberede tekster der skal online eller bruges til træning af fremtidige modeller.

Når man først har korrekturlæst nogle sider fra en protokol, kan disse bruges til at styrke læsningen af den omfattede protokol ved at lade modellen træne med siderne. Det anbefales, at bruge mindst 50, men en effekt kan også ses ved færre.
tHerunder ses sammenligningen for side 51 af Borum-Lyngby 1919-1930, hvor de første 50 sider er indgået i en model med samtlige korrekturlæste protokoller til og med 1944.

En anden måde at bruge modellen er i korrekturlæsningen. Ved at sammenligne den oprindelige menneskeligt transskriberede side med computerens, kan det primære fokus for korrekturlæsningen ligge på uoverensstemmelserne mellem de to. Dog kan man stadig risikere, at både computer og menneske har læst forkert, hvorfor det stadig anbefales også at holde øje med mulige fejl hvor der er enighed.

Til sidst kan det tilføjes, at HTR (trods navnet) ikke kun kan bruges til håndskrift. Ved at lade computeren træne med en mindre mængde transskriberede trykte sider er den også i stand til at transskribere disse, sågar med en endnu lavere fejlprocent. Dermed skal du bare markere tekstlinjerne, hvorefter teksterne hurtigt kan blive søgbare.

En dansk vejledning til træning og brug af modeller er under udarbejdelse og vil være at finde på hjemmesiden når den er færdig.

Skriv kommentar