Testresultater: Maskinlæsning er på vej

Af Jan Mattias Jonsson Agger

På samme tid som arkiver og frivillige gør et stort stykke arbejde for at digitalisere og transskribere protokoller, foretages et stykke arbejde, der i fremtiden kan være med til at gøre håndskrevne kilder mere tilgængelige. De transskriberede sider hjælper nemlig også med til at gøre studier af håndskrevne kilder mere overskuelige i fremtiden.

Transskriberingen i Projekt Retro foregår primært i programmet Transkribus, der ikke blot er et fint transskriberingsprogram. Programmet er også en del af det EU-støttede projekt READ, der blandt andet arbejder med at lære computerteknologi at genkende historisk håndskrift ved brug af såkaldt ”Handwritten Text Recognition” (HTR).

En frivillig for Faxe Kommunes Arkiver viste allerede i foråret 2018, at computeren kunne lære at læse håndskrift fra én pennefører med lige under 5 % fejl, mens Aarhus Stadsarkivs første forsøg med mere varierende håndskrifter gav en fejlrate på det dobbelte. Sidenhen er programmets håndskriftslæsning blevet både hurtigere og bedre. Det viser det seneste resultat fra Aarhus, hvor computeren fik mulighed for at lære fra 1700 transskriberede sider fordelt på 9 forskellige protokoller over en knapt 90-årig periode startende i 1883. Der har således været tale om håndskrifter af både varierende skrifttype og kvalitet.

Efter at have trænet med sættet, transskriberede computeren siderne med en fejlrate lige over 4 %, hvilket vil sige, at godt 95 af 100 tegn bliver læst rigtigt.

Fremskridtene ses ikke kun på de protokoller, der er benyttet til at ”træne”. Man kan for eksempel se på denne korrekturlæste side fra Borum-Lyngby sammenlignet med computerens læsning af samme. Ved uoverensstemmelser er computerens læsning markeret med rødt og den korrekturlæste med grøn:

Selvom der endnu er problemer med visse bogstaver (som l og t eller g og j) viser dette en model, der er ganske tæt på det korrekturlæste. Dermed kan man begynde at bruge denne HTR-model på protokoller, der minder om dem, der er trænet med. Derimod kræver for eksempel gotisk håndskrift, at en separat model laves

Grundet persondata er denne model kun til intern benyttelse, men inden længe vil der være nok materiale til en model til latinsk håndskrift, der kan deles jf. arkivloven.

Læs om det tidligere forsøg fra Faxe Stadsarkiv her (engelsk)

4 thoughts on “Testresultater: Maskinlæsning er på vej”
  • Benjamin Asmussen says:

    Spændende, tak! Det kunne være interessant at se originalsiden, som systemet har læst…

    22. oktober 2019 at 20:30
    • Jan Mattias Jonsson Agger says:

      Tak for kommentaren. Det er side 18 af denne protokol: https://www.retrodigitalisering.dk/indeks/aarhus-kommune/borum-lyngby-sogneraad/borum-lyngby-1919-1930/

      23. oktober 2019 at 8:44
      • Benjamin Asmussen says:

        Mange tak! Dejligt at vide at der er så gode fremskridt med at læse en tydelig skråskrift – et vigtigt skridt mod en dag måske kunne genkende gotisk skrift også.

        23. oktober 2019 at 10:12
    • Jan Mattias Jonsson Agger says:

      Det er klart et mål også at kunne lave en model der kan læse gotisk, men til det har vi endnu ikke nok transskriberet materiale i Aarhus. Det norske rigsarkiv har ret godt gang i noget med næsten lige så lav fejlrate, så det er ikke nødvendigvis så langt væk.

      23. oktober 2019 at 10:57
Skriv et svar til Jan Mattias Jonsson Agger Annuller svar