Ny håndskriftsmodel – hvad er potentialet?

Af Kristian Pindstrup

I løbet af foråret har vi skabt en ny håndskriftsmodel, Danish 1870-1950 v3.5. Den består af materiale fra Aarhus, Faxe, Næstved, Gentofte samt materiale fra en ældre model, som det Kongelige Bibliotek har skabt. De foreløbige resultater har vist sig så gode, at vi har valgt at gøre den offentligt tilgængelig, således alle Transkribus-brugere kan gøre brug af den. Datagrundlaget er dog ikke offentliggjort, da den indeholder materiale, der er yngre end 75 år.

Det er altid lidt svært at forklare, hvad en model egentlig kan i praksis, men målet er, at alt dette arbejde, vi hidtil har lagt i projekt Retro, gerne skulle lette arbejdsbyrden i fremtiden. I arbejdet med Transkribus består opgaverne typisk af tre ting: segmentering, transskribering og korrekturlæsning. Segmenteringen og transskriberingen er de mest tidskrævende, hvor korrekturlæsningen blot er for at sikre, at materialet er blevet bearbejdet godt nok i de to første opgaver. Men hvad hvis det bliver muligt at nedbringe tiden for transskriberingen og måske endda også segmenteringen, således korrekturlæsningen bliver det mest tidskrævende? Vi har undersøgt, hvorvidt det er muligt med den nuværende model.

Danish 1870-1950 v.3.5

Kigger man på de tørre tal er modellen egentlig ikke så prangende. Med en fejlrate over 5% er den på papiret faktisk mere upræcis end tidligere modeller, vi har lavet. Dens styrke skal i stedet findes i det relativt store og forskelligartede materiale, som har dannet grundlaget for modellen, hvor der ikke blot er tale om en tidsmæssig spredning, men også en geografisk spredning. Dette skulle øge modellens evne til at genkende forskellige typer af håndskrift og forbedre modellens ordforråd, så den også kan genkende eventuelle lokale sproglige variationer. Dermed skulle den også blive bedre til at genkende materiale, den aldrig har set før.

Den type materiale er der rigeligt af, for det er alle de protokoller, der endnu ikke er transskriberet. For at teste modellens brugbarhed til at bearbejde ukendt materiale, tog vi fat i en række protokoller fra Grenå Egnsarkiv, som har scannet protokollerne fra Norddjurs kommune. Grenå Egnsarkiv er med i et underprojekt til Retro sammen med Aarhus Stadsarkiv og Skanderborg Historiske Arkiv, der hedder Demokratiets Rødder. Målet med projektet er, at sognerådsmaterialet fra Grenå og Skanderborg ikke blot skal digitaliseres, men også transskriberes og processeres så vidt muligt maskinelt.

Ålsø-Hoed 1928-1959

Protokollen fra Ålsø-Hoed var den første, der blev eksperimenteret på. Den består af omkring 290 sider, og for Transkribus tog det 2 timer og 15 minutter at bearbejde det hele maskinelt. For modellen har den også været ideel at teste på, for tidsmæssigt placerer den sig i det område, hvor modellen burde være stærkest datamæssigt, og indholdsmæssigt er den bygget op på en måde, det er nemt at forholde sig til maskinelt. Strukturmæssigt følger protokollens fortælling en vertikal struktur, hvilket er nemmere at bearbejde end en kolonnestruktur, som ofte ses i yngre protokoller, der udvikler sig horisontalt mellem sag og afgørelse.

Som man kan se i det transskriberede område, er indholdet ikke perfekt. Men det væsentligste er, at det er læsbart. Det betyder, at modellen har formået med forholdsvist få fejl at genkende et materiale, som den aldrig har set før. Selvom der kun vises et lille udsnit af protokollen, er eksemplet repræsentativt for, hvordan modellen har klaret sig på de resterende sider i protokollen.

Senere eksperimenter på Alsø-Vejlby 1959-1963 og Ålsø-Hoed 1907-1928 tyder også på, at det ikke blot var rent held, at resultatet blev læsbart, men at modellen og Transkribus’ håndskriftsgenkendelse efterhånden er så moden, at det er muligt at genkende håndskriftsmateriale fra 1900-tallet med en væsentlig konsistens.

Hvad med segmenteringen?

Den erfarne Transkribus-bruger vil sandsynligvis lægge mærke til, at segmenteringen ser lidt spøjs ud. Dels er tallene i venstre side ikke en del af den primære tekstregion, hvilket gør linjerækkefølgen mærkelig og inkonsistent. Dels har den opmærket enkelte dele i højre side, som egentlig er næste side i protokollen og som derfor ikke skal tages med. I dette tilfælde er fejlene dog så små, at det ikke vil tage ret lang tid at rette fejlene og fjerne de overflødige opmærkninger. Dette vil man under alle omstændigheder skulle holde øje med i den normale korrekturlæsningsproces. Har man protokoller med tilsvarende vertikale struktur, vil man efter alt at dømme få resultater, der minder om dette.

I tilfældet med Ålsø-Vejlby 1959-1963, som det desværre ikke er muligt at vise eksempler fra, er segmenteringen mindre ideel. Denne protokol er netop inddelt i kolonner, som maskinen ikke kan finde ud af – nogle gange laver den én stor tekstregion, andre gange inddeler den i to kolonner. Men den vil aldrig inddele efter vores standard til den type protokoller, hvor hver sag og hver afgørelse er en tekstregion for sig, så man bibeholder den narrative struktur i dokumentet.

Hvad er potentialet?

Ovenstående gennemgang viser, at der på nogle punkter er mulighed for at lade maskinen gøre størstedelen af arbejdet med den nuværende genkendelsesmodel. Den vil have sin styrke i materiale fra første halvdel af 1900-tallet og vil sandsynligvis være præcis nok til også at kunne genkende skrift fra 1870’erne og fremefter med tilstrækkelig læsbarhed. Før 1870, hvor protokollerne typisk er skrevet med gotisk håndskrift, vil modellen efter alt at dømme ikke klare sig ret godt. Strukturelt vil den også fungere tilstrækkeligt godt på protokoller med en vertikal narrativ struktur til at det ikke er nødvendigt at segmentere først.

Protokoller med en kolonneopdelt struktur vil fortsat have stor gavn af at blive segmenteret først, hvis det skal leve op til de standarder, vi normalvis sætter for transskriberede protokoller. Har man begrænsede ressourcer og stiller man andre kvalitetskrav til sit materiale, er det dog fortsat muligt at lade maskinen gøre størstedelen af arbejdet. For når man eksporterer fra Transkribus til pdf, er læserækkefølgen i et dokument ikke af største betydning – den vil først og fremmest lægge vægt på linjernes placering i dokumentet, som maskinen ofte rammer rigtigt. Man får derfor stadig et søgbart og læsbart dokument. Med korrekturlæsning og eventuel tilpasning af segmenteringen, så overflødige opmærkninger og de værste segmenteringsproblemer rettes, vil man i pdf-eksporten have svært ved at skelne det fra de transskriberede protokoller, vi ellers lægger op på hjemmesiden. Der opstår til gengæld problemer, hvis man i fremtiden vil bruge dem til automatisk oplæsning, og det er ikke til at sige, om andre teknologier i fremtiden vil være afhængige af den korrekte narrative struktur. Det mest fremtidssikre er derfor, at man fortsat lægger kræfter i at segmentere korrekt, hvorfor det fortsat er vores opfordring. Men kan man som arkiv eller bruger godt leve med, at resultatet ikke er perfekt, så kan Transkribus skabe et brugbart resultat.

1 Comments
Skriv kommentar
*
*