Transkribus bringer liv til gamle tiders håndskrifter

I foråret blev Retro-projektet interviewet af Mads Kyvsgaard Mogensen fra Sammenslutningen af Lokalarkiver til en artikel i medlemsbladet OmSLAget. Denne artikel har vi fået lov til at bringe her, men læs den også gerne i oprindelige format, hvor artiklen kan findes på side 15 og fremefter.

Transkribus bringer liv til gamle tiders håndskrifter

Aarhus Stadsarkiv har siden 2017 arbejdet med projektet Retro, hvor kommunernes gamle sogneråds- og købstadsprotokoller digitaliseres og gøres søgbare gennem tekstgenkendelse og crowdsourcing

Af Mads Kyvsgaard Mogensen, SLA’s sekretariat

 

I de seneste år har retrodigitalisering været en af de største arbejdsopgaver for de danske arkiver. Det har betydet, at der i dag er langt større tilgængelighed til vores fælles historie, hvor man nu til dags kan finde og læse oprindelige kilder på internettet. Retrodigitalisering er imidlertid mere end blot at sørge for at scanne og uploade dokumenter eller billeder. Arkivarer arbejder hårdt på også at sørge for, at man kan søge ned i det digitaliserede materiale, da en scanning i sig selv ikke er søgbar. OCR-scanning har vist sig at være effektivt til at gøre maskinskrevne kilder søgbare, men den nuværende OCR-teknologi virker ikke på håndskrift.
Digitalisering af håndskrift har før i tiden krævet, at personer sidder og transskriberer håndskrevne sider, én for én, og for eksempel indtaster dette i et Word-dokument. Det er en tidskrævende proces, som både kræver mange ressourcer og koncentrerede indsatser fra arkivernes medarbejdere og frivillige. Uden transskribering er det vanskeligt at søge i de håndskrevne dokumenter, ligesom det kan være en kamp bare at læse indholdet grundet knudret skråskrift. Der er imidlertid hjælp på vej.
Aarhus Stadsarkiv har gennem projektet Retro arbejdet systematisk med programmet Transkribus, som er et transskriberingsprogram, der gennem maskinlæring kan lære at læse og transskribere håndskrift. Retro omfatter i dag ti danske arkiver rundt omkring i landet, som alle sammen anvender Transkribus til at digitalisere sogneråds- og købstadsprotokoller fra de gamle sognekommuner.

Hvordan fungerer Transkribus?

Transkribus er udviklet ved universitetet i Innsbruck med støtte fra EU-projektet READ. READ har til formål at gøre dele af Europas skriftlige kulturarv tilgængelig for offentligheden gennem digitalisering. Transkribus er et transskriberingsprogram, der ved hjælp af maskinlæring kan genkende forskellige typer af håndskrift. Formålet med at anvende programmet er at automatisere transskriberingsprocessen, så det på sigt ikke længere vil være nødvendigt at afkode og indtaste afskrifter af gamle håndskrevne dokumenter.
På Aarhus Stadsarkiv har man gennem Retro anvendt Transkribus siden 2017, og arkivar og projektansvarlig Kristian Pindstrup kan give en nærmere beskrivelse af, hvordan teknologien faktisk fungerer:
”Transkribus har på sin vis to funktioner. Det kan blot bruges som et transskriberingsprogram, hvor man lægger digitaliserede dokumenter ind, ”segmenterer” eller markerer de enkelte tekstelementer i dokumentet og transskriberer dem manuelt. Men Transkribus kan også bruges til forskellige former for tekstgenkendelse, som vi blandt andet kender det med OCR (Optical Character Recognition) til transskribering af nyere trykskrift, og OCR er faktisk også indbygget i Transkribus igennem Abbyy FineReader. Men det særligt interessante er HTR (Handwritten Text Recognition), som gør det muligt at automatisere transskriberingen af håndskrift.
HTR fungerer ved hjælp af maskinlæring, hvor man skaber nogle genkendelsesmodeller på baggrund af allerede transskriberet materiale. Overordnet findes der to slags modeller. Hvis man har en stor mængde ensartet materiale, f.eks. breve fra den samme forfatter eller lignende, kan man med forholdsvis lidt transskriberet materiale skabe en specialiseret model, der er god til at genkende den specifikke håndskrift. Den type modeller kan også bruges til materiale med ældre trykskrift såsom fraktur eller gotisk, hvor OCR ofte kommer til kort.
Hvis man derimod har meget forskelligt materiale, som det er tilfældet med sognerådsprotokoller, kræver det en stor mængde transskriberet materiale fra forskellige forfattere, før man har en brugbar universel model.”
Transkribus kræver en aktiv indsats med manuel transskribering, før man kan komme i gang med det automatiske arbejde. Derfor har de deltagende arkiver i Retro-samarbejdet også tilknyttet en stor mængde af frivillige, som hjælper med det umiddelbare indtastningsarbejde. For hver indtastning bliver programmets modeller lidt bedre til automatisk at genkende håndskriften. På Aarhus Stadsarkiv kan man allerede se, at modellerne begynder at give resultater.

Sognerådsprotokoller og aarhusianske vejvisere

Man har i Retro-projektet primært beskæftiget sig med at digitalisere og transskribere sogneråds- og købstadsprotokoller, der stammer fra slutningen af 1800-tallet og frem til omkring midten af 1900-tallet. Aarhus Stadsarkiv er dog også gået i gang med at arbejde med sogneforstanderprotokoller, som stammer helt tilbage fra 1842. Materiale som sognerådsprotokoller er nemlig meget velegnet til at træne de generelle genkendelsesmodeller, da materialet stammer fra mange forskellige geografiske områder, og man får derfor mange forskellige eksempler på håndskrift. I processen har man dog været klar over, at der ofte vil være en lille fejlprocent, som der skal tages højde for. Kristian Pindstrup forklarer:
”Det har krævet en forholdsvis stor mængde materiale, før vi har kunnet skabe en genkendelsesmodel, der har været præcis nok til at kunne anvendes efter hensigten. Det har primært været på baggrund af materiale fra Aarhus, Faxe og Det Kongelige Bibliotek, og det dækker en periode, der går fra slutningen af 1800-tallet til midten af 1900-tallet. Den er stadig stærkest på materiale, der minder om det, der har været grundlaget for modellen, hvor den har en fejlrate på omkring 5%, hvilket næsten er så præcist, som det kan blive for universelle modeller. For andet materiale er fejlraten noget højere, så der er stadig grundlag for at træne modellen yderligere med mere forskelligartet materiale.”
Et af de primære succeskriterier for brugen af Transkribus i Retro-projektet er, at man får mulighed for at få så meget materiale scannet ind som muligt. Samtidig står det også klart, at de forskellige modeller kan have svært ved at arbejde med materiale, som modellen ikke har set før. Det er derfor nødvendigt at arbejde med flere forskellige modeller til forskellige typer af materialer, men det har ikke afholdt Aarhus Stadsarkiv for at anvende Transkribus i andre kontekster.
”Ved siden af vores primære arbejde med sognerådsprotokollerne i Retro-regi har vi også benyttet Transkribus til at bearbejde de aarhusianske vejvisere fra 1800-tallet, som er sat med gotisk trykskrift. Med sådan et materiale skulle der kun transskriberes omkring 50 sider manuelt, før vi havde en model med en fejlrate på omkring 5%. Den kunne vi bruge som grundmodel til hurtigt at få transskriberet mere materiale, der blot skulle læses korrektur på, hvorefter vi kunne træne en ny model med en lavere fejlrate. Efter at have gjort det et par gange er fejlraten på vores model for gotisk trykskrift fra 1800-tallet på under 1%. Når vi har sikret os, at den også fungerer på andet materiale end vores vejvisere, vil den også blive gjort offentligt tilgængelig.”

Lokalarkiverne hjælper til

Retro-samarbejdet var i starten primært et samarbejde mellem flere stadsarkiver, hvor bl.a. Aarhus Stadsarkiv, Faxe Kommunes Arkiver, NæstvedArkiverne og Frederikshavn Stadsarkiv har leveret materiale og arbejdskraft til projektet. Det gode budskab om Transkribus er dog også begyndt at brede sig ud til de danske lokalarkiver, og her har Skanderborg Historiske Arkiv i samarbejde med lokalarkiverne i Galten, Ry, Hørning, Veng og Fruering-Vitved valgt at hjælpe med til at digitalisere og transskribere de gamle sognerådsprotokoller fra Skanderborg Kommune. Tovholder på projektet og arkivleder ved Skanderborg Historiske Arkiv, Martin Philipsen Mølgaard, ser et stort potentiale i arbejdet under Retro:
”Hos Skanderborg Historiske Arkiv så vi nogle gode muligheder i at få digitaliseret disse vigtige lokalhistoriske kilder. Sogneråds- og købstadsprotokollerne indeholder vigtig lokalhistorisk viden, da alle store og små beslutninger i lokalsamfundene blev indført i disse protokoller. At få dem gjort tilgængelige digitalt og letlæselige er derfor et stort skridt imod at få tilgængeliggjort denne vigtige historiske viden, som man måske ellers ikke ville have mulighed for at få adgang til, da de for Skanderborg Kommunes vedkommende ligger på Rigsarkivet i Viborg.”
Retro-projektet går således også ud over brugen af Transkribus, da det også i høj grad handler om at digitalisere og tilgængeliggøre originale kilder, som ellers ville være vanskelige at tilgå på grund af lokation. Lokalarkiverne får således muligheden for at gøre materiale fra de gamle kommunale konstruktioner tilgængeligt, som ellers ved lov har været placeret ved stadsarkiver eller Rigsarkivet.
Samtidig er arbejdet med Retro og Transkribus kompetenceopbyggende, da processen fra protokol til cyberspace kræver flere faser af forskelligartet arbejde. Martin Philipsen Mølgaard forklarer det således:
”Fra flere af arkiverne har frivillige meldt sig til at tage til Viborg en gang om ugen for at affotografere de originale protokoller, der dermed kan danne grundlaget for den videre proces med at transskribere protokollerne i Transkribus.
Efter en kort oplæring i, hvordan man benytter fotostationerne og udstyret er de frivillige klar til at gå i gang med at få affotograferet hver eneste protokol. Det er et tidskrævende arbejde, da det drejer sig om en stor mængde protokoller, hvor hver side nøje skal affotograferes. Herefter skal de efterbehandles digitalt af de frivillige, før de kan sendes retur til Rigsarkivet til godkendelse. Dette skyldes, at Rigsarkivet også benytter de digitale sider til at lægge på deres egen side til glæde for borgere i hele landet.”

Vil man selv i gang med Transkribus?

Som det ser ud lige nu, er der intet til hinder for, at man selv kan gå i gang med at nørkle med Transkribus på sit arkiv. Softwaren er indtil videre gratis, om end det lakker mod enden, da en betalingsstruktur er varslet, og Aarhus Stadsarkiv har offentliggjort en række af de modeller, som er lavet i løbet af Retro-projektet, som kan anvendes uden nogen afregning. Det vil dog være en fordel, at flere arkiver går sammen om et samlet projekt, hvis man vil lave noget mere seriøst med Transkribus. Det er ressourcetungt arbejde, som kræver lidt oplæring og meget tid, og samtidig vil større projekter også kunne medvirke til, at endnu flere samlinger digitaliseres og gøres let tilgængelige online.
Hvis man er interesseret i at høre og lære mere om Transkribus, kan man læse videre om softwaren og generelt om Projekt Retrowww.retrodigitalisering.dk, hvor man også kan finde vejledninger til brugen af Transkribus. Alternativt kan man skrive en mail til Aarhus Stadsarkiv på stadsarkiv@aarhus.dk eller spørge ind til projektet på kontakt@retrodigitalisering.dk.

Skriv kommentar