Status for Retro og dannelsen af danske håndskriftsmodeller

Af Kristian Pindstrup

I 2020 er det 50 år siden, at kommunalreformen af 1970 blev indført, og en af målsætningerne med Retro er at markere dette ved at gøre by- og sognerådsprotokoller tilgængelige igennem digitalisering. I den anledning bringer vi et par bemærkninger om, hvordan det står til med projektet.

I det forgangne år er der kommet flere scannede protokoller til, så vi har rundet 500 protokoller på hjemmesiden. Det skyldes dels, at vi flyttede tilgængelighedsgrænsen fra 85 til 75 år for scannet materiale, så vi også har fået materiale op til besættelsestiden med, dels fordi der er kommet flere arkiver med i projektet, som har tilføjet deres materiale til den offentlige samling. Det materiale vil fortsat fylde en stor del af projektets synlige aktivitet, efterhånden som flere protokoller bliver digitaliseret af de deltagende arkiver.

Indtil videre har vi gjort 10 transskriberede protokoller tilgængelige på hjemmesiden, hvilket ikke lyder af så meget, når man ser på antallet af digitaliserede protokoller. Men det afspejler ikke det store arbejde, som de mange frivillige kræfter i projektet har lavet indtil videre. Blot i Aarhus rundede vi 10.000 transskriberede sider i november, og siden er der yderligere kommet 2.000 sider til. Når det materiale ikke ligger på hjemmesiden, skyldes det enten, at det endnu ikke er blevet korrekturlæst, at en hel protokol ikke er blevet transskriberet fra ende til anden, eller at protokollen er yngre end de 85 år, vi fortsat fastholder for transskriberet materiale.

Alt korrekturlæst materiale bliver dog anvendt til at skabe nye genkendelsesmodeller, der kan øge hastigheden på processen. I løbet af 2019 har Transkribus modtaget en række opdateringer, der har gjort det nemmere og hurtigere at skabe nye og mere præcise genkendelsesmodeller end tidligere, som tilmed er blevet nemmere at dele med andre brugere af Transkribus. Derfor kunne vi tage skridtet videre fra blot at eksperimentere med modeller til intern brug, da Aarhus Stadsarkiv i november kunne offentliggøre en generel model til genkendelse af dansk håndskrift fra 1870-1950, som er baseret på det aarhusianske sognerådsmateriale og materiale fra Det Kongelige Bibliotek. Selvom der fortsat er plads til forbedring, og der fortsat mangler nok transskriberet materiale til at bearbejde mængden af gotisk håndskrift fra de tidlige sognerådsprotokoller, er modellen ved at være der, hvor man i mange tilfælde kan springe transskriberingsprocessen over og hoppe direkte til korrekturlæsningen, så offentliggørelse af protokollerne kan få en højere prioritet.

Jo længere vi kommer frem i processen, des mere kan vi tilføje som materiale til modellen, så den kan anvendes til flere typer materiale. Det byder også på flere eksperimenter med, hvor effektive modellerne er, og de erfaringer vil vi også løbende skrive om. Mens vi ikke publicerer modeller og gør dem tilgængelige for alle Transkribus-brugere, før de er tilstrækkeligt forbedret i forhold til tidligere publicerede modeller, kan man få adgang til nyere testmodeller, hvis de er trænet på materiale, der er ældre end 75 år. Man skal blot rette henvendelse til projektkoordinatoren ved Aarhus Stadsarkiv for at få adgang.

Vi går derfor ind i 2020 med fart på maskineriet, selvom meget af det spændende stadig foregår bag scenen.

Skriv kommentar