onsdag 4 mars 2015

Kulturarvets texter och språkteknologi

Igår tillbringade jag en heldag på Riksarkivet där Digisam anordnade ett seminarium om kulturarvets texter. Digitalisering, licensiering och användning av dessa texter togs upp för diskussion.

Vi tillhör en av de institutioner som har samlingarna på vår sida när det kommer till digitalisering och spridning av textmaterial. Våra boksamlingar, och också en stor del av till exempel arkivet på Hallwylska museet, är inte längre skyddade av upphovsrättslagen tack vare texternas ålder. På seminariet diskuterades annars hur institutionerna kan förhålla sig till eventuellt upphovsrättsligt skyddat material, vad man kan och vad man inte kan sprida, skillnaden på skönlitterär text och text utan verkshöjd - till exempel rena uppradade faktauppgifter - som aldrig kan vara upphovsrättsskyddad.

Det allra mest intressanta, som också är helt ny kunskap för mig, är den faktiska innebörden av språkteknologi och hur man rent praktiskt kan använda det. Visst har jag i lite olika sammanhang stött på begrepp som språkteknologi och datalingvistik, men jag har aldrig satt mig in i hur framstegen på de områdena skulle kunna appliceras på våra och andra institutioners samlingar. Men om man väl börjar tänka i de banorna så blir det svårt att släppa tanken!

Tänk dig att du ska skriva en uppsats om kvinnor och deras yrken i 1800-talets skönlitteratur. Ja, då gör du kanske ett urval på ett antal böcker från 1800-talet som kan tänkas vara lämpliga och där yrkesarbetande kvinnor omnämns, och så läser du böckerna, jämför dem och drar dina slutsatser.
Tänk dig att du istället har ett datorprogram som lärt sig alla personnamn av kvinnotyp, samt alla yrken, och att du har tillgång till enorma mängder digitaliserad text från 1800-talet i vilken du kan göra en kombinerad sökning på alla kvinnonamn och alla yrken. Tanken svindlar på vad för resultat och nya ingångar du skulle kunna få!

Så låt oss nu bara digitalisera alla textresurser vi har i våra samlingar till maskinläsbart format och lägga ut filerna för nedladdning, så är famtidens humanioraforskning snart här.

I Skoklosters slotts boksamling finns 19 000 volymer som väntar och längtar efter att bli digitaliserade

Läs mer om SWE-CLARIN, ett projekt som siktar mot att skapa en infrastrukur på nätet för att tillgängliggöra digitaliserade textresurser och verktyg för att språkteknologiskt undersöka dessa resurser.

Observera att jag inte är tillräckligt insatt i området språkteknologi för att uttala mig annat än som intresserad amatör. Har du fler ingångar till ämnet eller en annan syn på användningen av språkteknologi - diskutera i kommentarsfältet!

// Linnéa


Inga kommentarer:

Skicka en kommentar