Digitaliseringsbloggen: december 2015

Nyligen har vi laddat upp 6416 nya bilder på Wikimedia Commons! Totalt finns nu ca 36 000 högupplösta bilder från Livrustkammaren, Skoklosters slott och Hallwylska museet på Wikimedia Commons.

Detta är tredje gången vi levererar en större mängd bilder till Wikimedia och vår avsikt är att fortsätta med detta kontinuerligt – någon/några gånger per år. Varje år producerar våra fotografer ett antal tusen bilder, och av dessa är merparten bilder på föremål ur museisamlingarna – bilder som därmed kan laddas upp på Wikimedia.

Foto: Erik Lernestål, Skoklosters slott (CC BY-SA)

Det här inlägget är tänkt att i lite mer detalj beskriva hur detta uppladdningsarbete går till – dels som en möjlighet för den allmänintresserade att få lite inblick i bakomliggande arbete inom vår verksamhet, dels som tips och tricks till kollegor på andra museer och kulturarvsinstitutioner som kanske är på gång att ladda upp bilder, och som vill få lite konkreta exempel på de steg som kan ingå i arbetsprocessen.

Observera dock att detta inte är en strikt beskrivning för hur man ska gå tillväga, utan detta är en av flera möjliga vägar för att ladda upp större mängder bilder till Wikimedia Commons. Vidare är inte alla steg beskrivna i detalj (det skulle nog bli lite väl tråkig läsning...). Detta är helt enkelt en skildring av den metod vi tillämpat - en metod som fungerar väl för oss sett till den IT-struktur och de bilder vi har. Notera också att beskrivningen här fokuserar främst på de förberedande steg som vi gör innan bilderna kan laddas upp.

Vilken metod man väljer för att ladda upp på Wikimedia Commons styrs av flera faktorer, t ex:

Antalet bilder som ska laddas upp på en gång (rör det sig om ett mindre antal är det troligen enklare att använda de smidiga uppladdningsfunktionerna som finns färdiga på Wikimedia)
Informationsmängden runt varje bild – i vårt fall skickar vi med en ganska omfattande mängd metadata kring de avbildade föremålen
Teknisk kompetens och ekonomiska resurser

Bakgrund – vår första uppladdning

I samband med vår första uppladdning till Wikimedia Commons anlitade vi en utvecklare från Wikimedia Sverige för att hjälpa oss med att framställa en Wikimedia-mall för våra bilder – mallen används konsekvent för alla våra bilder så att de alla presenteras på ett likartat sätt. Utöver mallen behövde vi även hjälp med vissa tekniska steg för uppladdningen på Wikimedia (efter att vi själva hade förberett bilder och metadata).

Tillsammans med utvecklaren från Wikimedia Sverige diskuterade vi fram vad mallen borde innehålla, där besluten rörde vilken information vi ville få med från vår egen databas kring varje avbildat föremål samt bildspecifik metadata kring varje bild.

Utöver mallen skapade utvecklaren även ett antal script som användes dels för att rent tekniskt ladda upp bilderna på Wikimedia, dels skapa redskap för efterbearbetning av informationen kring bilderna.

Som ett led i uppladdningen behövde en stor mängd information om bilderna och de avbildade föremålen bearbetas för att passa in i Wikimedias informationsstruktur.

Innan bilderna kunde laddas upp slutgiltigt så ägnade vi ägnade en hel del tid åt att matcha nyckelord/sakord som bifogats bilderna med kategorier i Wikimedias kategoriträd. Vidare fick vi modifiera och korrigera filnamn på bilderna (de filnamn som bilderna tilldelas på Wikimedia Commons). Filnamnen genererades utifrån ett antal fält som vi exporterade ur databasen, men i många fall krävde filnamnen manuell justering för att få en konsekvent och fungerande struktur. Därutöver fick vi med scriptens hjälp matcha namn, historiska händelser, geografiska platser etc. mot Wikipedia-artiklar och kategorier på Wikimedia. Allt förberedelsearbete av det här slaget har vi gjort för att bilderna ska presenteras med så utförlig metadata som möjligt.

När arbetet med informationsbearbetningen var färdig så skedde den faktiska uppladdningen/publiceringen. I och med att vi laddade upp ca 20 000 högupplösta bilder – där vissa bilders filstorlek överstiger ett par hundra mb – valde vi att leverera allt material på en extern hårddisk till Wikimedias utvecklare, som i sin tur ordnade med den konkreta uppladdningen – en process som sedan tog ett antal dagar där dator och hårddisk stod på dygnet runt och laddade…

Efter den första uppladdningen till Wikimedia har vi använt samma metod två gånger, där script och förberedande steg har förfinats och justerats utifrån upptäckta brister och fel. Nu vid den aktuella uppladdningen har arbetet gått riktigt smidigt, och möjligheten att kunna återanvända tidigare matchningar av namn, nyckelord, platser etc. gör att efterbearbetningen på Wikimedia blir betydligt mindre omfattande än vid den första uppladdningen.

Att dela museernas bilder till hela världen via Wikimedia Commons är fantastiskt ur många avseenden. Man når ut till användare man troligtvis aldrig skulle ha kommit i kontakt med på annat sätt och man ökar räckvidden något enormt för att sprida kunskap om museisamlingarna. Ur ett internt perspektiv är det också väldigt givande att arbeta med Wikimedia-uppladdningar. Att exportera ut stora mängder data ur sina egna databaser för den här typen av ändamål gör att man plötsligt ser inkonsekvenser och små felaktigheter i informationen – felaktigheter som därmed kan förbättras. Informationsstrukturella brister kan annars i vissa fall vara svåra att upptäcka när man betraktar enskilda eller ett mindre antal objekt i sin databas.

Men för att återkomma till det detaljerade och rent konkreta – vad krävs av museet? Var ska man börja?

Det första steget handlar om att välja ut de bilder som ska laddas upp. I vårt fall handlar det om att välja ut bilder både bland äldre digitaliserat bildmaterial och bland nyproducerade bilder. Grundkriteriet för oss har då varit att det är bilder som visar våra museers samlingar, och att det är bilder som kan licensieras med Creative Commons-licenser, dvs. att det är bilder som vi har upphovsrätt till (eller där upphovsrätten slocknat) och som vi har rätt att lägga ut.

Tillvägagångssättet som här beskrivs bygger av förklarliga skäl på den befintliga IT-miljöstruktur som vi har i dagsläget, vissa av de detaljerade stegen kan således se helt olika ut för andra, men de beskrivna stegen nedan kan förhoppningsvis ändå vara intressanta och i någon mån hjälpa den som vill använda en liknande metod. Observera dock att nämna programvaror enbart är exempel på program vi använder, och nämns inte i syfte att göra reklam, utan för vår del – om man bortser från vår egen samlingsdatabas – hade vi lika gärna kunnat använda andra programvaror för samma resultat.

All hantering av data och bildfiler sker med kopior i lokal miljö, detta av två anledningar. För det första är det datamängden – att jobba med tusentals högupplösta .tif-bilder kräver mycket lagringsyta, och i dagsläget går det betydligt fortare (i vår IT-miljö) att hantera detta lokalt än i servermiljö. För det andra finns det även en säkerhetsaspekt kring detta – skulle det uppstå något stort misstag i de manuella förberedelsestegen riskerar man i alla fall inte databas eller bildfiler sin servermiljö.

Det museidatabassystem som vi använder heter MuseumPlus. Systemet baseras på en MS SQL-databas, och nästintill all hantering av databasen inom Wikimedia-arbetet sker direkt mot en lokal kopia utav SQL-databasen via Microsoft SQL Server Management Studio och HeidiSQL. MuseumPlus har i sitt gränssnitt vissa – dock begränsade – exportmöjligheter, men i det här arbetet har det varit betydligt effektivare att arbeta direkt mot SQL-databasen med egenhändigt konstruerade SQL-frågor.

Initiala steg i databasen:

Urval av bilder

(Urvalet av bilder som ska laddas upp görs med den här SQL-frågan)

Vilka bilder som ska väljas ut görs med en SQL-fråga som filtrerar databasens bildarkivtabell(er) med följande kriterier:

Bilden ska vara godkänd för publicering på internet – (ett manuellt val som görs i gränssnittet för databasen av de personer som registrerar och katalogiserar bilder)
Bilden ska vara licensierad i databasen
En korrekt högupplöst bildfil ska vara länkad till bildposten i databasen
Bilden ska vara kopplad till ett föremål i samlingarna
Bilden ska ingå i en av flera utvalda serier för Wikimedia-publicering – (vi laddar enbart upp högupplösta bilder av bättre kvalitet – vi har t.ex. en stor mängd identifikationsbilder i vår databas, men bilderna är av enkelt slag och håller ofta en väldigt låg upplösning.)

Det är i SQL Management Studio som sökningen efter bildfiler görs utifrån ovanstående kriterier och de utvalda bildernas filnamn kopieras till en .txt-fil. Textfilen med filnamn blir en förutsättning för nästa halvautomatiserade steg.

I urvalsprocessen ovan väljs bilder ur en inte helt enkel och konsekvent ordning eftersom det rör sig om en blandning av bilder ur olika serier och från olika källor (digitaliserade och digitalt födda). Urvalet kan utgöra ett stort antal bilder ur många olika mappar och undermappar varifrån bildfilerna ska kopieras inför uppladdning.

Kopiera bildfiler

För att slippa leta efter enskilda bildfiler bland tusentals filer och mappar, och därefter kopiera in i respektive fil/mapp används listan beskriven ovan till en mycket enkel – dock effektiv – filkopieringsmetod.

Med den enkla dos-kommandoraden for /f %f in (list.txt) do robocopy /e c:\källa d:\mål %f kopieras alla utvalda filer enligt listan från en källmapp med ett stort antal undermappar till en destination – kopieringen sker automatiskt samtidigt som källans mappstruktur bevaras i destinationsmappen. (Robocopy är ett fiffigt litet program som är integrerat i Windows, och som man enkelt når via dosprompten eller Powershell).

Poängen med att behålla mappstrukturerna är att uppladdningen – inom vår metod – baseras på de sökvägar som står angivna i databasen, d v s bilderna identifieras och laddas upp baserat på att de faktiska filerna finns att återfinna i en mappstruktur som motsvarar den som finns i databasen (detta är som sagt baserat på det uppladdningsscript som Wikimedias utvecklare byggt åt oss för vår IT-miljö). Att vidbehålla mappstrukturer och filnamn hänger också samman med länkar till de högupplösta bilder vi publicerar via eMuseumPlus samt K-Samsök.

Kontroll, kontroll, kontroll!

När de utvalda bilderna väl är överförda till en destinationsmapp påbörjas ett intensivt arbete med att kontrollera informationen i bildfilernas metadata samt informationen för de avbildade föremålen. Kontrollerna görs för att säkerställa – så gott det går – att rätt licens är angiven till bilden ifråga och att det verkligen är rätt föremålsbeskrivning som medföljer respektive bild, samt att all information är konsekvent strukturerad.

Korrekta licenser

Det första kontrollsteget består av att kontrollera bildfilernas licenser. Alla bildfiler som produceras och arkiveras hos oss märks med en av fyra möjliga licensmallar. Licensmallarna är manuellt framställda XML-dokument i XMP-format vilka importeras in i bildfilerna antingen via fotografernas bildbehandlingsprogramvaror, eller via metadataverktyget ExifTool. Licenser är angivna i flera olika metadatastandarder för att säkerställa att bildens licens tydligt framgår inom så många användningsområden som möjligt (helt enkelt att licensen ska synas i så många olika programvaror som möjligt).

Kontroll av bildfilernas licenser görs på flera olika sätt. Det första steget utgörs av att kontrollera att det faktiskt är rätt licens angiven i bildfilens metadata. Detta innebär konkret att man helt enkelt tittar på bildmotivet och den angiven licensen och kontrollerar att rätt licens är vald (detta kräver så klart vissa förkunskaper om de egna bildsamlingarna). Detta steg gör vi med programvaran Total Commander med plug-in-programmet Jpg comment.

(Kontroll av licens och att rätt föremål är länkat till respektive bild i Total Commander)

Hur vi licensierar våra bilder har vi skrivit om i ett tidigare inlägg.

Kontroll av länkat föremål

Utöver att kontrollera att det verkligen är rätt licens angiven till en bild så kontrollerar vi även att rätt föremål är kopplat till bilden. Detta steg förutsätter kunskaper om museisamlingarna, och det går inte alltid att identifiera exakta föremål med följande manuella metoder, men det går att identifiera uppenbara felaktigheter (t.ex. att bilden man ser visar en stol, medan föremålsbeskrivningen som bilden är kopplad till beskriver en torkad fisk (jo, vi har faktiskt ett par torkade fiskar i samlingarna…).

Tillvägagångssättet här kan så klart göras på flera olika sätt, en variant vore att skriva ut en lista på papper med bildnummer och en kort beskrivning av det avbildade föremålet, och därefter sätta sig och jämföra bild för bild mot listan. Men att flytta blicken fram och tillbaka på det viset gör att man snabbt tappar bort sig och missar saker. Vi använder istället samma metod här som för att kontrollera licenser beskrivet ovan. Metoden, kort sammanfattat, består av dessa steg:

Skapa små jpg-kopior av utvalda bildfiler med verktyget ImageMagick (att använda små kopior istället för .tif-filerna gör att all filhantering, metadatainläsning och bildvisning går avsevärt mycket fortare i hanteringen)
Exportera ut en förteckning med sökväg/filnamn samt föremålsbeskrivning ur databasen (sparad som .csv-fil)
Importera in beskrivning i bildfilerna utifrån csv-filen ovan med metadataverktyget ExifTool
Slutligen visa alla små jpg-kopior i en tumnagelvy i verktyget Total Commander i kombination med plug-in-programmet jpg-comment så att motivet visas med tillhörande föremålsbeskrivning under varje bild.

Med de små tricksen ovan går det mycket snabbt att identifiera uppenbara fellänkningar där fel föremål kopplats till en bild.

Utöver licens och länkade föremål kontrollerar vi även övrig metadata så att all information är strukturerad på ett konsekvent sätt. En enkel metod här är återigen att göra en export ur databasen för den tabell som innehåller uppgifterna ifråga, sedan importera in exporten i Excel och därefter göra sorteringar på respektive kolumn för att snabbt identifiera inkonsekventa inmatningar eller luckor. De värden som i det här steget kontrolleras är bl a datering för bilden, fotografens namnuppgifter, motivbeskrivning samt namn på museum varifrån bilden härstammar.

Licenser i bildfiler och i databasen – överensstämmer dessa värden?

Den version av MuseumPlus som vi använder har inte stöd för att importera metadata från bildfiler varpå vi registrerar licens för alla bilder både i bildfilernas metadata och i databasen. Därmed gör vi ännu en kontroll där vi ser till att licenserna överensstämmer mellan de två inmatningarna. Att licenserna matas in två gånger kan tyckas onödigt och skapa extra arbete, men de ”dubbla” inmatningarna blir i sig en sorts kontroll av att rätt licens redan från början matas in då licens i bildfil respektive i databasen matas in av två olika personer (fotograf respektive bildregistrator).

Att kontrollera överensstämmelse mellan inmatad licens i bildfil och i databas görs genom att man exporterar ut licensinformationen ur bildfilernas metadata (återigen med ExifTool) och därefter importerar in sökväg/filnamn + licensvärde i en tabell i SQL-databasen. Sedan gör man en jämförelse med motsvarande fält i den tabell som innehåller uppgifter om sökväg/filnamn och licens.

En annan metod för att göra kontrollen är att använda Excel med en enkel funktion (t.ex. =EXAKT(A:A;B:B), där licensvärden i bildfilerna läggs i kolumn A, och licensvärden från databasen läggs i kolumn B. Excelfunktionen EXAKT visar då för varje rad om A och B överensstämmer, om inte så visas ”FALSKT” i kolumn C. Med Excels inbyggda filter-funktion går det mycket snabbt att visa enbart avvikelserna vilka i sin tur manuellt får kontrolleras och korrigeras – antingen i databasen eller i bildfilen beroende på var felaktigt värde är inmatat).


(Bilden visar kontroll av licenser där felaktiga licenser angivna i databasen korrigeras i databasprogrammet HeidiSQL)

Kontroll efter dubbletter och inkonsekventa inmatningar

Ett sista kontrollsteg blir att söka efter dubbletter och inkonsekventa länkar i databasen. Dubbletter kan i vår databas uppstå om man lyckas skapa två bildposter som man sedan lyckas länka in samma bildfil till. Det kan också röra sig om att samma bildfil har importeras till en bildpost två gånger (här återigen en brist i själva databassystemet där det idag saknas en inbyggd kontrollfunktion som varnar ifall en fil redan är importerad/länkad till en bildpost).

Export av metadata

När då all metadata och alla bildfiler är kontrollerade och korrigerade är det dags för själva exporten. Här använder vi återigen Microsofts SQL Server Management Studio där en rad olika sql-frågor exporterar ut all aktuell data ur databasen. Data hämtas ur flera olika tabeller som rör de avbildade föremålen (beskrivning av föremålet, datering, geografiska angivelser, namn, nyckelord, klassificering, historiska händelser, utställningar som föremålet visats i, etc etc). Bildfilerna samt de olika .csv-exportfilerna ur databasen har därefter överlämnas till Wikimedias utvecklare som i sin tur har bearbetat all data och skapat en informationsstruktur som passar för själva uppladdningen till Wikimedia.

Som jag nämnde inledningsvis så innefattar arbetsstegen efter den egna exporten en del efterarbete på Wikimedia med att matcha kategorier, namn, platser etc. mot Wikimedias kategorier samt artiklar på Wikipedia. När efterarbetet på Wikimedia nått en acceptabel nivå (där t ex ofta förekommande namn i bildernas metadata har matchats mot Wikipedia-artiklar om personerna ifråga, och där bildernas filnamn har anpassats och korrigerats till Wikimedias struktur) så sker själva uppladdningen.

Avslutningsvis

Som jag inledde med så har vi använt den beskrivna exportmetoden vid tre olika tillfällen, där våra egna rutiner för de olika arbetsstegen har förfinats vid varje uppladdningstillfälle. Arbetet med att ladda upp bilder till Wikimedia har varit mycket givande för oss på många olika plan, och det är oerhört glädjande att våra bildsamlingar nu kan nå ut till så många fler användare än vad som varit möjligt tidigare.

All källkod (script och SQL-frågor) för hela Wikimedia-uppladdningsmetoden som vi använder finns att ladda ned från GitHub för vidareanvändning och vi svarar gärna på frågor kring det här roliga arbetet!

// Fredrik - Digital samordnare

onsdag 16 december 2015

Ännu fler bilder på Wikimedia Commons – men hur hamnar bilderna på Wikimedia?

Initiala steg i databasen:

Urval av bilder

Kopiera bildfiler

Kontroll, kontroll, kontroll!

Korrekta licenser

Kontroll av länkat föremål

Licenser i bildfiler och i databasen – överensstämmer dessa värden?

Kontroll efter dubbletter och inkonsekventa inmatningar

Export av metadata

Avslutningsvis

tisdag 15 december 2015

QRpedia in the Royal Armoury

fredag 11 december 2015

Resan till Egypten - Now in English!

Den engelska versionen hittar du här >>

tisdag 8 december 2015

More Real than Reality Itself - på YouTube

måndag 7 december 2015

Instagramkonto i fint sällskap