Nyligen har vi laddat upp 6416 nya bilder på Wikimedia Commons! Totalt finns nu ca 36 000 högupplösta bilder från
Livrustkammaren, Skoklosters slott och Hallwylska museet på Wikimedia
Commons.
Detta är tredje gången vi levererar en större mängd bilder till Wikimedia och vår avsikt är att fortsätta med detta kontinuerligt – någon/några gånger per år. Varje år producerar våra fotografer ett antal tusen bilder, och av dessa är merparten bilder på föremål ur museisamlingarna – bilder som därmed kan laddas upp på Wikimedia.
Detta är tredje gången vi levererar en större mängd bilder till Wikimedia och vår avsikt är att fortsätta med detta kontinuerligt – någon/några gånger per år. Varje år producerar våra fotografer ett antal tusen bilder, och av dessa är merparten bilder på föremål ur museisamlingarna – bilder som därmed kan laddas upp på Wikimedia.
Foto: Erik Lernestål, Skoklosters slott (CC BY-SA) |
Observera dock att detta inte
är en strikt beskrivning för hur man ska gå tillväga, utan detta är en av flera möjliga vägar för att
ladda upp större mängder bilder till Wikimedia Commons. Vidare är inte alla steg beskrivna i detalj (det skulle
nog bli lite väl tråkig läsning...). Detta är helt enkelt en skildring av den
metod vi tillämpat - en metod som fungerar väl för oss sett till den IT-struktur och
de bilder vi har. Notera också att beskrivningen här fokuserar främst på de förberedande steg
som vi gör innan bilderna kan laddas upp.
Vilken metod man väljer för att ladda upp på Wikimedia Commons styrs av flera faktorer, t ex:
Vilken metod man väljer för att ladda upp på Wikimedia Commons styrs av flera faktorer, t ex:
- Antalet bilder som ska laddas upp på en gång (rör det sig om ett mindre antal är det troligen enklare att använda de smidiga uppladdningsfunktionerna som finns färdiga på Wikimedia)
- Informationsmängden runt varje bild – i vårt fall skickar vi med en ganska omfattande mängd metadata kring de avbildade föremålen
- Teknisk kompetens och ekonomiska resurser
Bakgrund – vår första
uppladdning
I samband med vår första uppladdning till Wikimedia
Commons anlitade vi en utvecklare från Wikimedia Sverige för att hjälpa oss med
att framställa en Wikimedia-mall för våra bilder – mallen används konsekvent
för alla våra bilder så att de alla presenteras på ett likartat sätt. Utöver
mallen behövde vi även hjälp med vissa tekniska steg för uppladdningen på Wikimedia (efter att vi själva hade förberett bilder och metadata).
Tillsammans med utvecklaren från Wikimedia Sverige diskuterade vi
fram vad mallen borde innehålla, där besluten rörde vilken information vi ville
få med från vår egen databas kring varje avbildat föremål samt bildspecifik metadata kring
varje bild.
Utöver mallen skapade utvecklaren även ett antal script som
användes dels för att rent tekniskt ladda upp bilderna på Wikimedia, dels skapa
redskap för efterbearbetning av informationen kring bilderna.
Som ett led i uppladdningen behövde en stor mängd information
om bilderna och de avbildade föremålen bearbetas för att passa in i Wikimedias informationsstruktur.
Innan bilderna kunde laddas upp slutgiltigt så ägnade vi ägnade
en hel del tid åt att matcha nyckelord/sakord som bifogats bilderna med
kategorier i Wikimedias kategoriträd. Vidare fick vi modifiera och korrigera
filnamn på bilderna (de filnamn som bilderna tilldelas på Wikimedia Commons). Filnamnen
genererades utifrån ett antal fält som vi exporterade ur databasen, men i många
fall krävde filnamnen manuell justering för att få en konsekvent och fungerande
struktur. Därutöver fick vi med scriptens hjälp matcha namn, historiska
händelser, geografiska platser etc. mot Wikipedia-artiklar och kategorier på
Wikimedia. Allt förberedelsearbete av det här slaget har vi gjort för att bilderna ska presenteras med så utförlig metadata som möjligt.
När arbetet med informationsbearbetningen var färdig så skedde
den faktiska uppladdningen/publiceringen. I och med att vi laddade upp ca
20 000 högupplösta bilder – där vissa bilders filstorlek överstiger ett
par hundra mb – valde vi att leverera allt material på en extern hårddisk till
Wikimedias utvecklare, som i sin tur ordnade med den konkreta uppladdningen – en
process som sedan tog ett antal dagar där dator och hårddisk stod på dygnet
runt och laddade…
Efter den första uppladdningen till Wikimedia har vi använt
samma metod två gånger, där script och förberedande steg har förfinats och
justerats utifrån upptäckta brister och fel. Nu vid den aktuella uppladdningen
har arbetet gått riktigt smidigt, och möjligheten att kunna återanvända
tidigare matchningar av namn, nyckelord, platser etc. gör att
efterbearbetningen på Wikimedia blir betydligt mindre omfattande än vid den
första uppladdningen.
Att dela museernas bilder till hela världen via Wikimedia
Commons är fantastiskt ur många avseenden. Man når ut till användare man
troligtvis aldrig skulle ha kommit i kontakt med på annat sätt och man ökar
räckvidden något enormt för att sprida kunskap om museisamlingarna. Ur ett
internt perspektiv är det också väldigt givande att arbeta med Wikimedia-uppladdningar. Att
exportera ut stora mängder data ur sina egna databaser för den här typen av
ändamål gör att man plötsligt ser inkonsekvenser och små felaktigheter i
informationen – felaktigheter som därmed kan förbättras. Informationsstrukturella brister kan
annars i vissa fall vara svåra att upptäcka när man betraktar enskilda eller ett
mindre antal objekt i sin databas.
Men för att återkomma till det detaljerade och rent konkreta – vad krävs av museet? Var ska man börja?
Det första steget handlar om att välja ut de bilder som ska laddas upp. I vårt fall handlar det om att välja ut bilder både bland äldre digitaliserat bildmaterial och bland nyproducerade bilder. Grundkriteriet för oss har då varit att det är bilder som visar våra museers samlingar, och att det är bilder som kan licensieras med Creative Commons-licenser, dvs. att det är bilder som vi har upphovsrätt till (eller där upphovsrätten slocknat) och som vi har rätt att lägga ut.
Tillvägagångssättet som här beskrivs bygger av förklarliga skäl på den befintliga IT-miljöstruktur som vi har i dagsläget, vissa av de detaljerade stegen kan således se helt olika ut för andra, men de beskrivna stegen nedan kan förhoppningsvis ändå vara intressanta och i någon mån hjälpa den som vill använda en liknande metod. Observera dock att nämna programvaror enbart är exempel på program vi använder, och nämns inte i syfte att göra reklam, utan för vår del – om man bortser från vår egen samlingsdatabas – hade vi lika gärna kunnat använda andra programvaror för samma resultat.
Men för att återkomma till det detaljerade och rent konkreta – vad krävs av museet? Var ska man börja?
Det första steget handlar om att välja ut de bilder som ska laddas upp. I vårt fall handlar det om att välja ut bilder både bland äldre digitaliserat bildmaterial och bland nyproducerade bilder. Grundkriteriet för oss har då varit att det är bilder som visar våra museers samlingar, och att det är bilder som kan licensieras med Creative Commons-licenser, dvs. att det är bilder som vi har upphovsrätt till (eller där upphovsrätten slocknat) och som vi har rätt att lägga ut.
Tillvägagångssättet som här beskrivs bygger av förklarliga skäl på den befintliga IT-miljöstruktur som vi har i dagsläget, vissa av de detaljerade stegen kan således se helt olika ut för andra, men de beskrivna stegen nedan kan förhoppningsvis ändå vara intressanta och i någon mån hjälpa den som vill använda en liknande metod. Observera dock att nämna programvaror enbart är exempel på program vi använder, och nämns inte i syfte att göra reklam, utan för vår del – om man bortser från vår egen samlingsdatabas – hade vi lika gärna kunnat använda andra programvaror för samma resultat.
All hantering av data och bildfiler sker med kopior i lokal miljö, detta av två anledningar. För det första är det datamängden – att jobba med tusentals högupplösta .tif-bilder kräver mycket lagringsyta, och i dagsläget går det betydligt fortare (i vår IT-miljö) att hantera detta lokalt än i servermiljö. För det andra finns det även en säkerhetsaspekt kring detta – skulle det uppstå något stort misstag i de manuella förberedelsestegen riskerar man i alla fall inte databas eller bildfiler sin servermiljö.
Det museidatabassystem som vi använder heter MuseumPlus. Systemet baseras på en MS SQL-databas, och nästintill all hantering av databasen inom Wikimedia-arbetet sker direkt mot en lokal kopia utav SQL-databasen via Microsoft SQL Server Management Studio och HeidiSQL. MuseumPlus har i sitt gränssnitt vissa – dock begränsade – exportmöjligheter, men i det här arbetet har det varit betydligt effektivare att arbeta direkt mot SQL-databasen med egenhändigt konstruerade SQL-frågor.
Det museidatabassystem som vi använder heter MuseumPlus. Systemet baseras på en MS SQL-databas, och nästintill all hantering av databasen inom Wikimedia-arbetet sker direkt mot en lokal kopia utav SQL-databasen via Microsoft SQL Server Management Studio och HeidiSQL. MuseumPlus har i sitt gränssnitt vissa – dock begränsade – exportmöjligheter, men i det här arbetet har det varit betydligt effektivare att arbeta direkt mot SQL-databasen med egenhändigt konstruerade SQL-frågor.
Initiala steg i databasen:
Urval av bilder
(Urvalet av bilder som ska laddas upp görs med den här SQL-frågan) |
Vilka bilder som ska väljas ut görs med en SQL-fråga som filtrerar databasens bildarkivtabell(er) med följande kriterier:
- Bilden ska vara godkänd för publicering på internet – (ett manuellt val som görs i gränssnittet för databasen av de personer som registrerar och katalogiserar bilder)
- Bilden ska vara licensierad i databasen
- En korrekt högupplöst bildfil ska vara länkad till bildposten i databasen
- Bilden ska vara kopplad till ett föremål i samlingarna
- Bilden ska ingå i en av flera utvalda serier för Wikimedia-publicering – (vi laddar enbart upp högupplösta bilder av bättre kvalitet – vi har t.ex. en stor mängd identifikationsbilder i vår databas, men bilderna är av enkelt slag och håller ofta en väldigt låg upplösning.)
Det är i SQL Management Studio som sökningen efter bildfiler görs utifrån ovanstående kriterier och de utvalda bildernas filnamn kopieras till en .txt-fil. Textfilen med filnamn blir en förutsättning för nästa halvautomatiserade steg.
I urvalsprocessen ovan väljs bilder ur en inte helt enkel
och konsekvent ordning eftersom det rör sig om en blandning av bilder ur olika
serier och från olika källor (digitaliserade och digitalt födda). Urvalet kan
utgöra ett stort antal bilder ur många olika mappar och undermappar varifrån bildfilerna
ska kopieras inför uppladdning.
Kopiera bildfiler
För att slippa leta efter enskilda bildfiler bland tusentals
filer och mappar, och därefter kopiera in i respektive fil/mapp används listan
beskriven ovan till en mycket enkel – dock effektiv – filkopieringsmetod.
Med den enkla dos-kommandoraden for /f %f in (list.txt) do robocopy /e c:\källa d:\mål %f kopieras
alla utvalda filer enligt listan från en källmapp med ett stort antal
undermappar till en destination – kopieringen sker automatiskt samtidigt som
källans mappstruktur bevaras i destinationsmappen. (Robocopy är ett fiffigt litet program som är integrerat i Windows, och
som man enkelt når via dosprompten eller Powershell).
Poängen med att behålla mappstrukturerna är att uppladdningen
– inom vår metod – baseras på de sökvägar som står angivna i databasen, d v s bilderna identifieras och laddas upp baserat på att de faktiska filerna finns
att återfinna i en mappstruktur som motsvarar den som finns i databasen (detta
är som sagt baserat på det uppladdningsscript som Wikimedias utvecklare byggt
åt oss för vår IT-miljö). Att vidbehålla mappstrukturer och filnamn hänger
också samman med länkar till de högupplösta bilder vi publicerar via
eMuseumPlus samt K-Samsök.
Kontroll, kontroll, kontroll!
När de utvalda bilderna väl är överförda till en
destinationsmapp påbörjas ett intensivt arbete med att kontrollera
informationen i bildfilernas metadata samt informationen för de avbildade
föremålen. Kontrollerna görs för att säkerställa – så gott det går – att rätt
licens är angiven till bilden ifråga och att det verkligen är rätt
föremålsbeskrivning som medföljer respektive bild, samt att all information är
konsekvent strukturerad.
Korrekta licenser
Det första kontrollsteget består av att kontrollera bildfilernas licenser. Alla bildfiler som produceras och arkiveras hos oss märks med en av fyra möjliga licensmallar. Licensmallarna är manuellt framställda XML-dokument i XMP-format vilka importeras in i bildfilerna antingen via fotografernas bildbehandlingsprogramvaror, eller via metadataverktyget ExifTool. Licenser är angivna i flera olika metadatastandarder för att säkerställa att bildens licens tydligt framgår inom så många användningsområden som möjligt (helt enkelt att licensen ska synas i så många olika programvaror som möjligt).
Kontroll av bildfilernas licenser görs på flera olika sätt. Det första steget utgörs av att kontrollera att det faktiskt är rätt licens angiven i bildfilens metadata. Detta innebär konkret att man helt enkelt tittar på bildmotivet och den angiven licensen och kontrollerar att rätt licens är vald (detta kräver så klart vissa förkunskaper om de egna bildsamlingarna). Detta steg gör vi med programvaran Total Commander med plug-in-programmet Jpg comment.
(Kontroll av licens och att rätt föremål är länkat till respektive bild i Total Commander) |
Hur vi licensierar våra bilder har vi skrivit om i ett tidigare inlägg.
Kontroll av länkat föremål
Utöver att kontrollera att det verkligen är rätt licens angiven till en bild så kontrollerar vi även att rätt föremål är kopplat till bilden. Detta steg förutsätter kunskaper om museisamlingarna, och det går inte alltid att identifiera exakta föremål med följande manuella metoder, men det går att identifiera uppenbara felaktigheter (t.ex. att bilden man ser visar en stol, medan föremålsbeskrivningen som bilden är kopplad till beskriver en torkad fisk (jo, vi har faktiskt ett par torkade fiskar i samlingarna…).
Tillvägagångssättet här kan så klart göras på flera olika sätt, en variant vore att skriva ut en lista på papper med bildnummer och en kort beskrivning av det avbildade föremålet, och därefter sätta sig och jämföra bild för bild mot listan. Men att flytta blicken fram och tillbaka på det viset gör att man snabbt tappar bort sig och missar saker. Vi använder istället samma metod här som för att kontrollera licenser beskrivet ovan. Metoden, kort sammanfattat, består av dessa steg:
- Skapa små jpg-kopior av utvalda bildfiler med verktyget ImageMagick (att använda små kopior istället för .tif-filerna gör att all filhantering, metadatainläsning och bildvisning går avsevärt mycket fortare i hanteringen)
- Exportera ut en förteckning med sökväg/filnamn samt föremålsbeskrivning ur databasen (sparad som .csv-fil)
- Importera in beskrivning i bildfilerna utifrån csv-filen ovan med metadataverktyget ExifTool
- Slutligen visa alla små jpg-kopior i en tumnagelvy i verktyget Total Commander i kombination med plug-in-programmet jpg-comment så att motivet visas med tillhörande föremålsbeskrivning under varje bild.
Med de små tricksen ovan går det mycket snabbt att
identifiera uppenbara fellänkningar där fel föremål kopplats till en bild.
Utöver licens och länkade föremål kontrollerar vi även övrig metadata så att all information är strukturerad på ett konsekvent sätt. En enkel metod här är återigen att göra en export ur databasen för den tabell som innehåller uppgifterna ifråga, sedan importera in exporten i Excel och därefter göra sorteringar på respektive kolumn för att snabbt identifiera inkonsekventa inmatningar eller luckor. De värden som i det här steget kontrolleras är bl a datering för bilden, fotografens namnuppgifter, motivbeskrivning samt namn på museum varifrån bilden härstammar.
Utöver licens och länkade föremål kontrollerar vi även övrig metadata så att all information är strukturerad på ett konsekvent sätt. En enkel metod här är återigen att göra en export ur databasen för den tabell som innehåller uppgifterna ifråga, sedan importera in exporten i Excel och därefter göra sorteringar på respektive kolumn för att snabbt identifiera inkonsekventa inmatningar eller luckor. De värden som i det här steget kontrolleras är bl a datering för bilden, fotografens namnuppgifter, motivbeskrivning samt namn på museum varifrån bilden härstammar.
Licenser i bildfiler och i databasen – överensstämmer dessa värden?
Den version av MuseumPlus som vi använder har inte stöd för att importera metadata från bildfiler varpå vi registrerar licens för alla bilder både i bildfilernas metadata och i databasen. Därmed gör vi ännu en kontroll där vi ser till att licenserna överensstämmer mellan de två inmatningarna. Att licenserna matas in två gånger kan tyckas onödigt och skapa extra arbete, men de ”dubbla” inmatningarna blir i sig en sorts kontroll av att rätt licens redan från början matas in då licens i bildfil respektive i databasen matas in av två olika personer (fotograf respektive bildregistrator).
Att kontrollera överensstämmelse mellan inmatad licens i bildfil och i databas görs genom att man exporterar ut licensinformationen ur bildfilernas metadata (återigen med ExifTool) och därefter importerar in sökväg/filnamn + licensvärde i en tabell i SQL-databasen. Sedan gör man en jämförelse med motsvarande fält i den tabell som innehåller uppgifter om sökväg/filnamn och licens.
En annan metod för att göra kontrollen är att använda Excel med en enkel funktion (t.ex. =EXAKT(A:A;B:B),
där licensvärden i bildfilerna läggs i kolumn A, och licensvärden från
databasen läggs i kolumn B. Excelfunktionen EXAKT visar då för varje rad om A
och B överensstämmer, om inte så visas ”FALSKT” i kolumn C. Med Excels inbyggda
filter-funktion går det mycket snabbt att visa enbart avvikelserna vilka i sin
tur manuellt får kontrolleras och korrigeras – antingen i databasen eller i
bildfilen beroende på var felaktigt värde är inmatat).
Ett sista kontrollsteg blir att söka efter dubbletter och inkonsekventa länkar i databasen. Dubbletter kan i vår databas uppstå om man lyckas skapa två bildposter som man sedan lyckas länka in samma bildfil till. Det kan också röra sig om att samma bildfil har importeras till en bildpost två gånger (här återigen en brist i själva databassystemet där det idag saknas en inbyggd kontrollfunktion som varnar ifall en fil redan är importerad/länkad till en bildpost).
(Bilden visar kontroll av licenser där felaktiga licenser angivna i databasen korrigeras i databasprogrammet HeidiSQL) |
Kontroll efter dubbletter och inkonsekventa inmatningar
Ett sista kontrollsteg blir att söka efter dubbletter och inkonsekventa länkar i databasen. Dubbletter kan i vår databas uppstå om man lyckas skapa två bildposter som man sedan lyckas länka in samma bildfil till. Det kan också röra sig om att samma bildfil har importeras till en bildpost två gånger (här återigen en brist i själva databassystemet där det idag saknas en inbyggd kontrollfunktion som varnar ifall en fil redan är importerad/länkad till en bildpost).
Export av metadata
När då all metadata och alla bildfiler är kontrollerade och korrigerade är det dags för själva exporten. Här använder vi återigen Microsofts SQL Server Management Studio där en rad olika sql-frågor exporterar ut all aktuell data ur databasen. Data hämtas ur flera olika tabeller som rör de avbildade föremålen (beskrivning av föremålet, datering, geografiska angivelser, namn, nyckelord, klassificering, historiska händelser, utställningar som föremålet visats i, etc etc). Bildfilerna samt de olika .csv-exportfilerna ur databasen har därefter överlämnas till Wikimedias utvecklare som i sin tur har bearbetat all data och skapat en informationsstruktur som passar för själva uppladdningen till Wikimedia.
Som jag nämnde inledningsvis så innefattar arbetsstegen efter den egna exporten en del efterarbete på Wikimedia med att matcha kategorier, namn, platser etc. mot Wikimedias kategorier samt artiklar på Wikipedia. När efterarbetet på Wikimedia nått en acceptabel nivå (där t ex ofta förekommande namn i bildernas metadata har matchats mot Wikipedia-artiklar om personerna ifråga, och där bildernas filnamn har anpassats och korrigerats till Wikimedias struktur) så sker själva uppladdningen.
Avslutningsvis
Som jag inledde med så har vi använt den beskrivna exportmetoden
vid tre olika tillfällen, där våra egna rutiner för de olika arbetsstegen har
förfinats vid varje uppladdningstillfälle. Arbetet med att ladda upp bilder
till Wikimedia har varit mycket givande för oss på många olika plan, och det är
oerhört glädjande att våra bildsamlingar nu kan nå ut till så många fler
användare än vad som varit möjligt tidigare.
All källkod (script och SQL-frågor) för hela Wikimedia-uppladdningsmetoden som vi använder finns att ladda ned från GitHub för vidareanvändning och vi svarar gärna på frågor kring det här roliga arbetet!
// Fredrik - Digital samordnare
All källkod (script och SQL-frågor) för hela Wikimedia-uppladdningsmetoden som vi använder finns att ladda ned från GitHub för vidareanvändning och vi svarar gärna på frågor kring det här roliga arbetet!
// Fredrik - Digital samordnare