måndag 3 oktober 2016

LSH:s samlingar - nu på GitHub

LSH på GitHub
 
Inom ett par veckor kommer vi från LSH att delta i #hack4heritage – ett s.k. hackaton där entusiaster kring öppna kulturarvsdata samlas under ett par dagar för att tillsammans skapa och experimentera med öppna dataresurser. Vi bidrar med de öppna data vi har tillgängliga, i första hand med metadata kring samlingarna på plattformar som K-samsök och Europeana – Till båda dessa plattformar finns API:er som gör det möjligt för utvecklare att hämta och vidareanvända data utifrån olika sökkriterier.

Självklart bidrar vi även med vårt öppna bildarkiv, och alla de högupplösta bilder man kan hitta på Wikimedia Commons.  Deltagandet i #hack4heritage har dock väckt en gammal tanke till liv som vi nu realiserat, nämligen att publicera LSH:s samlingar på GitHub.

Kortfattat kan man beskriva GitHub som en plattform där systemutvecklare av olika slag samlas där det finns möjlighet att dela med sig av, och få hjälp med programutveckling på olika sätt. Men GitHub har även blivit en plattform där ett antal museer publicerat sina samlingar i olika sorters s k råformat. D v s data som är så lite bearbetad och så nära de interna systemen som möjligt. Samtidigt bör datapublicering på GitHub vara så öppen som möjligt (för att så många som möjligt ska kunna ta del av den), därav används ett antal standardformat för datapublicering.

På GitHub hittar man nu exporter ur LSH:s samlingsdatabas i .CSV-format. All tillgänglig information är licensierad med CC0. Dessa exporter är hämtade direkt ur LSH:s SQL-baserade databassystem, där exporterna är gjorda utifrån den databasstruktur som det interna databassystemet är uppbyggt kring. I LSH:s interna databassystem finns en huvudtabell med grunddata om föremålen, och därutöver finns ett antal relaterade tabeller kring föremålen (t.ex. en separat tabell för måttangivelser, en annan för olika typer av repeterande värden (t.ex. nyckelord) etc.). Motsvarande den interna databasstrukturen så hittar man CSV-filer som motsvarar tabeller för namn och historiska händelser. De enda restriktioner vi lagt på dessa exporter är fält i det interna databassystemet som innehåller säkerhetsmässigt känslig information (t.ex. angivelser om placeringar), och information som är helt intern i olika arbetsflöden, eller fält som enbart innehåller data som rör det interna databassystemets funktionalitet och gränssnitt.

Syftet med den här typen av exporter är att man som användare ges möjlighet att använda informationen så som man bäst vill. Vill man så går det fint att bygga ihop en egen relationsdatabas med de olika CSV-filerna (i valfritt databasformat), eller så kan man ta valda delar för att implementera i andra lösningar. Själva poängen är dock att gränssnitt och användningsområde är upp till användaren att besluta om.

Den här publiceringen på GitHub kan ses ett komplement till andra öppna data-resurser likt Europeana där LSH:s samlingar kan nås via flera olika API-lösningar, och där informationen kan kombineras och sökas i relation till andra samlingar. Rådataexporter av det här slaget syftar till att tillhandahålla all data från en datakälla i ett enkelt och öppet format.

GitHub kan du läsa mer om vad vår publicering innehåller, och det finns där en mer utförlig beskrivning kring varje tabell och vad varje kolumn i respektive fil innehåller för typ av information.

// Fredrik