Path 2Combined Shapecheckclipboardfacebookgithubglue icongoogle-plusinstagramlinkedinGroupsearchselectslideshareFill 57Group 3Group 2twitteryoutube
Menu
NL
Screenshot About Waves

PACKED vzw: publicatie op Wikidata van tentoonstellingen met behulp van data van De Witte Raaf

PACKED vzw zoekt naar mogelijkheden om de online aanwezigheid van cultureel erfgoed te versterken, o.a. door samenwerking met Wikimedia. Naast podiumkunsten werkt PACKED vzw ook rond beeldende kunsten. We zagen kansen en mogelijkheden in de online agenda van De Witte Raaf, het tijdschrift over recente en hedendaagse kunst, en vroegen hen om de metadata van die agenda vrij te geven voor publicatie op Wikidata. De Witte Raaf stemde daarmee in. Na aanlevering werden de data door PACKED-medewerker Olivier van D'Huynslager opgeschoond en gestructureerd met behulp van de data wrangler OpenRefine 3.0, een gratis en volledig opensourcesoftware waarmee je gemakkelijk grote hoeveelheden data kunt visualiseren, analyseren, manipuleren en corrigeren.

1. Analyse van de dataset

Met behulp van OpenRefine analyseerde PACKED-medewerker Olivier van D'Huynslager de door De Witte Raaf aangeleverde metadata grondig, en beoordeelde hij ze naar hun capaciteit voor verrijking. Reeds 487 instellingen (tentoonstellingslocaties) bleken over een Wikidatarecord te beschikken, de andere 912 niet. Op basis van die vaststelling hebben we besloten om enkel verder te gaan met de eerste groep instellingen, dus met reeds gekoppelde locaties. Samen zijn ze goed voor 16.312 tentoonstellingen. De overige (nog ongekoppelde) instellingen zijn verbonden aan 10.432 tentoonstellingen. Dat lager aantal is te wijten aan de aard van de instellingen. Het zijn immers vaak kleinere instellingen, zoals culturele centra en (commerciële) galeries. De eerste groep (grotere) instellingen bevat ook Vlaamse musea zoals S.M.A.K.MSKMu.ZEE en KMSKA. Dat zijn musea waar PACKED vzw reeds mee samenwerkte, o.a. in het project Linked Open Data publicatie met Wikidata.

2. Voorbereiding van de dataset

Met behulp van de geëxporteerde data van De Witte Raaf konden we elk tentoonstellingsrecord koppelen aan minstens één kunstenaar en/of auteur. Het betreft in totaal 3.267 (unieke) namen (kunstenaars), waarvan 2.134 reeds gekoppeld konden worden aan een Wikidatarecord. De Wikidatarecords voor de overige 1.117 namen heeft PACKED-medewerker Olivier van D'Huynslager met het oog op volledigheid zelf aangemaakt in het kader van dit project.

Vooraleer die nieuwe records aan te maken hebben we onderzocht of er geen duplicaten zijn. Veel kunstenaars komen meermaals voor in de lijst van tentoonstellingen; ze stellen hun werk immers tentoon in verschillende instellingen. De duplicaten kunnen zich voordoen in de vorm van licht verschillende schrijfwijzen, zoals het ontbreken van trema’s. Items waarover reeds een Wikidatarecord bestond hebben we door filtering onderscheiden van items waarover nog geen Wikidatarecord bestond. De nieuwe items hebben we vervolgens gedupliceerd in een nieuwe kolom.

Met behulp van de Cluster-functie kunnen in OpenRefine aan de hand van verschillende algoritmes soortgelijke items worden getraceerd, en vervolgens samengevoegd (mergen). Door het laten lopen van die functie analyseert OpenRefine alle namen, en worden vervolgens soortgelijke records gebundeld. Op basis daarvan doet OpenRefine suggesties met het oog op samenvoeging. Na het uitvoeren van die operatie moesten we de items enkel nog in een alfabetische volgorde rangschikken en fixeren met behulp van de functie Re-order rows permanently. Vervolgens hebben we alle identieke velden (lees: duplicaten) aan de hand van de functie blank down leeggemaakt. Doordat we al die stappen in een nieuwe kolom uitvoerden had dat geen invloed op de initiële dataset.

Bij het voorbereiden van de nieuwe records deed zich de moeilijkheid voor dat we een onderscheid wilden maken tussen enerzijds tentoonstellingen met het werk van samenwerkingsverbanden van kunstenaars en anderzijds tentoonstellingen met meerdere individuele kunstenaars die elk hun eigen werk toonden. Enig onderzoek was nodig om daarbij fouten te vermijden. Na het aanmaken van de kunstenaars was de laatste controlerende stap na te gaan of er al dan niet reeds Wikidatarecords bestonden voor de tentoonstellingen. Daarvoor hebben we een reconcilliation uitgevoerd op de kolom met de titels van de tentoonstellingen. Het was mogelijk de zoekactie specifiek voor de categorie “tentoonstelling” te doen en de resultaten te beperken tot louter tentoonstellingen.

3. Verrijking van de dataset aan de hand van externe databases en geocoding

Voor het verrijken van de dataset hebben we beroep gedaan op zowel data afkomstig uit de gekoppelde Wikidatarecords als uit externe databanken zoals VIAF. Aan de bestaande Wikidatrecords hebben we VIAF-codes gekoppeld als die koppeling nog ontbrak. In totaal hebben we 1.455 VIAF-identificatiecodes gekoppeld.

OpenRefine lanceerde onlangs met zijn update naar versie 3.0 de mogelijkheid voor het binnentrekken van metadata uit gekoppelde records. Daardoor is het mogelijk om aan elk van de tentoonstellingen een adres en/of geografische coördinaten te koppelen. Indien die coördinaten nog niet in Wikidata zijn opgenomen, is het mogelijk om aan de hand van een specifieke GREL-functie de API van Google Maps aan te spreken en vervolgens de geografische coördinaten te koppelen. Voor een uitgebreide beschrijving van die handeling kun je terecht op deze link. Het koppelen van coördinaten - of geocoding - maakt het nadien mogelijk om Wikidatarecords te plotten op een kaart.

4. Samenstellen en upload van de dataset

Aan de hand van Wikibaseschema’s binnen OpenRefine kunnen al deze metadata van zowel bestaande als nieuw aan te maken records in één keer worden uitgevoerd. Zodra het schema is opgesteld, gaat OpenRefine per record na welke velden dienen te worden ingevuld. Voor dit project ontwikkelde PACKED-medewerker Olivier van D'Huynslager een template die als richtlijn kan dienen bij het uploaden van data met betrekking tot tentoonstellingen. Het sjabloon correspondeert met het gebruikte Wikibaseschema in OpenRefine. Het is opgebouwd uit de volgende items, en correspondeert met properties uit Wikidata: 

  • type tentoonstelling (P31 - "is een"): variërende tussen (kunst)tentoonstelling, biënnale, triënnale, festival, wedstrijd, etc.;
  • locatie (P276): de locatie van de tentoonstelling;
  • geografische coördinaten (P625): de geografische coördinaten van de locatie;
  • organisator (P664): betreffende de instelling die de tentoonstelling produceerde (kan verschillen van locatie);
  • onderdeel van: in het geval van een biënnale, triënnale, etc. verwijst men hier naar het overkoepelend item (bv. Manifesta 12 is onderdeel van Manifesta);
  • land (P17): het land waar de tentoonstelling plaatsvind;
  • hoofdonderwerp (P921): het hoofdonderwerp van de tentoonstelling: in het geval van een retrospectieve verwijst men naar een artiest, en in het geval van een thematische tentoonstelling naar een thema of motief;
  • datum begin (P580): de begindatum van de tentoonstelling (dag van vernissage);
  • datum einde (P582): de einddatum van de tentoonstelling (dag van finissage);
  • adres (P969): het adres van de locatie;
  • curator/conservator (P1640): de curator van de tentoonstelling.

Door het uploaden van die data gebeurde er een verrijking op drie verschillende niveaus: niet enkel op niveau van de individuele tentoonstellingen, maar evenzeer op dat van de tentoonstellende instelling en de deelnemende kunstenaars. Ze verwijzen immers alle drie naar elkaar. Met behulp van tools zoals Wikidata Graph BuilderRAW Graphs en SQID kunnen de verbindingen en verwijzingen op verschillende manieren worden gevisualiseerd.

Als vervolg op deze upload wil PACKED vzw specifieke kunstwerken uit Vlaamse collecties gaan koppelen aan de tentoonstellingsrecords in Wikidata. Dat zal gebeuren met behulp van de property "geëxposeerd op" of P608.

Vlaanderen - Verbeelding werkt