Offene "high value" Daten führen zu "high value" Visualisierungen

Dank JavaScript und Co. sowie den zahlreichen Bibliotheken und der hilfreichen Programmierer-Community, zaubert man schnell aus chaotischen, durchmischten Rohdaten, hilfreiche Visualisierungen, dank denen man wichtige Informationen einfach durch Mausklick und Scrollen herauslesen kann. Wir kennen ja alle das Sprichwort «ein Bild sagt mehr als tausend Worte». Bei uns entsteht der Mehrwert aber nicht durch ein «einfaches JPEG oder PNG», sondern durch einen «schönen» Code (in meinem Fall eine Mischung aus JavaScript, HTML und CSS).

Doch kommen wir gleich auf dem Punkt und stellen uns die grosse Frage:

Welchen Mehrwert generiert überhaupt meine Visualisierung? 


Betrachtet man die zahlreichen Studien, die im Netz verfügbar sind, ist es offensichtlich, dass Visualisierungen einen grossen Mehrwert erbringen.

Es ist aber auch kein Geheimnis und ebenfalls ziemlich offensichtlich, dass eine «Meerschweinchenmietpreis per Kanton»-Visualisierung (kein Witz, man kann Meerschweinchen mieten) weniger wichtig ist als eine «Staatsausgaben»-Visualisierung.

Das Ziel von diesem Projekt, das als Nebenprodukt meiner Masterarbeit entstanden ist, bei der es um die «Barrieren der Publikation von OGD» geht, ist es aufzuweisen, welche Datensätze/-sammlungen von grosser Wichtigkeit für die Bevölkerung sind und dessen Visualisierungen auch dementsprechend einen grossen Mehrwert generieren können.

 

Dieses kleine Projekt soll die Identifizierung und Auffindung von «wichtigen» Datensammlungen/-sätzen unterstützen und aufzeigen, welche davon überhaupt offen zur Verfügung stehen.

Indexes

Das Open Data Barometer  (ODB) und das Global Open Data Index (GODI) sind Indexe, die anhand von einigen Kriterien die Leistung eines Landes im Umgang mit Open Government Data bewerten. Beide Indexe unterscheiden sich anhand ihrer Methodik und ihrem Kernziel der Auswertung, aber gleichen sich bei den Kategorien, die sie bewerten.

In der unteren Visualisierung (Collapsible tree) sind die Kategorien der G8 Open Data Charter (blau), der OGD (grün) und der GODI (orange) verglichen worden.

Das ODB orientier sich sehr stark am G8 Open Data Charter. Was man hierbei berücksichtigen muss ist, dass hier ein Bottom-Up-Prinzip herrscht. Die Datensätze, welche nach GODI definiert sind, erfüllen die Ansprüche der Definition der jeweiligen G8 und ODB Kategorien. Umgekehrt ist es aber möglicherweise nicht der Fall. Zum Beispiel wäre es möglich, dass ein Datensatz die Ansprüche der G8 Kategorie "Geospital" erfüllt, aber sich in den GODI-Kategorien nicht wiederfindet. Das GODI ist präziser bezüglich Erfüllung der jeweiligen Datenkategorie. Die «Ansprüche» sind höher und es wird exakt erklärt, was verlangt wird.

Weitere Definitionen und Requirements sind in der Methodik der jeweiligen Indexe auffindbar:

Dateninventar und opendata.swiss

Nun stellt sich die Frage, welche Datensätze/-sammlungen aus der Schweiz erfüllen diese Kriterien und fallen in die Kategorien der oben genannten Indexe?

Obwohl GODI und das ODB bereits die Schweiz «bewertet» haben (leider ist der aktuellste Stand von 2016 bei beiden Indexen, somit ziemlich veraltet) bietet der Bericht «Dateninventarisierung Bund», welcher auf egovernment.ch zu finden ist, eine Einordnung der Daten im Dateninventar auf die jeweiligen Kategorien an.

«Der Bundesrat will mit seiner Open-Government-Data-Strategie Schweiz 2014–2018 den Zugang zu Behördendaten erleichtern. Eine der Massnahmen aus der Strategie ist die Inventarisierung der Datenbestände des Bundes. Das Ziel dieser Inventarisierung ist es, eine möglichst umfassende Übersicht über jene Datensammlungen zu erhalten, die in der Verwaltung bereits vorhanden sind. Nur ein Teil der Datensätze im Inventar sind bereits auf opendata.swiss publiziert.» (siehe Dateninventar Bund auf opendata.swiss)

Die «Dateninventar Visualisierung» zeigt auf, welche Datensammlungen aus dem Dateninventar offen auf opendata.swiss zu finden sind. Natürlich, es ist von 2017, dementsprechend auch «veraltet», aber trotzdem sind während der Inventarisierung relevante Daten miteingeflossen. Einen Teil davon kann man nicht in den Indexen einordnen, aber da es sich um Daten vom Bund handelt, sind diese dennoch für die Schweiz relevant.

Schwierig wird es Daten zu visualisieren, wenn die Daten nicht öffentlich zur Verfügung stehen. Die Bar-Chart-Visualisierung zeigt auf welche Departemente wieviel Datensätze/-sammlungen zum Inventar beigetragen haben und welche davon auf opendata.swiss offen zur Verfügung stehen.

Open "high value" Dateninventar

Die untere Tabelle zeigt das gesamte Inventar, das auch hier auf opendata.swiss aufzufinden ist (Dateninventar Bund). Das Dateninventar soll eine Übersicht über sämtliche Datenbestände des Bundes ermöglichen und anschliessend der Identifizierung besonders relevanter und möglichst rasch zu publizierender Daten dienen (Bericht "Dateninventarisierung Bund", 2017). Im Bericht wurden die Datensammlungen/-sätze grob in den G8 und GODI Kategorien eingeteilt, aber es fehlte eine klare Einteilung, welche der Daten auf opendata.swiss verfügbar sind. Hier kommt die untere Tabelle ins Spiel. Alle Daten aus dem Dateninventar Bund (Stand 2017) wurden dank Python und Excel mit allen verfügbaren Daten auf opendata.swiss anhand dem Attribut "Titel (DE) verglichen. Somit konnte identifiziert werden, welche Daten bereits auf opendata.swiss vorhanden sind und welche nicht.

Der Filter "linked to opendata.swiss" zeigt auf ob die Daten auf opendata.swiss auffindbar sind oder nicht. Wenn das Feld leer ist, dann ist es nicht auf opendata.swiss auffindbar. Falls doch, dann ist es mit der jeweiligen Kategorie gelabelt. Ebenfalls zeigen die Filter "G8", "Barometer" und "GODI" auf, ob die Daten den Kategorien der Indexe zuzuordnen sind oder nicht.

Conclusion

Die erste Visualisierung zeigt auf, dass verschiedene Indexe die gleichen/ähnlichen Datenkategorien verlangen. Selbstverständlich unterscheiden sie sich in der Methodik und in der Bewertung, aber im Kern sind es die selben Daten, die analysiert werden.

Die zweite und dritte Visualisierung bezog sich vorallem auf das Dateninventar. Nur anhand von einfachen Visualisierungen ist ein Monitoring von Behörden/Departementen möglich um weitere Analysen durchführen zu können und zu hinterfragen, weshalb einige Datensätze publiziert worden sind und andere wiederum nicht. Auch ermöglichen einfache Visualisierungen das Tracken von «high value» Data. Der Fokus sollte darauf gelegt werden, dass wichtige, komplexe Datensätze visualisiert werden, damit sie auch der «einfache» Bürger versteht und sich über bestimmte Themen informieren kann und dass durch die Visualisierung von «high value» Data ein Mehrwert für die ganze Gesellschaft generiert wird.

Data Sources

Unten verlinkt sind die Source Codes aufzufinden, die ich für diese Projekt verwendet habe. Ebenfalls ist alles auf GitHub aufzufinden, sogar die Excel-Dateien mit den Rohdaten.

Visualisierungen und Daten
Collapsible tree Link
Zoomable partition layout Link
Bar Chart Link
Open "high value" Dateninventar Link
sämtlicher Source Code sowie Analysen (Excel, Python, JavaScript, HTMl) auf GitHub Link
Infos über den Autor
Boris Djakovic
M.Sc. Business Administration University Bern
M.Sc. Minor Sports Science University Bern