Mit deiner Hilfe können wir den Musterdatenkatalog für Open Data in Kommunen verbessern.
Dein Input verbessert das Maschinenmodell.
Dein Input für das Modell
Deine Aufgabe ist es, Datensätze aus deutschen Open-Data-Portalen Musterdatensätzen zuzuordnen. Dies passiert in zwei Schritten: zuerst bekommst Du einen Vorschlag für ein Thema, dann eine zugehörige Bezeichnung.
Ein Musterdatensatz setzt sich aus Thema und Bezeichnung zusammen.
Das Thema ist eine erste grobe Einordnung und mit einer Kategorie vergleichbar. Da es aber im DCAT-AP Standard nur 13 Kategorien gibt, haben wir diese erweitert. Du hast 62 Themen zur Auswahl.
Die Bezeichnung ist mit dem Titel eines Datensatzes vergleichbar, nur allgemeiner. Sie ist eine präzise Einordnung eines Datensatzes unterhalb eines Themas.
01
Unser Machine Learning (ML) Modell läuft und macht Dir zunächst einen oder mehrere Vorschläge für ein Thema und anschließend für eine Bezeichnung. Daraus bildet sich der Musterdatensatz. Du kannst einen der Vorschläge auswählen oder aus allen Themen wählen.
Wenn Du ein Thema auswählst, geht es weiter und Du bekommst einen Vorschlag für eine Bezeichnung.
Wenn Du aus den vorgeschlagenen Themen keines passend findest, kannst du selber aus allen Themen eines auswählen.
Es kann bei der Zuordnung hilfreich sein, parallel den Musterdatenkatalog unter musterdatenkatalog.de zu öffnen. Dort kannst Du bei Bedarf nachschauen, welche Datensätze bisher den einzelnen Themen oder Bezeichnungen zugeordnet wurden.
02
Das ML-Modell hat auch eine oder mehrere Bezeichnungen ermittelt. Du hast wieder die Wahl. Nimmst du einen der Vorschläge an, oder wählst aus allen Bezeichnung des Themas.
Wenn Du eine Bezeichnung auswählst, bist Du fertig mit diesem Datensatz. Du bekommst einen neuen Datensatz und fängst von vorne an.
Wenn Du den Vorschlägen nicht zustimmst, bekommst Du alle Bezeichnungen des Themas aufgelistet und kannst eine auswählen. Nach der Auswahl bist Du fertig und fängst wieder von vorne an mit einem neuen Datensatz.
Je mehr sich beteiligen, desto größer die Chance, dass wir Recht haben. In Studien wurde immer wieder belegt, dass eine Vielzahl von Menschen im Durchschnitt richtigliegt – die sogenannte Schwarmintelligenz. Das wollen wir uns zunutze machen. Erzähle anderen gerne von diesem Projekt!
Du musst kein/e Experte:in sein, um zu helfen. Die Themen sind sehr grob und können von allen eingeordnet werden.
Nach einer bestimmten Anzahl neuer Inputs startet das Modell erneut - mit Euren Eingaben. Danach haben wir ein besseres Modell mit verbesserten Ergebnissen.
Das aktuelle Machine-Learning-Modell wurde auf Grundlage des Musterdatenkatalogs für NRW trainiert. Der Algorithmus nutzt den Titel des Datensatzes, die Beschreibung und die Kategorien. Unser Ziel ist es, einen Musterdatenkatalog für Deutschland zu erstellen, der Zuordnungen von originalen Datensätzen zu Musterdatensätzen automatisiert vornimmt.
Noch Fragen?
Bei Fragen zur Nutzung des Tools oder Anregungen zur Verbesserung wenden Sie sich gerne an Mario Wiedemann (Bertelsmann Stiftung)
unter mario.wiedemann@bertelsmann-stiftung.de.