Commit 7d9f0527 authored by Ronny Gey's avatar Ronny Gey 👾
Browse files

Merge branch 'provit_article' into 'master'

Add provit article draft

See merge request !1
parents 85b10600 ebd3f988
# provit - A data object provenance tool
## Idee und Anforderungen
Während unserer datenbasierten Forschung zu Videospielkultur haben wir ein Vielzahl
von heterogenen Datenquellen erschlossen. Zur Beanwortung unserer Forschungsfragen
war es notwendig die Informationen und Inhalte dieser Quellen auf verschiedenen
Ebenen zu vereinen, anzureichen und neu zusammenzustellen. Diese Prozesse waren z.T.
zeitintensiv, erforderten Bearbeitung durch verschiedene Menschen und Programme.
Anfang 2018 begannen wir nach einer Möglichkeit zu suchen, diese Bearbeitungsschritte
strukturiert und nachvollziehbar zu dokumentieren. Es sollte also zu jedem Forschungs-
datensatz den wir erstellt hatten jederzeit nachvollziehbar sein:
1. Wie aktuell sind die zugrunde liegenden Rohdaten?
2. Wann und wie wurden diese aquiriert?
3. Welche weiteren Bearbeitungsschritte wurde wann und in welcher Reihenfolge durchgeführt?
Provenance Management Systeme sind keine Erfindung von uns, sondern gibt es bereits
in verschiendenen Geschmacksrichtungen aus Varianten. Unseren Anfordungen entsprach
aber Keines, denn wir wollten ein System mit folgenden Eigenschaften:
1. Keine zentrale Infrastruktur/Datenbank
2. Informationsspeicherung möglichst dateibasiert
3. Basierend auf einem etablierten und interoperablen Datenformat
4. Möglichkeit der einfachen Integration in bestehende ETL-Pipeline
5. Nutzbarkeit durch Forscher*innen ohne Programmierkenntnisse
Das von uns entwickelte Tool "provit" ist ein erster Versuch diesen Anforderungen so
gut es geht gerecht zu werden, und diese auf ihre Praxistauglichkeit zu testen.
## Zielgruppe
Die Zielgruppe von "provit" sind Forscher*innen und wissenschaftliche Softwareentwickler,
die allein oder in kleinen Gruppen über längere Zeiträume mit Daten, die insbesondere
viele Zwischenbearbeitungen (Bereinigung, Zusammenführung, ...) erfordern, bevor sie
zur Beantwortung von Forschungsfragen genutzt werden können.
## Funktionsweise
### Für Forscher*innen
Forscher*innen können mithilfe einer browserbasierten grafischen Benutzeroberfläche
oder per Kommandozeile mit "provit" interagieren.
Die grafische Benutzeroberfläche ermöglicht es auch auf einfache Weise vorhandene
Provenance-Informationen von Dateien anzuschauen und zu erkunden, sowie weitere
Punkte hinzuzufügen.
### Für Entwickler*innen
Entwickler*innen können "provit" sehr leicht in ihre bestehenden pythonbasierten
ETL-Pipelines integrieren. Dafür kann man aus dem Python Package Index (also direkt
per `pip install provit`) das Programm installieren und dann entsprechend der
Anleitung unter https://provit.readthedocs.io benutzen.
## Weitere Entwicklungen
Unser Forschungsprojekt endet im Juli 2020, daher wird die Weiterentwicklung,
sofern sich keine Maintainer*in findet vermutlich zu diesem Zeitpunkt eingestellt
werden (müssen).
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment