"infinitE" - Eine informationelle Infrastruktur für das ‚E-Science Age’. Auf dem Weg zum ‚Remote-Access’ – Verbesserung der Angebote der kontrollierten Datenfernverarbeitung durch Datenstrukturfiles und automatisierte Ergebniskontrolle
In den Forschungsdatenzentren (FDZ) der Statistischen Ämter des Bundes und der Länder ist die kontrollierte Datenfernverarbeitung wie auch der Gastwissenschaftsarbeitsplatz mittlerweile die am meisten genutzte Zugangsform zu den wirtschaftsstatistischen Einzeldaten. Das Projektvorhaben stellt einen wesentlichen Meilenstein auf dem Weg zum automatisierten Fernrechnen dar. Die Idealsituation ist ein autorisierter Zugriff auf die Daten der amtlichen Statistik von jedem beliebigen Rechner aus, rund um die Uhr. Die Forscherinnen und Forscher erhalten das Ergebnis nach sofortiger vollautomatischer Prüfung auf Geheimhaltung in Echtzeit.
Um diese Art von Datenzugang für die unabhängige wissenschaftliche Forschung zu gewährleisten, müssen jedoch eine Reihe methodischer, technischer und rechtlicher Fragen geklärt werden. Der Schwerpunkt des Projekts liegt in der Bearbeitung der methodischen Herausforderungen der automatisierten Datenfernverarbeitung (Remote-Access).
Hier sollen bereits während der Projektlaufzeit Lösungen zur "1:1-Umsetzung" der Analyseprogramme der Wissenschaftlerinnen und Wissenschaftler entwickelt werden, indem so genannte semantische Datenstrukturfiles erstellt werden, anhand derer die Analyseprogramme ohne weitere Eingriffe und Anpassungen der Mitarbeiterinnen und Mitarbeiter in den Forschungsdatenzentren auf die Daten der amtlichen Statistik angewendet werden können. Bisher besteht ein Datenstrukturfile (DSF) in der Regel aus einer Stichprobe des Originalmaterials, auf welche weitere Anonymisierungsmaßnahmen angewendet werden oder aus zufällig generierten Werten im Wertebereich des Originaldatensatzes. Bei beiden Vorgehensweisen bleiben die Merkmale erhalten, ihre Ausprägungen und die inneren Abhängigkeitsstrukturen zu anderen Merkmalen werden dabei in der Regel zerstört. Der Wissenschaftler kann eventuell prüfen, ob sein Programm lauffähig ist, er bekommt aber keine Hinweise, ob er seine inhaltliche Fragestellung adäquat umgesetzt hat. Eine Auswertung multivariater Analysen und eine Laufzeitabschätzung sind mit den bisherigen Datenstrukturfiles nicht möglich, da hier die Korrelationen vollkommen zerstört werden. Die Herausforderung, auch die Abhängigkeitsstrukturen zwischen den Merkmalen annähernd zu erhalten, wird im Fall von Paneldatensätzen verschärft, weil hier zusätzlich die zeitliche Dimension zu berücksichtigen ist. Viele Programme können nicht auf ihre Lauffähigkeit geprüft werden, da inhaltliche Strukturen der Datensätze nicht erhalten bleiben. So können Variablen für multivariate Auswertungen oder Regressionen bisher aufgrund fehlender Merkmalskonstellationen nicht generiert und somit die Auswertungen nicht ausgeführt werden (z.B. Wachstumsraten in Paneldatensätzen). Dies ist für einen reibungslosen Ablauf des Fernrechen-Vorgangs nicht akzeptabel. Es ist daher Ziel des Projekts, semantische Datenstrukturfiles zu erstellen, mit denen auch die inhaltliche Brauchbarkeit von Analyseprogrammen getestet werden kann.
Als eines der wichtigen Ergebnisse der von der Arbeitsgruppe „Future Data Access“ in Auftrag gegebenen Rechtsgutachten von Ronellenfitsch und Redecker ergibt sich, dass generell für die Übermittlung von Informationen aus Erhebungen der amtlichen Statistik an die Wissenschaft das Kriterium der faktischen Anonymität relevant ist. Das schließt sowohl den direkten Zugang zu den Daten ein, als auch die Übermittlung der Analyseergebnisse, für die bislang auf absolute Anonymität geprüft wurde. Für die Definition der faktischen Anonymität maßgeblich ist § 16 (6) des Bundesstatistikgesetzes. Danach ist eine Reidentifikation zwar möglich, der mit dem Reidentifikationsvorhaben verbundene Aufwand an Kosten, Zeit und Arbeitskraft muss allerdings den Nutzen einer möglichen Reidentifikation übersteigen. Bisher beschränken sich Operationalisierungen von faktischer Anonymität auf Datensätze. Die faktische Anonymität von Ergebnissen ist erst durch die beiden genannten Rechtsgutachten eingeführt worden und ein zentrales Arbeitsfeld des Projekts "infinitE" im Rahmen der Weiterentwicklung der kontrollierten Datenfernverarbeitung für die Wissenschaft zu teil- bis vollautomatisierten Prozessen.
Das IAW führt im Rahmen des Projekts Verfahrensvergleiche durch, um die besten Strategien zur Erstellung semantischer Datenstrukturfiles zu identifizieren. Zudem begleitet es den Prozess der Operationalisierung von faktischer Anonymität von Ergebnissen aus Nutzersicht.
Projektteam:
- Prof. Dr. Gerd Ronning
- Dr. Martin Rosemann (Projektleitung bis 30.04.2011)
- Dr. Elena Biewen (bis 30. Juni 2010)
- Dr. Kai Daniel Schmid (Projektleitung ab 1.05.2011)
Kooperationspartner:
- Amt für Statistik Berlin-Brandenburg
- Hessisches Statistisches Landesamt
- Institut für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit (Nürnberg)
- Forschungsdatenzentrum des Statistischen Bundesamtes
Auftraggeber / Status / Ansprechpartner:
- Auftraggeber: Bundesministerium für Bildung und Forschung
- Status: laufend (2009 - 2012)
- Ansprechpartner: Dr. Kai Daniel Schmid Tel: 07071 9896 36 email
