Donnerstag, 7. April 2011

Zensus 2011 - Warum freiwillige Datenerhebungen nichts nützen

Da es immer wieder Fragen dazu gibt, möchte ich das Dilemma der Statistiker versuchen vereinfacht darzustellen. Ein Statistiker möchte bestimmte Aussagen treffen können, zB. wieviele alleinerziehende Frauen gibt es in Deutschland. Und sind diese eher gut ausgebildet oder eher schlecht.

Wenn ein Statistiker diese Frage mit einer bestimmten Sicherheit beantworten will, muß aus der Gesamtheit der Haushalte in Deutschland zufällig eine Gruppe von Haushalten bestimmen, und diese einen Fragebogen ausfüllen lassen.

Je nachdem, wie sicher er diese Fragen beantworten können soll, braucht er eine bestimmte Anzahl von Haushalten. Jedem wird einleuchten, daß zwei Fragebögen vermutlich nicht ausreichen, diese Frage sicher zu beantworten. Und mit 20 Fragebögen wird man auch noch keine sichere Ausgabe treffen wollen. Die Statistiker haben das alles genau untersucht und wissen schon, welche Mindestzahl an Fragebögen für eine spezielle Fragestellung zu beantworten sind.

Nun haben wir implizit schon mehrere Probleme genannt, vor dem der Statistiker steht. Erstens, nicht jeder Haushalt ist ein Haushalt mit Kindern unter 18 Jahre. Und nicht jeder Haushalt mit Kindern besteht aus weiblichen Alleinerziehenden. Der Statistiker hat aber einige Erfahrungswerte und kann  von daher ausgehen, daß geschätzt (die Zahl ist jetzt nur ein Beispiel und in der Realität vielleicht anders) jeder sechste Haushalt einer mit Alleinerziehenden ist. Er hat vielleicht auch in seinen Schätzungen, daß 9 von 10 dieser Haushalte einen weiblichen Vorstand haben. Er wird also auf 1000 befragte Haushalte vermutlich nur 1000 * 9 / (10*6) = 150 solcher  Haushalte finden. Da seine Schätzungen ja alle auf alten Daten beruhen, muß er mit Schwankungen nach oben und unten rechnen, im besten (für ihn schlimmsten Fall) ist die Zahl der Alleinerziehenden in den letzten Jahren zurückgegangen und er wird vielleicht nur 100 solcher Haushalte finden.

Nun kommt aber noch ein weiteres Problem hinzu. Nicht jeder Haushalt wird auf seinen Fragebogen antworten und wenn darauf geantwortet wird, dann sind die Angaben vielleicht nicht richtig. Gut, er kann jetzt über die Rücklaufquote vorangegangener Studien auch wieder schätzen, daß ca. 2/3 der Fragebögen zurückkommt. Er wird also von 1000 befragten Haushalten nur 666 Antworten zurückbekommen und dort nur 100 Haushalte mit weiblichen Alleinerziehenden.

Bis jetzt hat aber unser Statistiker noch nicht herausgefunden, ob die Alleinerziehenden nun eher einen höheren Abschluss oder eine niedrig qualifizierende Ausbildung gehabt haben. Unterstellen wir, daß 20% dieser in Wahrheit  studiert haben und 60% einen Facharbeiter und 20% keine Ausbildung haben.

Jetzt kommen wir zu einer interessanten Fragestellung. Was passiert, wenn von den studierten (20 von 1000 befragten Haushalten) Frauen (unterstellt) alle diesen Befragungen eher kritisch sehen und einfach nicht antworten würden? Wenn dann noch die Frauen, die keinen Abschluss haben, vielleicht aus Schamgefühl oder sonstigen Gründen, bei der Befragung falsche Angaben machen und diese daher nur zur Hälfte wahrheitsgemäß antworten würden?

Wir würden als Statistiker die Antwort bekommen, daß alleinerziehende Frauen keinen Hochschulabschluss hätten (diese hatten ja nicht geantwortet), 70 von 80, also 87,5%  einen Facharbeiter und nur 12,5% keinen Abschluss hätten.

Die wahre Antwort wäre aber eigentlich gewesen, 20% der alleinerziehenden Frauen haben studiert, 60% hatten einen Facharbeiter und 20% haben keinen Abschluss.

Wenn der Statistiker also korrekte Antworten bekommen möchte, hat er nicht viele Möglichkeiten. Eine Möglichkeit wäre Anreize für das korrekte Beantworten zu setzen. Dies ist aber wieder problematisch, da er vielleicht die eine oder andere Gruppe bevorzugt. Wenn er zum Beispiel für die Beantwortung Geld als Anreiz einsetzt, kann es sein, daß er die Bemühungen derjenigen Frauen verstärkt, an der Studie teilzunehmen, die vielleicht besonders auf das Geld angewiesen sind und das wären vermutlich nicht die Alleinerziehenden, die einen hohen Abschluss haben.

Eine andere Möglichkeit wäre, herauszufinden, zum Beispiel über andere Quellen, wie Arbeitsagenturen, welche Haushalte ein niedriges Einkommen haben und diesen Anteil stärker herauszurechnen. Oder, last but not least, er bittet Politiker sein Dilemma zu lösen, in dem diese jeden zur Beantwortung dieser statistischen Erhebungen gesetzlich  verpflichten und ihm als Statistiker die Möglichkeit zu geben, die Plausibilität der Daten durch Zusammenführung von verschiedenen Quellen zu überprüfen.

Übrigens gibt es für unseren Beispielstatistiker noch ein ganz anderes Problem, das ist der Befragungszeitraum. Sagen wir dieser dauert ein viertel Jahr, dann können die Daten der Befragten in den drei Monaten bereits falsch sein, weil einige umgezogen sind, nun mit einem Partner zusammenleben, verstorben sind oder die Kinder weggeben oder diese volljährig geworden sind, usw. usf. Je länger also die Befragung dauert, desto unzuverlässiger wird die Datenbasis.

Was ich versucht habe, ist die Herausforderungen eines Statistikers darzustellen. Vielleicht hilft es zu verstehen, daß das Anliegen Volkszählung zumindest von dieser Seite eine gewissen Berechtigung hat und zumindest die Gegenargumentation, "dann sollen die doch die Befragung auf Freiwilligen-Basis machen" nur von Unkenntnis zeugt.

Nicht das man mich falsch versteht, ich finde der Zensus ist zu kritisieren. Aber die Argumentationslinie muß woanders laufen: Wer hat die Fragestellungen festgelegt bzw. zu verantworten? Wie sieht es mit der Anonymisierung aus? Brauchen wir die Antworten der Statistiker wirklich in dem Umfang? Wieso wird die Volkszählung nicht öffentlich diskutiert und wieso wissen die Bürger nichts von dem, was auf sie zukommt? Wie sieht es mit der Verhältnismäßigkeit aus? Welche Daten/Fragen sind sensibel? Was haben wir aus den Erfahrungen mit dem Dritten Reich gelernt?

Sonntag, 3. April 2011

Datenschutzschutz oder Datenschützerschutz?

Ich habe die letzten Tage das Buch "Lachende Wissenschaft" von Mark Benecke gelesen. Dr. Benecke ist der Gerichtsmediziner und Biologe, der immer wieder mal im Fernsehen auftritt und Kinder ermutigt "eklige" Experimente durchzuführen. Jedenfalls schreibt er: "Ein besonders großes Herz ... für forschende Kinder. Sie sind von Natur aus gute Forscher, denn Kinder fragen immer weiter »Warum?«  - mag die Umgebung darüber auch noch so genervt sein. Genau das machen Wissenschaftler auch. Deshalb ist es kein Wunder, dass der verrückte Wissenschaftler im Kino meist kauzig, zurückgezogen und scheinbar zerstreut ist..."

Ich kann nicht sagen warum, aber auf einmal hatte ich die Assoziation, daß die aktuelle Debatte Spackeria vs. Datenschutz genau diesem Schema entspricht. Leute, wie Julia Schramm, stellen sich die Frage nach dem »Warum?«. Und die Umgebung der Datenschützer ist genervt. Aber warum?


Verstehen kann ich die Aufregung schon. Vorfälle, wie bei Lidl und Co. wirken lange nach. Die Diskussion um die Vorratsdatenspeicherung und der demnächst anstehende Zensus wurde und wird ja besonders bei uns Piraten intensiv geführt.


Ich glaube, daß die klassischen Vertreter des Datenschutzes deshalb von dem unerwarteten »Angriff« aus den eigenen Reihen überrumpelt und beide Seiten in eine Eskalation des Konfliktes getrudelt sind.

Wenn ich mir das Konfliktmodell nach Glasl anschaue, so sind wir leider teilweise schon bei Punkt 4 und 5 angelangt:

  1. Spannungen zwischen den Parteien, beginnende Verhätung der Standpunkte
  2. Polarisierende Debatten, Schwarz-Weiß-Malerei
  3. Schaffen Vollendeter Tatsachen
  4. Beginn negativer Imagekampagnen, Bildung von Lagern
  5. Persönliche Angriffe unter der Gürtellinie
  6. ...
Was bedauerlicherweise in den aktuellen Diskussionen nicht so rüber kommt, ist, daß wir diese als Chance sehen können. Die Spackeria zeigt Probleme auf (nämlich, wie Tauss darstellt, daß der klassische Datenschutz von den Entwicklungen des Lebens mit dem Internet abgehängt wurde). Gerade der Vorstoß von Julia führt, auch durch die Überspitzung als »post privacy«-Postulat zu einem Druck auf die klassischen Vertreter des Datenschutzes, zu überlegen, welchen Stellenwert Datenschutz heutzutage einnimmt und einnehmen sollte und warum es dort eine Lücke gibt.

Datenschützer ist als Begriff eigentlich schon eine Fehlbesetzung und vielfach haben sich Datenschützer eine bequeme Position geschaffen. Bequem deshalb, weil man, gestützt durch das Bundesdatenschutzgesetz lieber Google, Facebook und Co. angreift. Warum kamen aber zum Beispiel vom Bundesdatenschutzbeauftragten oder den Beauftragten der Länder nicht mal die kritischen Fragen zu SteuerID oder zum Zensus?  Es hat hier eine Institutionalisierung von Datenschutz stattgefunden, aus der Berufung Datenschutz wurde der Beruf des Datenschützers. Vielleicht ist hierin auch die Ursache der Aufgeregtheit zu Entwicklungen, wie Google Streetmap zu sehen.

Oder um die Frage provokant zu stellen, geht es den aufschreienden Datenschützern um Datenschutz-Schutz? Oder doch eben eher um Datenschützer-Schutz?

Wohlgemerkt, ich möchte hier nicht alle Datenschützer über einen Kamm scheren, der Schutz von persönlichen Daten insbesondere vor Speicherung und Verarbeitung durch staatliche Stellen ist auch mir ein Kernanliegen.
Nur, ich bin realistisch genug, zu erkennen, daß es auch beim Datenschutz um Abwägung widerstreitender Interessen gehen muß, beispielhaft sei die Debatte um Nebeneinkünfte von Abgeordneten genannt, oder die Versuche die Nutzung öffentlicher Straßen durch Google-Autos zu verbieten.

Ich sehe aber auch das versteckte Achselzucken der Spackeria Anhänger kritisch, die statt nach Lösungen zu suchen einfach die »post-privacy« ausrufen und damit vor dem Berg der Herausforderungen von Datenschutz in Zeiten immer schnellerer und vernetzterer Kommunikation resignieren.

Nur in der Auseinandersetzung, nicht aber im Kampf gegeneinander, können wir aber den Datenschutz kreativ weiterentwickeln und uns gemeinsam gegen echte Angriffe auf die zu schützenden Bürger wehren, die uns seit dem 11. September 2001 in Form Dutzender Sicherheitsgesetze entgegenrollen.

Um die Kurve zur Einleitung zu bekommen, wir sollten dankbar sein für die kritischen Menschen, die uns tagtäglich mit ihrem »Warum?« nerven können. Die Frage »Warum?« ist Ausdruck des piratigen »Denk! Selbst!«. Und wir brauchen denkende Menschen und warum sollte man nicht ab und an auf sie hören? Warum nicht? :)