Samstag, 14. Februar 2015

Wir werden (falsch) vermessen

Mit riesigen Datenanalysen können Computer unser Verhalten vorhersagen
so heißt es immer wieder, diesmal im Aufmacher des Wirtschaftsteils der aktuellen Ausgabe der Zeit. Der Artikel handelt von Big Data in allen möglichen Bereichen, von der Werbung bis zur Kriminalitätsbekämpfung, und Autor Uwe Jean Heuser strickt kräftig am Mythos, durch immer mehr Daten würden immer bessere Vorhersagen möglich.
Mit Hilfe selbstlernender Computerprogramme können Staaten und Firmen heute riesige Datenmengen nach Verhaltensmustern durchsuchen und daraus Konsequenzen ziehen für ihr Handeln … Es sind Algorithmen, die mit wachsender Präzision berechnen …
etc.

Und ich dachte, der Hype-Kurve hätte den höchsten Punkt überschritten! Worin die wachsende Präzision bestehen soll, verrät der Artikel nicht – wie auch, die statistischen Verfahren, die da zum Einsatz kommen, haben sich in den letzten sechzig Jahren keinen Deut verändert. Die Präzision ist insofern genau so groß oder klein, wie statistische Prognosen immer schon waren. Sie bilden Gruppenzugehörigkeiten und Regelmäßigkeiten ab, die es in der Wirklichkeit geben mag oder eben auch nicht. Die Interpretation von Korrelationen nehmen uns die Computer nicht ab. Entscheidend ist, wie viele verschiedene Datenquellen über dieselbe Person in die Analyse einfließen. Zum Einstieg in das Thema empfehle ich diesen Text von Tim Harford; ich selbst habe auch einige Informationen gegen den Hype zusammengetragen.

Seit gut zehn Jahren verfolge ich das Thema „Überwachung“ journalistisch und halte mich mit Kommentaren lieber zurück und mir die Ohren zu, wenn mir Mumpitz begegnet. Der erwähnte Zeit-Artikel schlägt aber dem Fass den Boden aus.
Zu Diskurswellen und Hype-Zyklen gehören immer auch Anekdoten oder isolierte Zahlen, die Journalisten voneinander abschreiben. Im vorliegenden Fall Big Data ist eine davon die Geschichte des harmlosen amerikanischen Jugendlichen, den die Polizei plötzlich verdächtigt, demnächst einen Mord zu begehen.

Furore machte der beunruhigende Fall eines 22-Jährigen ohne abgeschlossene Ausbildung, der das Pech hatte, in einer üblen Gegend zu wohnen. Er selbst hatte nie mit der Polizei zu tun gehabt. … Wer ihr diese Information verschafft hatte, sagte (die Polizei) nicht.
Mythen werden weitergetragen und dabei abgeschliffen, bis sie eine geschmeidige Form erhalten. Ich versehe durchaus, warum es schön gepasst hätte, wäre es denn so gewesen, aber besagter Pechvogel war nun einmal "öfter wegen kleinerer Delikte verhaftet worden" und die Information stammt aus dem Computerprogramm Blue Crush von IBM, das mit soziodemographischen Daten zum Wohnort und den Einträgen aus der Vorgangsdatenbank der Polizei gefüttert wird. Beim Abschreiben aus dem Internet Fehler machen – und damit kommt man heutzutage bei der Qualitätspresse durch?

Schlimmer als die schlampige Arbeitsweise ist, dass niemand beim Formulieren und Floskeln innehält und einmal kurz nachdenkt. Denn die andere unvermeidliche, sozusagen komplementäre Geschichte über Big Data findet sich natürlich auch, in demselben Text: jene junge Frau, deren Familie (in manchen Versionen sie selbst) nicht wusste, dass sie schwanger war und die trotzdem Werbung für Schwangere bekam.

Ich meine: Hallo? Wie passt das zusammen? Einmal beängstigend unfehlbare Vorhersage, einmal grundlose Verdächtigung?

Das passt zusammen, weil sehr viele Frauen besagte Werbung für Schwangere erhalten haben, die nicht schwanger sind - nennen wir sie der Übersichtlichkeit halber falsch negative Prognosen - und die in den vielen, vielen Artikeln zum Thema niemals erwähnt werden. Besagter junger Mann dagegen erfüllt die statistisch ermittelten Parameter, die für eine schwere Gewalttat sprechen. Begeht er sie, die Chance dazu hat er ja weiterhin, dann traf die Vorhersage zu - nennen wir es richtig positive Prognose. Begeht es sie nicht, dann lag der unfehlbare Algorithmus wohl falsch.