Screenshot from 2017-11-04 11:19:18

Während Statistiken und Umfragen in der medialen Wahrnehmung lange Zeit als bare Münze dargestellt und unkritisch verbreitet wurden, so scheint sich dies in letzter Zeit in das komplette Gegenteil umzukehren. Daten und Umfragen büßten massiv an Glaubwürdigkeit ein und das Zitat ,,Traue keiner Statistik, die du nicht selbst gefälscht hast” gilt bereits als Standardmeinung in sämtlichen Online-Foren.

Abseits der Medien jedoch insbesondere in der akademischen Literatur reicht die Kritik an Umfragen schon sehr weit zurück. Der amerikanische Journalist Walter Lippmann etwa verwarf bereits im Jahre 1927 in seinem berühmten Werk The Phantom Public (2011) das Konzept der öffentlichen Meinung, da er eine zu große Diskrepanz zwischen der Komplexität der politischen und sozialen Realitäten und der einfachen Gestricktheit der Durchschnittsbürger sah. Neben einigen qualitativen Kritikpunkten steht in der akademischen Literatur eine Reihe von methodologischen und praktischen Herausforderungen zur Debatte.

Ein zentraler methodologischer Gesichtspunkt ist die Auswahl der Teilgesamtheit (Sample). Im Vordergrund steht dabei vor allem der Gegensatz zwischen der Stichprobentheorie und dem Konzept der Repräsentativität oder präziser formuliert deren bewusste Erzeugung durch die Quotenauswahl, die aus statistisch-theoretischer Sicht höchst problematisch ist.

Die Quotenauswahl gilt insbesondere im medialen Diskurs und in vielen Fällen in der Markt- und Meinungsforschungsindustrie als das zentrale Qualitätsmerkmal. Auch der Verband der Markt- und Meinungsforschungsinstitute Österreichs sieht in Auffüllungsquoten zur Schaffung von Repräsentativität ein Qualitätskriterium.

Grundsätzlich meint Repräsentativität, dass die Struktur einer Teilgesamtheit (Sample) proportional der Verteilung bestimmter Merkmale in der Grundgesamtheit entspricht. Bei der Quotenauswahl wird bereits im Rahmen der Erhebung der Daten die Repräsentativität der Teilgesamtheit durch den Einsatz von Quoten aktiv erzeugt – meist durch bestimmte Merkmale, die mit der zu untersuchenden Variable korrelieren wie etwa eine Selektion nach Geschlecht, Bildungsgrad oder geographischer Herkunft. Diese Vorgehensweise ist aber mit einer Reihe an Problemen behaftet und stellt entgegen der weit verbreiteten Intuition und Praxis kein zentrales Qualitätsmerkmal dar.

Zunächst ist eine Teilgesamtheit, die durch eine Quotenauswahl zustande kommt und Repräsentativität aktiv umzusetzen versucht, keine Zufallsstichprobe. Bei einer Zufallsstichprobe besitzt jede Person in der Grundgesamtheit die gleiche Wahrscheinlichkeit befragt zu werden. Im Gegensatz zu einer ,,echten” Zufallsstichprobe ist bei einer Teilgesamtheit durch Quotenauswahl die Wahrscheinlichkeitsrechnung nicht anwendbar, da diese Teilgesamtheit eben nicht zufällig zustande kommt und daher keine Wahrscheinlichkeitsverteilung besitzt.

Dieses Faktum ist von zentraler Bedeutung, da aufgrunddessen die Methoden der inferentiellen Statistik nicht anwendbar sind und daher auch keine mathematischen Aussagen über die Grundgesamtheit gemacht werden können. Häufig wird fälschlicherweise die Repräsentativität der Umfragen anhand unterschiedlicher Tests wie etwa der Chi-Quadrat-Test überprüft. Doch bei einer Teilgesamtheit durch Quotenauswahl wird damit nicht die Richtigkeit einer Hypothese in der Grundgesamtheit durch die Teilgesamtheit getestet, sondern die Richtigkeit der Teilgesamtheit an der Grundgesamtheit. Somit wird die Testlogik völlig umgekehrt.

Das heißt nicht, dass die Repräsentativität bei Zufallsstichproben keine Rolle spielt. Jedoch ergibt sich durch das Gesetz der großen Zahlen mit einer ,,angemessenen” Zufallsstichprobe die Repräsentativität automatisch und muss nicht künstlich erzeugt werden. Das Gesetz der großen Zahlen in Bezug auf die Repräsentativität lässt sich anhand eines Münzwurfes anschaulich erklären. Wirft man einmal eine Münze, so liegt die Wahrscheinlichkeit, dass man Kopf oder Zahl wirft, bei 50 %. Wirft man die Münze beispielsweise zehn mal, so kann es vorkommen, dass 7 mal Kopf geworfen wird aber nur 3 mal die Zahl, was keine Normalverteilung von 50:50 bedeutet. Das Gesetz der großen Zahlen besagt nun, dass je öfters die Münze geworfen wird, desto eher nähert man sich die 50:50 an.

Der Unterschied besteht nun darin, dass im Gegensatz zu Zufallsstichproben, bei der eine fehlende Repräsentativität durch den Standardfehler der Stichprobenverteilung

quantifiziert werden kann, die fehlende Repräsentativität bei einer Teilgesamtheit durch Quotenauswahl sich nicht in eine Formel packen lässt. Aus statistisch-theoretischer Sicht steht somit das Verfahren der Quotenauswahl auf sehr dünnem Eis im Unterschied zur Zufallsstichprobe, die auf Basis der Wahrscheinlichkeits- und Stichprobentheorie mathematisch eine hohe Plausibilität aufweist (Von Der Lippe et al 2002: 227-238).

Nun stellt sich die Frage was eine ,,angemessene” Zufallsstichprobe bedeutet. Wie sich beispielsweise in der oben genannten Formel zum Standardfehler der Stichprobenverteilung zeigt, wird der Standardfehler umso kleiner, je größer die Stichprobe n ist. Dies kann mit dem Gesetz der großen Zahlen begründet werden. Das Gesetz der großen Zahlen bedeutet allerdings nicht zwangsläufig, dass die Größe der Stichprobe allein ein Qualitätsmerkmal einer Umfrage darstellt.

Ein bekanntes Beispiel hierfür liefert die Umfrage des Magazines Literary Digest im Zuge des amerikanischen Wahlkampfes 1936, bei der mehr als zwei Millionen Personen befragt wurden, die jedoch nicht den Sieg von Franklin D. Roosevelt prognostizierte, sondern dem republikanischen Kandidaten Alf Landon einen Erdrutschsieg prophezeite. Wie sich herausstellte beinhaltete die Teilgesamtheit der Umfrage von Literary Digest eine grobe Verzerrung zugunsten des republikanischen Kandidaten, da man hauptsächlich Haushalte mit Telefonanschluss kontaktierte, diese aber eher zum republikanischen Kandidaten tendierten (Wang et al 2015: 980-991).

Entscheidend ist also beides – sowohl eine ausreichend große Stichprobengröße als auch die Zufälligkeit der Teilgesamtheit. Das Problem der Zufallsstichproben ist allerdings, dass in der Praxis nicht immer eine normalverteilte Teilgesamtheit zustande kommen muss, da man entweder ,,Pech” bei der Ziehung einer Zufallsstichprobe haben kann oder wahrscheinlichkeitstheoretische Verzerrungen entstehen können wie etwa durch die Befragungsmethode. Insbesondere die Umfrage von Literary Digest oder Online-Panels zeigen, dass unter den Nutzern bestimmter Technologien zur Kontaktaufnahme die wahlentscheidenden Merkmale der Grundgesamtheit nicht normalverteilt sein müssen (Bethlehem et al 2008).

Eine zusätzliche Herausforderung bezüglich der Auswahl der Teilgesamtheit im Zuge von Wahlumfragen und ihre Eignung als Vorhersagetool sind die Mobilisierungsraten unterschiedlicher sozialer und politischer Gruppen. Im Unterschied zu Nachwahlbefragungen (Exit-Polls), bei denen die Teilnehmer einer Umfrage direkt nach Verlassen des Wahllokals befragt werden, weiß man bei herkömmlichen Meinungsumfragen nicht, ob die befragte Person auch tatsächlich zur Wahlurne schreiten würde. Dieses Problem kann nur teilweise und nicht ohne Verzerrungen und gröberen Manipulationen bewältigt werden.

Ein weiteres Problem bei Wahlumfragen, das sich gerade in den letzten Jahren intensiviert hat, sind niedrige Antwortraten (Response-Rates), die auch zu Verzerrungen führen können (Pew Research Center 2012). Ein Faktor, der die Antwortrate beeinflusst, sind die unentschlossenen Wähler. Diese sind insbesondere dann ein Problem wenn die Verteilung der politischen Präferenzen unter den Entschlossenen nicht der Verteilung der finalen Präferenzen unter den Unentschlossenen entspricht. Oder mit anderen Worten, problematisch wäre eine Korrelation zwischen Response-Rate und einem wahlentscheidenden Kriterium.

Aufgrund dieser theoretischen und methodologischen Herausforderungen, sind Umfragen mit Vorsicht zu genießen. Hinter manchen Umfragen stecken politische Interessen, angegebene Schwankungsbreiten bei Teilgesamtheiten durch Quotenverfahren besitzen keine statistisch-mathematische Aussagekraft und sinkende Antwort-Raten sind eine zusätzliche Herausforderung für die Zufälligkeit der Stichprobe. Aus diesen und noch weiteren Gründen sind Wahlumfragen kein probates Prognosetool und selbst politische Trends können je nach Qualität in einzelnen Umfragen stark von der Realität abweichen.


Literatur

Bethlehem, Jelke; Cobben, Fannie; Schouten, Barry (2009) Indicators for the Representativeness of Survey Response, Proceedings of Statistics Canada Symposium 2008.

Lippmann, Walter (2011) The Phantom Public, 11. Ausgabe, Transaction Publishers, New Jersey.

Pew Research Center (2012) Assessing the Representativeness of Public Opinion Surveys, 15 May, Washington D.C.

Von der Lippe, Peter; Kladroba, Andreas (2002) Repräsentativität von Stichproben, in: Marketing, Vol. 24, S. 227-238.

Wang, Wei; Rothschild, David; Goel, Sharad; Gelman, Andrew (2015) Forecasting Elections With Non-Representative Polls, in: International Journal of Forecasting, Vol. 31, S. 980-991.