Adzine Top-Stories per Newsletter
DATA

Inferenzstatistik funktioniert – wie die Prognosen zur Bundestagswahl zeigen

Sedat Polat, 18. März 2025
Bild: Maxim Berg – Unsplash

In der digitalen Werbewelt von heute werden Daten oft wie ein Wundermittel behandelt – je mehr, desto besser. Deterministische Messungen, Echtzeit-Tracking und die Illusion totaler Transparenz haben eine tiefe Skepsis gegenüber traditionellen, stichprobenbasierten Methoden entstehen lassen. Doch dieses Misstrauen ist unangebracht. Repräsentative Stichproben, kombiniert mit inferenzstatistischen Verfahren, liefern seit langem zuverlässige Erkenntnisse – in der Medienforschung und darüber hinaus.

Am Beispiel der jüngsten Bundestagswahl in Deutschland zeigt dieser Beitrag, wie Umfragen mit nur wenigen Tausend Personen dem tatsächlichen Wahlergebnis immer wieder bemerkenswert nahe kommen – und das, obwohl über 50 Millionen Menschen gewählt haben. Die Lehre für die Medienforschung ist klar: Kleine Stichproben sind, wenn sie richtig gemacht werden, keine Schwäche, sondern eine Stärke. In Zeiten des zunehmenden Datenschutzes und der Fragmentierung der Medien ist das Festhalten am Traum der vollständigen Datenerfassung weder realistisch noch notwendig. Es ist an der Zeit, die Macht intelligenter Stichproben wiederzuentdecken – und uns daran zu erinnern, dass mehr Daten nicht immer bessere Daten sind.​

Werbemessung: Vom Panel zum Tracking – und wieder zurück

Die Ableitung von Erkenntnissen auf Basis repräsentativer Stichproben hat in der Mediaforschung eine lange Geschichte. Die Fernsehzuschauerforschung in Deutschland hat zum Beispiel schon in den 1960er Jahren begonnen, seit 1988 versorgt die AGFmithilfe eines circa 5.000 Haushalte umfassenden Panels die Industrie mit Daten zu Fernsehreichweiten.

Mit dem Aufkommen des kommerziellen Internets in den 1990er Jahren kam es zu einem Paradigmenwechsel: Plötzlich gab es die Aussicht darauf, mithilfe von damals noch “Web-Mining” genannten Methoden jede einzelne Aktion detailliert und deterministisch zu erfassen. “Schalte eine Anzeige und erfahre in Echtzeit die Reaktion der User darauf!” Diese klickbasierteRückkopplungslogik machte das Internet in seinen Anfangsjahren insbesondere als Kanal für Direktmarketingaktivitäten attraktiv.

In der Zwischenzeit jedoch hat sich Online-Werbung als Gattung emanzipiert und wird im Vergleich zu klassischen Gattungen zurecht als gleichwertig für Marken- und Imagewerbung angesehen. Die Performance-Metriken früherer Zeiten sind für klassische Branding-Kampagnen wenig sinnvoll. Zudem erschweren technische Restriktionen zum Schutz persönlicher Daten, die Sensibilität der Nutzer für ihre Privatsphäre und die Fragmentierung der Medienlandschaft ein solches Vorgehen.

Kleine Stichproben, große Missverständnisse

Es ist daher nicht überraschend, dass Werbetreibende den Erfolg ihrer digitalen Branding-Kampagnenmithilfe der gleichen Kriterien bewerten wie ihre klassischen Branding-Kampagnen: Nettoreichweite, durchschnittliche Kontakthäufigkeit, Werbedruck in der Zielgruppe, Awareness, Consideration u.ä.

Die Erhebung solcher Kriterien erfolgt typischerweise (analog zu Kampagnen in klassischen Medien) auch für Kampagnen in digitalen Medien über Messungen innerhalb von repräsentativen Stichproben und der darauffolgenden statistischen Inferenz auf die Gesamtheit.

So weit also nichts Neues. Seltsamerweise ist aber in unserer Industrie eine Grundskepsis gegenüber solchen probabilistischen Verfahren entstanden, die – gepaart mit einer grundsätzlichen Präferenz für deterministische Verfahren – dazu führt, dass Ergebnisse angezweifelt werden, oft auch mit dem Hinweis auf eine scheinbar geringe Stichprobengröße.
Die Möglichkeit der Vollerhebung, um die Ergebnisse einer stichprobenbasierten Inferenz zu validieren und einer solchen Skepsis entgegenzuwirken, gibt es in der Mediaforschung nicht.

Vorhersage einer Wahl – mit nur 1.000 Personen

Eine solche Möglichkeit bietet sich aber bei politischen Wahlen, wie zuletzt bei der Bundestagswahl vom 23. Februar 2025. Im Vorfeld haben viele Markt- und Meinungsforschungsinstitute repräsentative, zufällig ausgewählte Stichproben gezogen und ihnen die sogenannte “Sonntagsfrage” (“Welche Partei würden Sie wählen, wenn am kommenden Sonntag Bundestagswahl wäre?”) gestellt. Spätestens am 24. Februar, als die Bundeswahlleiterin das vorläufige Ergebnis der Wahl bekannt gab, konnte man die Prognosen der Institute mit dem tatsächlichen Ergebnis der Wahl vergleichen. Wie nah waren also die auf der Befragung von wenigen Personen gemachten Vorhersagen an dem Ergebnis der Vollerhebung von circa 50 Millionen Wählenden?

Schauen wir es uns an:

Zunächst einmal das vorläufige amtliche Endergebnis.

Und nun die Prognosen einiger Institute kurz vor der Wahl:

Zusammengenommen ergibt sich folgendes Bild:

Wie man sieht, sind die Prognosen sehr nah am amtlichen Endergebnis. Die fünf Institute haben sich im Schnitt über alle ihre Vorhersagen nur um circa 6 Prozent verschätzt, wobei die größten Abweichungen bei den Prognosen für die Grünen und die Linke beobachtbar sind. Studien haben gezeigt, dass es zwischen diesen beiden Parteien in den letzten Tagen der Wahl noch große Wählerwanderungen (von den Grünen zu den Linken) gab, welche die Abweichungen in den Prognosen erklären könnten.

Nicht alles, was möglich ist, ist auch sinnvoll

Nichtsdestotrotz bleibt festzuhalten, dass Beobachtungen in kleinen repräsentativen Stichproben sehr gut geeignet sind, um Aussagen über die Grundgesamtheit zu treffen. Inferenzstatistik ist eine effiziente Methode, um auch in der Mediaforschung relativ präzise Aussagen über eine Grundgesamtheit zu treffen:

  • Wie viele Personen im Alter zwischen 20 und 49 Jahren haben Kontakt mit meiner Werbekampagne gehabt?
  • Wie groß waren die Reichweiten-Überschneidungen zwischen TV und Digital?
  • Wie hoch ist der Anstieg der Markenbekanntheit, der durch Kontakt mit der Werbekampagne erklärbar ist?

Für diese und ähnliche Fragestellungen gibt es keine “Bundestagswahl”, bei der man die entsprechende Grundgesamtheit zur Urne bitten könnte. Wir sehen aber, dass das auch gar nicht notwendig ist. Beobachtet man stattdessen nur eine kleine repräsentative Stichprobe, kann man aus diesen Beobachtungen valide Rückschlüsse ziehen.

Auch wenn es manchmal so scheint, als würden uns schier unbegrenzte technische Möglichkeiten zur Verfügung stehen, ist es fast nie sinnvoll, alles auf die Nachkommastelle genau deterministisch erheben zu wollen, wenn uns gleichzeitig effiziente Methoden wie die Inferenzstatistik zur Verfügung stehen, die bei einem Bruchteil des Aufwands zu ähnlich guten Ergebnissen führen. Weniger ist manchmal mehr. Das sollten wir uns in unserer Industrie öfter vor Augen halten.

Tech Finder Unternehmen im Artikel

Bild Sedat Polat Über den Autor/die Autorin:

Sedat Polat ist Solution Director bei AudienceProject. Er verfügt über mehr als 15 Jahre Erfahrung in den Bereichen Werbetechnologie und Markt- und Mediaforschung. Ab 2019 baute er erfolgreich das deutsche Geschäft von AudienceProject auf. Davor führte er unter anderem als General Manager die Geschäfte der Targeting-Plattform nugg.ad. Seine Karriere startete der Diplom-Kaufmann 2007 bei Interrogare und arbeitete dort an den internet facts der AGOF mit.

EVENT-TIPP ADZINE Live - Mobile Advertising im In-App-Kosmos am 27. März 2025, 11:00 Uhr - 12:30 Uhr

In diesem ADZINE LIVE Webinar möchten wir insbesondere den In-App Kosmos für Werbung unter die Lupe nehmen. Wie sieht das Angebot aus und wie gestaltet sich der Zugang, insbesondere über die programmatische Infrastruktur? Wie steht es mit der Sicherstellung der Umfeldqualität und Brand Safety? Measurement und Attribution sowie auch Pricing stehen selbstverständlich ebenso auf der Agenda. Jetzt anmelden!

Konferenz

Digital Events

Whitepaper

Das könnte Sie interessieren