Signifikanz messen im Online Marketing

Sowohl im Online Marketing als auch in der Conversion Optimierung stellt sich immer wieder die Frage, ob eine verbesserte oder verschlechterte Klickrate oder Conversion Rate tatsächlich signifikant ist oder das Ergebnis des Zufalls. Manchmal möchte man aber auch wissen, ob eine Marketing-Maßnahme Einfluss hat auf eine andere Maßnahme. Dies alles ist, sofern der dazu notwendige Test richtig aufgesetzt wird, mittels statistischer Methoden ermittelbar.

Wer sich allerdings den Wikipedia-Artikel über Statistische Signifikanz durchliest, ist – wie bei vielen Expertenthemen – eventuell etwas frustriert, denn eine verständliche Einführung bietet Wikipedia hier nicht. Grund genug, hier eine verständliche Einführung zu bieten.

Was genau ist Signifikanz?

Zunächst einmal bedeutet ein signifikantes Ergebnis lediglich, dass die Wahrscheinlichkeit, dass dieses Ergebnis durch Zufall zustande gekommen ist, gering ist, unmöglich ist es aber nicht. Bei einem Signifikanzniveau von 5%, wie es in der Statistik üblich ist (obwohl man es frei wählen kann), müssen wir damit leben, dass die Wahrscheinlichkeit, dass der Zufall allein uns bessere oder schlechtere Ergebnisse beschert hat, bei bis zu 5% liegt. Sehr signifikant wird es bei einem Signifikanzniveau von bis zu 0,3%, hoch signifikant bei bis zu 0,1%. Um es noch komplizierter zu machen: Mit dem Signifikanzniveau kann keine Aussage getroffen werden, ob eine Aussage wahr oder falsch ist, es geht allein um die Wahrscheinlichkeit, dass der Zufall einen Einfluss auf Ergebnisse hatte. Dies ist ein kleiner, aber feiner Unterschied. Das Signifikanzniveau ist übrigens nicht zu verwechseln mit dem Konfidenzintervall, das zum Beispiel beim Google Website Optimizer verwendet wird, auch wenn hier häufig von 95% und 5% die Rede ist. Nicht selten wird diskutiert, ob Konfidenzintervalle eine gute Alternative zu Signifikanztests sind.

Wie testet man die Signifikanz?

Zunächst einmal muss entschieden werden, welche Hypothese man testen will. Dazu wird eine Null-Hypothese und eine Alternativ-Hypothese identifiziert. Bei einer Null-Hypothese geht man davon aus, dass es keinen Einfluss gibt, daher Null-Hypothese. Mögliche Null-Hypothesen:

  • Das Creative A wirkt nicht relevanter als das Creative B und wird deswegen auch nicht signifikant häufiger angeklickt (hier könnte man bereits fragen, ob tatsächlich eine Kausalität besteht zwischen Relevanz und Klickverhalten, aber wir nehmen das einfach mal an)
  • Die Schaltung von Display-Bannern in dieser Kampagne hat keinen Einfluss auf die SEM-Aktivität

Dem gegenüber steht die Alternativhypothese, zum Beispiel:

  • Das Creative A wird signifikant häufiger angeklickt, zum Beispiel weil es relevanter wirkt.
  • Die Schaltung von Display-Bannern hat einen Einfluss auf die SEM-Aktivität der Benutzer in dieser Kampagne

Als nächstes müssen wir uns Gedanken machen, wie wir an ein Sample kommen, mit dem wir testen. Bei typischen a/b-Tests im Online Marketing wird ein Teil des Traffics für den Test genutzt, der andere Teil für die Kontrollgruppe. Das ist ein großer Unterschied zu Experimenten, die zum Beispiel in der Erprobung für Medikamente durchgeführt werden: Hier wird ein Teil der Gesamtpopulation als Sample genutzt, welches dann in Test- und Kontrollgruppe aufgeteilt wird. Von den Ergebnissen des Samples wird auf die Gesamtpopulation geschlossen. Bei einem a/b-Test im Online Marketing, zum Beispiel beim Testen von verschiedenen Creatives für eine AdWords-Kampagne, ist unsere Population die Gesamtheit aller Suchanfragen, der heutigen wie auch der zukünftigen und unser Sample alle Suchanfragen während des Experimentzeitraums. Mit anderen Worten, mit den Ergebnissen unseres Experiments versuchen wir Rückschlüsse auf das Verhalten eines Creatives nicht nur zur Gegenwart, sondern auch in der Zukunft zu ziehen. Da sich der Kontext ändern kann (z.B. durch besondere Angebote von Marktbegleitern), sind die Ergebnisse immer mit der Einschränkung zu sehen, dass sie in einer spezifischen Konstellation entstanden sind und diese Konstellation morgen vielleicht nicht mehr zutrifft. Es ist also absolut notwendig, sich des Kontexts immer bewusst zu sein, für den das Ergebnis erzielt wurde (z.B. durch das Beobachten der Konkurrenzangebote).

Es gibt mehr als eine Möglichkeit, Signifikanz zu testen, und die Entscheidung für einen Test hängt ab von den Daten, die zur Verfügung stehen. Wir konzentrieren uns auf den T-Test, obwohl dieser Test auch nicht unumstritten ist, da er zum Beispiel den Einfluss der Sample-Größe nicht wirklich berücksichtigt.

Das Test-Setup

Grundsätzlich ist für einen Test das Setup immer die größte Herausforderung. Ist der Test nicht sauber aufgesetzt, dann können andere Effekte mit reinspielen und alle Ergebnisse verwässern. Beispiel: Auf einer Konferenz stellte ein Vortragender einen Test vor, bei welchem er den Besuchern seiner Seite zusätzlich Angebote zeigen wollte, die den häufigsten Kaufmustern entsprechen. Hierfür wurde aber das Design der Seite verändert, so dass die Ergebnisse also nicht nur durch das zusätzliche Angebot, sondern auch durch die Designänderung hätten zustande kommen können.

Bei einem Google AdWords Creative-Test werden zwei Versionen, der bisherige Text und ein neuer Text, dessen Performance getestet werden soll, mit jeweils 50% des Traffics ausgeliefert. Nach 7 Tagen haben wir die folgenden Ergebnisse erzielt:

Test Kontrolle
1,52% 2,95%
0,61% 0,90%
0,63% 0,80%
0,65% 0,84%
0,68% 0,90%
0,65% 0,96%
0,67% 0,87%



Das sieht auf den ersten Blick ganz verdächtig danach aus, als ob die Klickraten im Test eindeutig schlechter wären als in der Kontrolle. Tatsächlich aber täuschen die Zahlen: Bei einem P-Wert von 0,235988612 kann keine Signifikanz nachgewiesen werden. Zu beachten ist hier, dass ein beidseitiger Test durchgeführt wurde, denn schließlich können die Ausschläge in beide Richtungen ausgehen. Gleichzeitig ist es ein unpaired-Test mit zwei Samples mit (wahrscheinlich) gleicher Varianz. Dies sind wichtige Parameter für die Errechnung des P-Werts wie zum Beispiel in Excel.

Interessant wird es aber, wenn der Test nun länger läuft und die Klickraten auf dem jeweiligen Niveau bleiben:

Test Kontrolle
1,52% 2,95%
0,61% 0,90%
0,63% 0,80%
0,65% 0,84%
0,68% 0,90%
0,65% 0,96%
0,67% 0,87%
1,52% 2,95%
0,61% 0,90%
0,63% 0,80%
0,65% 0,84%
0,68% 0,90%
0,65% 0,96%
0,67% 0,87%
1,52% 2,95%
0,61% 0,90%
0,63% 0,80%
0,65% 0,84%
0,68% 0,90%
0,65% 0,96%
0,67% 0,87



In diesem Fall haben wir einen P-Wert von 0,028161515, was bedeutet, dass tatsächlich Signifikanz nachgewiesen werden kann (bei einem Signifikanzniveau von 5%). Je länger der Test und damit größer das Sample, desto eher kann eine Aussage getroffen werden, dass hier nicht der Zufall im Spiel war.

Nützliche Tools

Abgesehen von Excel, was im ersten Schritt reichen kann: Der Standard für alle Studenten der Statistik ist SPSS, aber es gibt auch kostenlose Tools wie R (das R-Projekt), die für mehrere Plattformen verfügbar sind und auch eine große Community haben, die Support leisten kann. R ist auch über Skripte steuerbar, so dass eine ganze Menge von Daten automatisch ausgewertet werden kann, zum Beispiel für Regressionsanalysen.

Comments on this entry are closed.

Back to top