registrieren registriertes Mitglied


Anzeige

Anzeige

Ghost Traffic oder wie Google die Besucherzahlen verfälscht

Alles über Google diskutieren wir hier.
supervisior
PostRank 10
PostRank 10
Beiträge: 3392
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 31.03.2018, 12:08 Ghost Traffic oder wie Google die Besucherzahlen verfälscht

Hi all,

Disclaimer: Wem seine Besucherzahlen egal sind, braucht hier gar nicht weiterzulesen. Wer trotzdem weiterliest, aber daran was zu meckern hat, bitte vorm Schreiben Hirn einschalten.


Für alle anderen jetzt mal die Ohren spitzen. :) Wer meine bisherigen Beiträge gelesen hat, dürfte wissen, dass ich nur zu gerne das Eine und Andere hinterfrage. Einmal mehr geht es darum, dass mir die Vormachtstellung von Google auf den Senkel geht und man Google förmlich ausgeliefert ist. Es geht aber auch darum, dass Google diese Stellung schamlos ausnutzt und einem als Webseitenbetreiber etwas vorgegaukelt wird, ohne dass man überhaupt merkt, dass man hinters Licht geführt wird, zumindest solange wie man nicht versucht das Eine und Andere zu hinterfragen. Das worum es mir geht, betrifft eigentlich jeden, also auch Adwords und Adsense Nutzer.

Das Haupthema bezieht sich auf den vielen bekannten Ghost Traffic, also Webseiten Zugriffe, die nicht von einem realen Besucher erfolgen. Meistens sind das irgendwelche Bots, die sich also solche nicht zu erkennen geben und man es schwer hat diese zu identifizieren, aber ungünstigerweise die Statistik für Besucherzahlen beeinflussen. Das gilt besonders dann, wenn man sich vornehmlich der Server Logfiles bedient. Wer aber glaubt, dass es mit Google Analytics besser wäre, der irrt, aber gewaltig. Dies gilt auch für alle anderen Anwendungen zur Zugriffsstatistik. Durch diesen Ghost Traffic ist es unumgänglich, dass die erfassten Besucherzahlen eine System immanente Fehlertoleranz haben, die man unweigerlich in Kauf nehmen muss.

Dass ich diese Fehlertoleranz dann doch nicht toleriere, hat eine einfache Bewandtnis. Es wurde schlichtweg zu viel Ghost Traffic produziert. Wenn inzwischen jeder Dritte Aufruf keinem natürlichen Zugriff mehr zugewiesen werden kann, dann muss da irgendwas faul sein. Drauf gekommen bin erst nach der Umstellung von Google Analytics auf Matomo aka Piwik. Matomo besitzt eine optionale Tracker Code Erweiterung mit Namen "HeartBeat", die standardmäßig aber nicht aktiv ist. Aktiviert man diese, "pingt" Matomo in einem individuellen Intervall den Benutzer an, um festzustellen, ob er noch auf der Seite ist, aber dabei berücksichtigt, ob der Tab aktiv ist, bzw. ob das Browser Fenster evtl. minimiert ist. Damit lassen sich sehr exakte Besucherzeiten ermitteln. Was Matomo auch kann, ist die Differenzierung, ob ein Zugriff über einen normalen http Request erfolgt oder es sich um einen Prefetch/Prerender Request handelt. Von daher ist Matomo weitaus exakter als GA.

Was mir nun besonders ins Auge gestochen ist, waren die unzähligen Zugriffe mit einer Sitzungszeit von 6 Sekunden oder weniger. Es gibt zwar immer wieder mal vorzeitige Ladeabbrüche, aber eben nicht in dieser hohen Menge. Also muss es dafür einen anderen Grund geben. Anfänglich hatte ich den Verdacht, dass es an einer Funktion in den Google Suchergebnissen liegt bei der Google dem ersten Hit in den Suchergebnissen mit einer Prerender Funktion hinterlegt. Nicht generell, aber sehr oft. Nachdem Matomo derartige Requests aber identifizieren kann und deswegen nicht in den Besucherzahlen von Matomo erscheinen, musste es eine andere Ursache haben.

Der Vollständigkeit halber sei dazu noch angemerkt, dass sich Google schon vor mehreren Jahren wortstark dazu entschlossen hat dem Chrome Browser keinen Header für die besagte Prerender Funktion hinzuzufügen. Ein durch Chrome erzeugter Prerender Request lässt sich anders als z.B. beim Firefox nicht durch einen normalen Request über das Auslesen des Headers unterscheiden. Das ist in meinem beschriebenen Fall zwar nicht die Ursache, ist aber schlimm genug und fragwürdig, warum sich Google dagegen so verwehrt, zumal es doch sehr hilfreich wäre um die o.g. Fehlertoleranz so gering wie möglich zu halten. Allein das gibt schon Anlass zu hinterfragen, warum Google das so macht.....?!

Nachdem das Muster dieser fragwürdigen Zugriffe so eindeutig ist, also bezogen auf die Sitzungszeit von 6 Sekunden, kann das keinen natürlichen Ursprung haben, bzw. dahinter irgendwas Maschinen getriebenes stecken muss. Es war dann fast ein Zufall, dass ich ausnahmsweise mal den Chrome benutzt habe und in den Einstellungen eine Funktion gefunden habe, die dazu dient Seiten aus den Suchergebnissen schneller zu laden. (siehe auch: "Vorhersagefunktion zum schnelleren Laden von Seiten verwenden") Eigentlich würde dazu diese Prerender/Prefetch Funktion dienen, aber Google macht das ganz anders und nutzt dafür nicht Server seitige Dienste, sondern lässt die Arbeit den Client machen. Nun sollte man eigentlich glauben, dass diese "Vorlade Aufrufe" in der Netzwerk Ansicht der Developer Tools auftauchen sollten. Tun sie aber nicht und nach dem nur der Chrome Browser die Prerender Funktion unterstützt, musste ich diese Zugriffe über meinen Router ausfindig machen.

Diese Pseudoaufrufe erfolgen also unbemerkt für den Nutzer und werden so ausgeführt als hätte man so einen Zugriff ganz normal durch Anklicken eines Links in den Suchergebnisseiten gemacht. Die Ursache wäre damit zwar ausgemacht und man könnte diesen Traffic nun ganz einfach dem "Ghost Traffic" hinzufügen, aber das ist unbefriedigend, zumindest für mich, weil das inzwischen Ausmaße angenommen hat bei denen ich keinen Einfluss mehr auf die Nutzersteuerung innerhalb meiner Webseiten habe. Wenn man nicht mehr weiß wer seine Seiten besucht und welche der Zugriffe noch real sind, dann kann man sein Angebot nicht mehr objektiv dem Besucherbedürfnis ausrichten, geschweige denn weiß man, ob das, was man gemacht hat, tatsächlich die Reaktion auslöst, die man bezwecken will.

Man könnte jetzt einen Schlussstrich unter das Ganze ziehen und man sich erzwungenermaßen damit abfinden, weil Möglichkeiten sich dagegen zu wehren, gibt es schlichtweg nicht. Außer natürlich, dass man seine Besucherstatistik so filtert, dass man Aufrufe mit weniger als 10 Sekunden Besuchszeit einfach herausfiltert, wobei man den Filter eigentlich auf eine viel größere Zeitspanne einstellen müsste. Wer sich mit der Situation abfindet, braucht jetzt gar nicht weiterzulesen. Das mit diesem Ghost Traffic hat aber eine Tragweite, die nicht bei der Auswertung der eigenen Besucherzahlen aufhört.

Nachdem Google sich aufs Türschild geschrieben hat, nicht "evel" sein zu wollen, unterstellen wir Google zunächst mal nur gute Absichten. :) Alles was dazu beiträgt, dass eine aus den Suchergebnissen aufgerufene Seite schnell geladen wird, kann augenscheinlich nicht "evel" sein und das ebenso augenscheinlich zu Gunsten des Nutzers als auch für den Webseitenbetreiber. Der Nutzer bekommt die aufgerufene Seite schneller zu sehen und Webseitenbetreiber darf sich dadurch weniger oder vorzeitige Abbrüche erhoffen. Und der "Gute" ist Google! Setzt sich Google doch für eine gute User Experience und schnelle Ladezeiten ein.

Unterstellt man Google aber keine guten Absichten und leuchtet man das Ganze weiter aus, sieht das plötzlich ganz anders aus. Der Nutzer hat zwar immer noch den größten Vorteil, weil er durch diese Maßnahme mehr Seiten verkonsumieren kann, aber auch dazu führt, dass ihm mehr Werbung vor die Nase gehalten werden kann und wir wissen ja alle, dass Googles Hauptgschäft mit Werbung gemacht wird, aber das wäre bezogen auf die Vorteile für den Nutzer noch zu tolerieren.

Problematisch wirds dann aber für den Webseitenbetreiber. Zwar hätte er durch die schnelleren Ladezeiten zunächst auch einen Vorteil, jedoch wird dieser Vorteil daurch getrübt, dass ihm regelrecht vorgegaugelt wird, dass er viele Besucher hat, die er aber nach Abzug des von Google erzeugten Ghost Traffics gar nicht oder nicht in dem Ausmaß hat. Wer was online verkauft und trotz hoher Besucherzahlen zu wenig verkauft, sollte spätestens jetzt eine mögliche Ursache dafür finden! Ich kann jedem eigentlich nur empfehlen zumindest vorübergehend mal Matomo mit der HeartBeat Funktion auszuprobieren. Die Überraschung ist garantiert!

Die Konsequenzen des Ghost Traffics hören damit aber nicht auf.

Wie oben beschrieben, lassen sich solche Pseudo Zugriffe von normalen Zugriffen nicht unterscheiden, wodurch aber nicht nur der Webseiten Betreiber getäuscht wird. Paradoxerweise täuscht sich Google damit bewusst selbst. Nicht weil Google blöd oder dumm ist, sondern um sicher zu gehen, dass Dritte nicht erkennen können, ob ein Zugriff nun real ist oder nicht. Mit Dritte sind alle gemeint, die kommerzielle Dienste für Webseiten Betreiber anbieten, also z.B. SEO-Optimierer, aber auch Werbenetzerke, die im Aufrag von Kunden Anzeigen schalten. Also der klassische Adwords Kunde. Opfer sind aber nicht die Dienstleister, sondern der zahlende Kunde.

Wie aber kann das sein?

Nehmen wir dazu mal den SEO Dienstleister, der seinem Kunden verspricht, ihm mehr Besucher auf die Seite zu schicken. Gehen wir mal davon aus, dass er das kann und man ihm unterstellt, dass er das Ranking verbessern kann, wird die Poblematik aus dem Ghost Traffic dadurch noch schlimmer oder besser je nachdem aus welcher Sichtweise. Bekanntermaßen reduziert sich die Wahrscheinlichkeit, dass Suchergebnisse nach der 3. Ergbnisseite noch aufgerufen werden. Verbessert man nun das Ranking auf die ersten beiden Ergebnisseiten, ist das zunächst mal gut, aber dadurch steigt auch und ganz besonders der Ghost Traffic Effekt, weil diese Ergebnisse vorgeladen werden und dadurch Besucherzugriffe erzeugt werden, die gar nicht existieren, aber das weiß der Webseiten Betreiber nicht und vermutlich auch nicht der Dienstleister. Beide freuen sich, aber unangemessen, was dem Dienstleister aber egal sein kann. Er hat "gute" Arbeit geleistet, weshalb er einen Kunden glücklich gemacht hat, der ihn daraufhin weiterhin beauftragen wird.

Eine vemutlich noch größere Tragweite hat es aber im Anzeigengeschäft und das besonders bei Google Adwords. Die Anzeigenpreise werden zwar durch Auktionen ermittelt, aber den Preis beeinflusst in nicht unerheblichem Maße die Wertigkeit der Webseite auf der Anzeigen angezeigt werden und sich unweigerlich aus den Besucherzahlen ergeben. Ok, da fließen auch noch andere Faktoren mit ein, aber die Besucherzahlen gehören zu einer maßgeblichen Maßgabe für die Anzeigenpreise. Wenn nun also eine Webseite durch diesen Ghost Traffic 30% und mehr Zugriffe hat, dann reden wir hier um eine erhebliche Beeinflussung der Attraktivität für das Schalten von Anzeigen auf so einer Seite. Diese 30% sind nicht spekulativ, sondern in meinem Fall real! Fast ähnlich wie beim SEO Dienstleister können sich auch hier zunächst beide darüber freuen, wenn eine Anzeige augenscheinlich zumindest oft angezeigt wird, zumindest werden Kunde und Werbenetzwerk in dem Glauben gelassen, dass es so wäre. An dieser Stelle gilt nochmals der Verweis darauf, dass sich solche Zugriffe, abgesehen von den Länge der Besuchszeiten, nicht von herkömmlichen Aufrufen unterscheiden lassen und auch hier kanns dem Vermarkter/Werbenetzwerk egal sein und das auch im Hinblick auf den Einfluss der Anzeigenpreise. Der Dumme/Betrogene ist derjenige am Ende der "Zahlungskette".

Auch wenn sich eine gewisse Toleranz bei der Tragweite der Konsequenzen ergibt, ist nicht von der Hand zu weisen, dass diese augenscheinlich "gut gemeinte" Vorladefunktion den Vorsatz beinhaltet, dass Google davon weit mehr profitiert als vorgibt dem Nutzer damit dienen zu wollen. Wäre dem nicht so, warum schließt Google es bewusst aus dem Chrome Browser einen entsprechenden Header zu verpassen, um reale Zugriffe von Pseudo Zugriffe unterscheiden zu können. Vor dem Hintergrund, dass es der Firefox kann, gibt es kein technisches Argument es nicht machen zu können und auch sonst fallen mir keine Gründe ein, warum man so was nicht machen kann/soll?!

Ich kann abschließend nur nochmals empfehlen zumindest vorübergehend mal Matomo mit der besagten HeartBeat Funktion und einem Ping Intervall von 5 Sekunden zu testen. Das natürlich unter der Maßgabe, dass es einem nicht egal ist, was auf seiner Webseite passiert, bzw. was real und was Fake ist!

Anzeige von: