Ghost Traffic oder wie Google die Besucherzahlen verfälscht

supervisior

Hi all,

Disclaimer: Wem seine Besucherzahlen egal sind, braucht hier gar nicht weiterzulesen. Wer trotzdem weiterliest, aber daran was zu meckern hat, bitte vorm Schreiben Hirn einschalten.

Für alle anderen jetzt mal die Ohren spitzen.

Wer meine bisherigen Beiträge gelesen hat, dürfte wissen, dass ich nur zu gerne das Eine und Andere hinterfrage. Einmal mehr geht es darum, dass mir die Vormachtstellung von Google auf den Senkel geht und man Google förmlich ausgeliefert ist. Es geht aber auch darum, dass Google diese Stellung schamlos ausnutzt und einem als Webseitenbetreiber etwas vorgegaukelt wird, ohne dass man überhaupt merkt, dass man hinters Licht geführt wird, zumindest solange wie man nicht versucht das Eine und Andere zu hinterfragen. Das worum es mir geht, betrifft eigentlich jeden, also auch Adwords und Adsense Nutzer.

Das Haupthema bezieht sich auf den vielen bekannten Ghost Traffic, also Webseiten Zugriffe, die nicht von einem realen Besucher erfolgen. Meistens sind das irgendwelche Bots, die sich also solche nicht zu erkennen geben und man es schwer hat diese zu identifizieren, aber ungünstigerweise die Statistik für Besucherzahlen beeinflussen. Das gilt besonders dann, wenn man sich vornehmlich der Server Logfiles bedient. Wer aber glaubt, dass es mit Google Analytics besser wäre, der irrt, aber gewaltig. Dies gilt auch für alle anderen Anwendungen zur Zugriffsstatistik. Durch diesen Ghost Traffic ist es unumgänglich, dass die erfassten Besucherzahlen eine System immanente Fehlertoleranz haben, die man unweigerlich in Kauf nehmen muss.

Dass ich diese Fehlertoleranz dann doch nicht toleriere, hat eine einfache Bewandtnis. Es wurde schlichtweg zu viel Ghost Traffic produziert. Wenn inzwischen jeder Dritte Aufruf keinem natürlichen Zugriff mehr zugewiesen werden kann, dann muss da irgendwas faul sein. Drauf gekommen bin erst nach der Umstellung von Google Analytics auf Matomo aka Piwik. Matomo besitzt eine optionale Tracker Code Erweiterung mit Namen "HeartBeat", die standardmäßig aber nicht aktiv ist. Aktiviert man diese, "pingt" Matomo in einem individuellen Intervall den Benutzer an, um festzustellen, ob er noch auf der Seite ist, aber dabei berücksichtigt, ob der Tab aktiv ist, bzw. ob das Browser Fenster evtl. minimiert ist. Damit lassen sich sehr exakte Besucherzeiten ermitteln. Was Matomo auch kann, ist die Differenzierung, ob ein Zugriff über einen normalen http Request erfolgt oder es sich um einen Prefetch/Prerender Request handelt. Von daher ist Matomo weitaus exakter als GA.

Was mir nun besonders ins Auge gestochen ist, waren die unzähligen Zugriffe mit einer Sitzungszeit von 6 Sekunden oder weniger. Es gibt zwar immer wieder mal vorzeitige Ladeabbrüche, aber eben nicht in dieser hohen Menge. Also muss es dafür einen anderen Grund geben. Anfänglich hatte ich den Verdacht, dass es an einer Funktion in den Google Suchergebnissen liegt bei der Google dem ersten Hit in den Suchergebnissen mit einer Prerender Funktion hinterlegt. Nicht generell, aber sehr oft. Nachdem Matomo derartige Requests aber identifizieren kann und deswegen nicht in den Besucherzahlen von Matomo erscheinen, musste es eine andere Ursache haben.

Der Vollständigkeit halber sei dazu noch angemerkt, dass sich Google schon vor mehreren Jahren wortstark dazu entschlossen hat dem Chrome Browser keinen Header für die besagte Prerender Funktion hinzuzufügen. Ein durch Chrome erzeugter Prerender Request lässt sich anders als z.B. beim Firefox nicht durch einen normalen Request über das Auslesen des Headers unterscheiden. Das ist in meinem beschriebenen Fall zwar nicht die Ursache, ist aber schlimm genug und fragwürdig, warum sich Google dagegen so verwehrt, zumal es doch sehr hilfreich wäre um die o.g. Fehlertoleranz so gering wie möglich zu halten. Allein das gibt schon Anlass zu hinterfragen, warum Google das so macht.....?!

Nachdem das Muster dieser fragwürdigen Zugriffe so eindeutig ist, also bezogen auf die Sitzungszeit von 6 Sekunden, kann das keinen natürlichen Ursprung haben, bzw. dahinter irgendwas Maschinen getriebenes stecken muss. Es war dann fast ein Zufall, dass ich ausnahmsweise mal den Chrome benutzt habe und in den Einstellungen eine Funktion gefunden habe, die dazu dient Seiten aus den Suchergebnissen schneller zu laden. (siehe auch: "Vorhersagefunktion zum schnelleren Laden von Seiten verwenden") Eigentlich würde dazu diese Prerender/Prefetch Funktion dienen, aber Google macht das ganz anders und nutzt dafür nicht Server seitige Dienste, sondern lässt die Arbeit den Client machen. Nun sollte man eigentlich glauben, dass diese "Vorlade Aufrufe" in der Netzwerk Ansicht der Developer Tools auftauchen sollten. Tun sie aber nicht und nach dem nur der Chrome Browser die Prerender Funktion unterstützt, musste ich diese Zugriffe über meinen Router ausfindig machen.

Diese Pseudoaufrufe erfolgen also unbemerkt für den Nutzer und werden so ausgeführt als hätte man so einen Zugriff ganz normal durch Anklicken eines Links in den Suchergebnisseiten gemacht. Die Ursache wäre damit zwar ausgemacht und man könnte diesen Traffic nun ganz einfach dem "Ghost Traffic" hinzufügen, aber das ist unbefriedigend, zumindest für mich, weil das inzwischen Ausmaße angenommen hat bei denen ich keinen Einfluss mehr auf die Nutzersteuerung innerhalb meiner Webseiten habe. Wenn man nicht mehr weiß wer seine Seiten besucht und welche der Zugriffe noch real sind, dann kann man sein Angebot nicht mehr objektiv dem Besucherbedürfnis ausrichten, geschweige denn weiß man, ob das, was man gemacht hat, tatsächlich die Reaktion auslöst, die man bezwecken will.

Man könnte jetzt einen Schlussstrich unter das Ganze ziehen und man sich erzwungenermaßen damit abfinden, weil Möglichkeiten sich dagegen zu wehren, gibt es schlichtweg nicht. Außer natürlich, dass man seine Besucherstatistik so filtert, dass man Aufrufe mit weniger als 10 Sekunden Besuchszeit einfach herausfiltert, wobei man den Filter eigentlich auf eine viel größere Zeitspanne einstellen müsste. Wer sich mit der Situation abfindet, braucht jetzt gar nicht weiterzulesen. Das mit diesem Ghost Traffic hat aber eine Tragweite, die nicht bei der Auswertung der eigenen Besucherzahlen aufhört.

Nachdem Google sich aufs Türschild geschrieben hat, nicht "evel" sein zu wollen, unterstellen wir Google zunächst mal nur gute Absichten.

Alles was dazu beiträgt, dass eine aus den Suchergebnissen aufgerufene Seite schnell geladen wird, kann augenscheinlich nicht "evel" sein und das ebenso augenscheinlich zu Gunsten des Nutzers als auch für den Webseitenbetreiber. Der Nutzer bekommt die aufgerufene Seite schneller zu sehen und Webseitenbetreiber darf sich dadurch weniger oder vorzeitige Abbrüche erhoffen. Und der "Gute" ist Google! Setzt sich Google doch für eine gute User Experience und schnelle Ladezeiten ein.

Unterstellt man Google aber keine guten Absichten und leuchtet man das Ganze weiter aus, sieht das plötzlich ganz anders aus. Der Nutzer hat zwar immer noch den größten Vorteil, weil er durch diese Maßnahme mehr Seiten verkonsumieren kann, aber auch dazu führt, dass ihm mehr Werbung vor die Nase gehalten werden kann und wir wissen ja alle, dass Googles Hauptgschäft mit Werbung gemacht wird, aber das wäre bezogen auf die Vorteile für den Nutzer noch zu tolerieren.

Problematisch wirds dann aber für den Webseitenbetreiber. Zwar hätte er durch die schnelleren Ladezeiten zunächst auch einen Vorteil, jedoch wird dieser Vorteil daurch getrübt, dass ihm regelrecht vorgegaugelt wird, dass er viele Besucher hat, die er aber nach Abzug des von Google erzeugten Ghost Traffics gar nicht oder nicht in dem Ausmaß hat. Wer was online verkauft und trotz hoher Besucherzahlen zu wenig verkauft, sollte spätestens jetzt eine mögliche Ursache dafür finden! Ich kann jedem eigentlich nur empfehlen zumindest vorübergehend mal Matomo mit der HeartBeat Funktion auszuprobieren. Die Überraschung ist garantiert!

Die Konsequenzen des Ghost Traffics hören damit aber nicht auf.

Wie oben beschrieben, lassen sich solche Pseudo Zugriffe von normalen Zugriffen nicht unterscheiden, wodurch aber nicht nur der Webseiten Betreiber getäuscht wird. Paradoxerweise täuscht sich Google damit bewusst selbst. Nicht weil Google blöd oder dumm ist, sondern um sicher zu gehen, dass Dritte nicht erkennen können, ob ein Zugriff nun real ist oder nicht. Mit Dritte sind alle gemeint, die kommerzielle Dienste für Webseiten Betreiber anbieten, also z.B. SEO-Optimierer, aber auch Werbenetzerke, die im Aufrag von Kunden Anzeigen schalten. Also der klassische Adwords Kunde. Opfer sind aber nicht die Dienstleister, sondern der zahlende Kunde.

Wie aber kann das sein?

Nehmen wir dazu mal den SEO Dienstleister, der seinem Kunden verspricht, ihm mehr Besucher auf die Seite zu schicken. Gehen wir mal davon aus, dass er das kann und man ihm unterstellt, dass er das Ranking verbessern kann, wird die Poblematik aus dem Ghost Traffic dadurch noch schlimmer oder besser je nachdem aus welcher Sichtweise. Bekanntermaßen reduziert sich die Wahrscheinlichkeit, dass Suchergebnisse nach der 3. Ergbnisseite noch aufgerufen werden. Verbessert man nun das Ranking auf die ersten beiden Ergebnisseiten, ist das zunächst mal gut, aber dadurch steigt auch und ganz besonders der Ghost Traffic Effekt, weil diese Ergebnisse vorgeladen werden und dadurch Besucherzugriffe erzeugt werden, die gar nicht existieren, aber das weiß der Webseiten Betreiber nicht und vermutlich auch nicht der Dienstleister. Beide freuen sich, aber unangemessen, was dem Dienstleister aber egal sein kann. Er hat "gute" Arbeit geleistet, weshalb er einen Kunden glücklich gemacht hat, der ihn daraufhin weiterhin beauftragen wird.

Eine vemutlich noch größere Tragweite hat es aber im Anzeigengeschäft und das besonders bei Google Adwords. Die Anzeigenpreise werden zwar durch Auktionen ermittelt, aber den Preis beeinflusst in nicht unerheblichem Maße die Wertigkeit der Webseite auf der Anzeigen angezeigt werden und sich unweigerlich aus den Besucherzahlen ergeben. Ok, da fließen auch noch andere Faktoren mit ein, aber die Besucherzahlen gehören zu einer maßgeblichen Maßgabe für die Anzeigenpreise. Wenn nun also eine Webseite durch diesen Ghost Traffic 30% und mehr Zugriffe hat, dann reden wir hier um eine erhebliche Beeinflussung der Attraktivität für das Schalten von Anzeigen auf so einer Seite. Diese 30% sind nicht spekulativ, sondern in meinem Fall real! Fast ähnlich wie beim SEO Dienstleister können sich auch hier zunächst beide darüber freuen, wenn eine Anzeige augenscheinlich zumindest oft angezeigt wird, zumindest werden Kunde und Werbenetzwerk in dem Glauben gelassen, dass es so wäre. An dieser Stelle gilt nochmals der Verweis darauf, dass sich solche Zugriffe, abgesehen von den Länge der Besuchszeiten, nicht von herkömmlichen Aufrufen unterscheiden lassen und auch hier kanns dem Vermarkter/Werbenetzwerk egal sein und das auch im Hinblick auf den Einfluss der Anzeigenpreise. Der Dumme/Betrogene ist derjenige am Ende der "Zahlungskette".

Auch wenn sich eine gewisse Toleranz bei der Tragweite der Konsequenzen ergibt, ist nicht von der Hand zu weisen, dass diese augenscheinlich "gut gemeinte" Vorladefunktion den Vorsatz beinhaltet, dass Google davon weit mehr profitiert als vorgibt dem Nutzer damit dienen zu wollen. Wäre dem nicht so, warum schließt Google es bewusst aus dem Chrome Browser einen entsprechenden Header zu verpassen, um reale Zugriffe von Pseudo Zugriffe unterscheiden zu können. Vor dem Hintergrund, dass es der Firefox kann, gibt es kein technisches Argument es nicht machen zu können und auch sonst fallen mir keine Gründe ein, warum man so was nicht machen kann/soll?!

Ich kann abschließend nur nochmals empfehlen zumindest vorübergehend mal Matomo mit der besagten HeartBeat Funktion und einem Ping Intervall von 5 Sekunden zu testen. Das natürlich unter der Maßgabe, dass es einem nicht egal ist, was auf seiner Webseite passiert, bzw. was real und was Fake ist!

nerd

supervisior hat geschrieben:Der Vollständigkeit halber sei dazu noch angemerkt, dass sich Google schon vor mehreren Jahren wortstark dazu entschlossen hat dem Chrome Browser keinen Header für die besagte Prerender Funktion hinzuzufügen.

...

supervisior hat geschrieben:Wäre dem nicht so, warum schließt Google es bewusst aus dem Chrome Browser einen entsprechenden Header zu verpassen, um reale Zugriffe von Pseudo Zugriffe unterscheiden zu können.

Also wenn dein problem ist dass du prerender request keinen header senden und du deswegen keine ordentlichen besucherzahlen hinbekommst, warum schliesst du dann nicht einfach requests ohne header bei deiner besucherzahlbestimmung mit aus?

Abgesehen davon ist es natuerlich trivial mit wget (oder anderen bots oder tools) requests zu erzeugen, und dabei jeden beliebigen header zu setzen oder leer zu lassen.

Weiss nicht was dein sturm im wasserglass hier soll...

supervisior

mal abgesehen, dass Du den Disclaimer nicht gelesen haben musst, hast Du das mit dem Header nicht verstanden. Ein Header besteht nicht aus 1 Header Information, sondern aus einer Fülle an Informationen. Da ist ein Prerender Header, bzw. der dafür verwendete Sprachgebrauch nur eines von vielen Angaben.

Thomas H

supervisior hat geschrieben:Diese 30% sind nicht spekulativ, sondern in meinem Fall real!

Angenommen jede Website hat mit dem gleichen Effekt zu kämpfen, so sind Zugriffszahlen, Traffic, Ad-Impressions & Co zwischen den Websiten ja wieder vergleichbar.

Mehr Ghost Traffic führt meiner Ansicht auch nicht zwingend zu höheren Werbeeinnahmen für Google. Beispiel Online-Shop: Mehr Ghost Traffic führt zu einer geringeren CR. Um die Werbekostenquote stabil zu halten, senkt der Shop-Bereiber daraufhin seine Gebote in AdWords. Folge sind fallende Klickpreise (durchaus beobachtbar). Am Ende nimmt Google genauso viel ein wie zuvor und der Werbetreibende zahlt genauso viel wie zuvor.

Ich halte es in vielen Fällen sowieso für problematisch, auf den Traffic hin zu optimieren. Oft ist ein Fokus auf relevanten Traffic zielführender, und diesen misst man besser indirekt über andere KPIs (Anzahl Sales, Anzahl Newsletter-Anmeldungen usw.). Ausnahme ist natürlich, wenn ausnahmslos die Quantität der Besucher das Ziel der Website darstellt.

Grüße
Thomas

supervisior

@Thomas H

Danke, das relativiert meinen Pranger etwas und hätte ich der Vollständigkeit halber anmerken müssen.

supervisior

Zur Vollständigkeit ergänze ich dieses Thema mal und revidiere, bzw. ergänze dieses Thema durch eine neue Erkenntnis.

Wenngleich ich bis gestern der festen Annahme war, dass die eingangs aufgeführten Faktoren zu dem besagten Ghost Traffic führen, kommt nun etwas hinzu, worauf ich hätte schon viel früher kommen müssen. Diese neue Erkenntnis widerlegt aber nicht das Ursprüngliche, sondern schafft zusätzliche Antworten. Die Bezeichnung Ghost Traffic stimmt aber nicht mehr ganz. Es handelt sich dabei vielmehr um ich nenne ihn mal "ungezielten" Traffic, den Google aber gezielt einsetzt. Hört sich paradox oder verwirrend an, erklärt sich aber wie folgt.

Es gibt in so gut wie allen Browsern die Einstellung, welche Seite beim Start des Browsers oder dem Öffen eines neuen Tabs angezeigt werden soll. Davon ausgenommen ist die Mobile Version des Chrome Browsers. Damit wird beim Starten von Chrome immer die zuletzt aufgerufene Seite aufgerufen. Dass diese EInstellungsmöglichkeit ausgerechnet im Mobilen Chrome Browser fehlt, aber eben nicht in anderen Browsern wirft für sich alleingestellt schon Fragen auf.

Die Konsequenz daraus ist offensichtlich und zieht eine Kette an Schlussfolgerungen nach sich und muss man nicht bis ins letzte Detail erörtern. Also einfach mal drüber nachdenken....!

hanneswobus

nerd hat geschrieben:
supervisior hat geschrieben:Der Vollständigkeit halber sei dazu noch angemerkt, dass sich Google schon vor mehreren Jahren wortstark dazu entschlossen hat dem Chrome Browser keinen Header für die besagte Prerender Funktion hinzuzufügen.
...

supervisior hat geschrieben:Wäre dem nicht so, warum schließt Google es bewusst aus dem Chrome Browser einen entsprechenden Header zu verpassen, um reale Zugriffe von Pseudo Zugriffe unterscheiden zu können.
Also wenn dein problem ist dass du prerender request keinen header senden und du deswegen keine ordentlichen besucherzahlen hinbekommst, warum schliesst du dann nicht einfach requests ohne header bei deiner besucherzahlbestimmung mit aus?

Abgesehen davon ist es natuerlich trivial mit wget (oder anderen bots oder tools) requests zu erzeugen, und dabei jeden beliebigen header zu setzen oder leer zu lassen.

Weiss nicht was dein sturm im wasserglass hier soll...

wget-spielchen werden meistens auch gefiltert. ein problem sind die bots, die u.a. natürliches verhalten simulieren können.
gruß

supervisior

Die Bots, insbesondere diejenigen, die ihre Identität (versuchen zu) verbergen, kann ich in einem sehr hohen Maße ausschließen, zumal solche Bots in der Regel versuchen nicht als solche erkannt zu werden und deswegen in Analyse Tools wie GA oder Matomo erscheinen. Alle anderen werden zumindest bei mir schon vorher zu einem hohen Grad eliminiert. Bei solchen gibt es dann nur ein kurzes "Zucken" des Webservers, der den Aufruf mit einem 403 quittiert.

Die Bots sind aus meiner Sicht nicht das Problem, zumindest nicht in einem entscheidenden Maß, die eine so hohe Menge an "ungezieltem" Traffic gänzlich erklären würde.

staticweb

> Es gibt in so gut wie allen Browsern die Einstellung, welche Seite beim Start des Browsers oder dem Öffen eines neuen Tabs angezeigt werden soll.

Für den neuen TAB kannst du beim FF wählen zwischen Firefox Startseite und Leerer Seite.

Kann natürlich sein, dass über about:config noch was geht. Aber wer macht das schon?

hanneswobus

supervisior hat geschrieben:Die Bots, insbesondere diejenigen, die ihre Identität (versuchen zu) verbergen, kann ich in einem sehr hohen Maße ausschließen, zumal solche Bots in der Regel versuchen nicht als solche erkannt zu werden und deswegen in Analyse Tools wie GA oder Matomo erscheinen. Alle anderen werden zumindest bei mir schon vorher zu einem hohen Grad eliminiert. Bei solchen gibt es dann nur ein kurzes "Zucken" des Webservers, der den Aufruf mit einem 403 quittiert.

Die Bots sind aus meiner Sicht nicht das Problem, zumindest nicht in einem entscheidenden Maß, die eine so hohe Menge an "ungezieltem" Traffic gänzlich erklären würde.

ggf. kannst du hier mal genaueres zeigen?
ich meine ... es gibt bots u. es gibt bots usw.
lg

supervisior

FF macht das beim neuen TAB sicherlich, aber eben nicht beim Starten des Browsers. Dafür gibt es die gesonderte Einstellung, dass man auch die jeweils aktuelle, bzw. in diesem Fall dann zuletzt aufgerufene Seite als Startseite einstellen kann. Gleichermaßen gilt das auch beim Chrome, aber eben nur bei der Desktop Version.

Ich will das aber nicht auf den mobilen Chrome reduzieren, da es bei anderen Browsern in der Desktop Version genauso auftritt und ist auch gar nicht notwendig. Man kann aber mit großer Wahrscheinlichkeit ausmachen, dass die entweder bewusst gemachten Browser Einstellungen und besonders die nicht vorhandene Funktion in der mobilen Chrome Version derartigen Traffic verursacht. Bei einem Verhältnis von bis zu 15% des gesamten Traffics ist das der Killer schlechthin, wenn man Zielseiten definiert und man sich wundert, warum die Zielseiten so wenig Aktionen auslösen, obwohl die Statistik was anderes sagt.

heinrich

Also beim Starten eines meiner Browser werden automatisch an die zwanzig meiner eigenen Sites in Tabs geöffnet, denn da das ja im Hintergrund läuft, erspart man sich sehr viel Zeit, wenn man auf eine davon direkt zugreifen will. Da bin ich übrigens nicht der einzige, denn das machen viele meiner Kollegen so - die allerdings mehrere Nachrichtenseiten, damit die immer alles parat haben!

supervisior

hanneswobus hat geschrieben:
ggf. kannst du hier mal genaueres zeigen?
ich meine ... es gibt bots u. es gibt bots usw.
lg

Was meinst Du mit zeigen? Zeigen ist relativ und kann das nur insofern beschreiben, dass es sehr wohl Möglichkeiten zur Differenzierung gibt. Die sind nicht 100% safe, aber nahezu.

Mal nur 1 von mehreren Bespielen. Bots ungeachtet, ob "gut" oder "böse" haben beim crawlen eine gewisse Charakteristik. Bots, die sich als Nutzer ausgeben, aber Seiten aufrufen, die ein richtiger Nutzer gar nicht aufrufen kann, sind schon mal sehr auffällig. Um solche Bots ausfindig zu machen, habe ich "Fallen" aufgestellt in die gute Bots nicht treten, weil gute Bots i.d.R. keine Session aufmachen. "Böse" Bots wollen als solche ja nicht erkannt werden, deswegen werden Cookies, Javascript, Session usw. genauso toleriert wie bei einem herkömmlichen Nutzer. Wenn dann aber Seiten aufgerufen werden, die man nur aufrufen kann, weil man Links nur durch den Quellcode erkennt, dann ist das schon ein sehr unmittelbares Indiz dafür, dass der Bot "böse" ist. Die Trefferquote ist in jedem Fall weitaus höher als die Fehlrate.

Das ist jetzt nur angerissen und zur Identifizierung hab ich dann noch weitere Identifikationsmerkmale, um die Trefferrate so hoch zu halten.

supervisior

heinrich hat geschrieben:Also beim Starten eines meiner Browser werden automatisch an die zwanzig meiner eigenen Sites in Tabs geöffnet, denn da das ja im Hintergrund läuft, erspart man sich sehr viel Zeit, wenn man auf eine davon direkt zugreifen will. Da bin ich übrigens nicht der einzige, denn das machen viele meiner Kollegen so - die allerdings mehrere Nachrichtenseiten, damit die immer alles parat haben!

Richtig, aber das ist schon rausgerechnet. Ich weiß nicht, wie GA das macht, aber Matomo ist z.B. in der Lage zu erkennen, ob der TAB im Vordergrund aufgerufen wurde/wird. Diese Funktion wird von allen Browsern ungeachtet, ob Mobil oder Desktop unterstützt.

hanneswobus

supervisior hat geschrieben:
hanneswobus hat geschrieben:
ggf. kannst du hier mal genaueres zeigen?
ich meine ... es gibt bots u. es gibt bots usw.
lg
Was meinst Du mit zeigen? Zeigen ist relativ und kann das nur insofern beschreiben, dass es sehr wohl Möglichkeiten zur Differenzierung gibt. Die sind nicht 100% safe, aber nahezu.

Mal nur 1 von mehreren Bespielen. Bots ungeachtet, ob "gut" oder "böse" haben beim crawlen eine gewisse Charakteristik. Bots, die sich als Nutzer ausgeben, aber Seiten aufrufen, die ein richtiger Nutzer gar nicht aufrufen kann, sind schon mal sehr auffällig. Um solche Bots ausfindig zu machen, habe ich "Fallen" aufgestellt in die gute Bots nicht treten, weil gute Bots i.d.R. keine Session aufmachen. "Böse" Bots wollen als solche ja nicht erkannt werden, deswegen werden Cookies, Javascript, Session usw. genauso toleriert wie bei einem herkömmlichen Nutzer. Wenn dann aber Seiten aufgerufen werden, die man nur aufrufen kann, weil man Links nur durch den Quellcode erkennt, dann ist das schon ein sehr unmittelbares Indiz dafür, dass der Bot "böse" ist. Die Trefferquote ist in jedem Fall weitaus höher als die Fehlrate.

Das ist jetzt nur angerissen und zur Identifizierung hab ich dann noch weitere Identifikationsmerkmale, um die Trefferrate so hoch zu halten.

ja tut mir leid. da stelle ich mir natürlich die frage, was du dir in der diskussion erhoffst.
schau mal:
ich kenne solche u. solche bots. ich kenne bots, die mit banalen wgetspielchen / pingspielchen o. ref-spamspielchen da herum fummeln u. ich kenne mind. einen bot, der halt userverhalten sehr gut simulieren kann. beide geschichten können durchaus muster produzieren u. das meinte ich mit "zeigen". wenn du nun auch den austausch mit mir suchst, bin ich nunmal darauf angewiesen, dass du mir ein paar protokolle zeigst, screenshots aus deinem analytics / matomo / whatever zeigst u. eventuell koennte ich dir da helfen oder dir input geben. was mich nicht interessiert, ist die generelle bewertung v. bots im sinne von "doof" / "böse" / "hölle auf erden".

gruß