Wie man ("bad") Bots blocken kann - Neuer Versuch

supervisior

Nachdem es vor mehreren Monaten zu einem heftigen Disput geführt hat als ich einen Thread mit dem gleichen Thema veröffentlicht hatte, unternehme ich nun einen erneuten Versuch. Im nachhinein muss ich eíngestehen, dass mein erster Lösungsversuch nur bedingt geeignet war, um böse Bots tatsächlich gesichert blocken zu können, wobei "böse" natürlich relativ ist und das ein jeder für sich selbst entscheiden muss welcher Bot nun böse ist oder nicht. Ich für meinen Teil ist der Bot böse, der nicht dazu beiträgt, dass ich durch seinen Zugriff einen Vorteil habe. Dadurch reuziert sich für mich die Liste der guten Bots auf Google, Bing und noch ein paar handverlesene andere.

Generell ist das Thema unerwünschte Bots, Crawler, Scraper usw. zu blocken uralt. Allerdings gibt es nicht wirklich brauchbare Lösungen, zumindest sind mir keine bekannt. Von daher beschränkt sich die Blockerei darauf User-Agents oder IP Adressen auf eine Blockliste zu setzen und diese Liste durch welche Mittel auch immer dafür zu verwenden, um den Zugriff zu blockieren. Sowohl IPs als auch der User-Agent sind aber in hohem Maße fehlertolerant. Zumal diese Methodik dem Kampf gegen Windmühlen gleichkommt, weil so eine Liste weder aktuell noch vollständig sein kann. In jedem Fall macht es nur wenig Sinn mit dieser Methodik zu arbeiten.

Mein seit Jahren währendes Ziel war es einen vergleichsweise einfachen Filter zu schaffen, der im Idealfall mit ein paar Zeilen Code auskommt und ich nicht ständig irgendwelche Filterlisten pflegen muss. Im Frühjahr diesen Jahres bin ich dann zufällig auf die Sec-Fetch-* Request Header aufmerksam geworden, die inzwischen von allen Browsern bei jedem Request gesendet werden. Eine Ausnahme davon macht leider der Safari Browser auf dem Mac, was sich aber als kein sonderliches Problem darstellt.

Das Besondere an diesen Sec-Fetch-* Headern ist nun, dass diese Header nur von den Browsern gesendet werden hinter denen sich ein realer User verbirgt. Bots, Crawler, Scraper und ähnliches maschinengetriebenes Zeugs verwenden diese nicht. Nachdem ich seit inzwischen 10 Monaten alle Zugriffe in gesonderte Logfiles schreibe und dabei differenziere, welcher Request diese Header sendet, bzw. nicht sendet, kann ich mit 99,999999%iger Sicherheit sagen, dass ich keinen Zugriff falsch geblockt hätte. Das es nicht 100% sind, liegt daran, dass es 1 und immer nur 1 ganz bestimmten Bot gibt, der einen echten User tatsächlich so gut immitiert, dass ich nur an Hand der Bildschirm Auflösung erkennen kann, dass das kein natürlicher User sein kann. Einen Bildschirm mit 1024 x 1024 Auflösung gibt es meines Wissens nicht, obwohl ich am Nutzerverhalten und einer besonderen Vorrichtung meiner Webseiten erkennen kann, dass dieser User maschinengetrieben ist.

Die Lösung sieht nun also so aus, dass man an Hand der besagten Sec-Fetch-* Header feststellen kann, ob es sich bei einem Zugriff um einen natürlichen Nutzer handelt. Wie bereits erwähnt, unterstützt der Safari Browser diese Header bislang nicht. Das bdeutet, dass man diesen Browser auf eine Ausnahme Liste setzen muss, jedoch man dabei zwischen einem echten Safari Nutzer und dem Applebot unterscheiden muss, weil letzterer den gleichen UA verwendet. Nachdem es nach meinen Erfahrungen aus den letzten 20 Jahren unüblich ist, dass Bots den Safari Browser auf dem MAc als UA verwenden und mir noch nie untergekommen ist, ergibt sich daraus kein Nachteil.

Der ganz entscheidende Punkt ist nun Ausnahmen zu schaffen, eben um zu verhindern, dass man nicht den Falschen blockt, also die guten Bots oder was auch immer man für gut hält. Wie bereits erwähnt, habe ich diesen Filter inzwischen seit 9 Monaten im Einsatz und bislang konnte ich kein fälschlichweises blocken feststellen. Dazu nehme ich mir fast jeden Tag eine halbe Stunde Zeit, um die o.g. Logfiles zu überprüfen. Um das Genze abzusichern, habe ich Matomo so umfunktioniert, dass ich Zugriffe mit den genannten Headern und ohne getrennt voneinander tracken kann. Letzteres ist mit der Matomo Tracking API möglich, womit es kein Javascript braucht, um solche Requests tracken zu können. Mit dieser Matomo API ist es mir möglich auch !=200 Zugriffe zu tracken. Ich sehe damit in Matomo all das, was ich normalerweise nur über die access_log sehen würde.

Die oben beschriebene Lösung lässt sich mit ein paar Zeilen Code sowohl per PHP lösen, aber auch mittels .htaccess, sodass dadurch keine Server Resourcen für das Filtern verbraucht werden. Dreh- und Angelpunkt sind die Ausnahmen, aber die sind überschaubar gering und bedürfen in der Regel (fast) keine Pflege. Ich habe meine Ausnahmen seit 9 Monaten nicht mehr geändert. Warum auch? Eine neue Suchmaschine, die Google oder Bing gleichkommt, gibt es meines Wissens nicht, aber das sind nur meine Maßstäbe.

nerd

supervisior hat geschrieben: ↑29.11.2022, 16:57 Das Besondere an diesen Sec-Fetch-* Headern ist nun, dass diese Header nur von den Browsern gesendet werden hinter denen sich ein realer User verbirgt. Bots, Crawler, Scraper und ähnliches maschinengetriebenes Zeugs verwenden diese nicht.

Leider falsch; die ganzen sec-* header werden auch gesetzt wenn man den browser per selenium fernsteuert um damit automatisiert auf webseiten zuzugreifen.

Richtig: Der beste Bot ist ein echter Browser, der über Scripting ferngesteuert wird (Beispiel hier). Da hast du null Chance, irgendwas anhand von Headern o. Ä. zu erkennen, eben weil es ein ganz normaler Browser ist (mit dem Unterschied, dass die Eingaben nicht vom Mensch kommen, sondern von einem Programm). Da hilft nur eine Verhaltensanalyse, die unnatürliche Mauszeigerbewegungen, zu schnelles Springen von Seite zu Seite etc. erkennt.

Was passiert bei dir eigentlich mit legitimen Nutzern, die einen älteren Browser verwenden, der diese Header nicht sendet? Die blockierst du dann? Firefox z. B. unterstützt diese Header erst seit 1,5 Jahren. In einer idealen Welt würde niemand einen so alten Browser benutzen, aber in der Praxis passiert es dann doch: In Google Analytics finde ich für meine Seiten in den letzten 30 Tagen ca. zehntausend Besucher, die einen Browser nutzen, der alt genug ist, dass er diese Header nicht unterstützt.

Wenn du für diese älteren Browser (identifiziert via User Agent, dem du eigentlich nicht glauben darfst?) eine Ausnahme machen musst, dann kommen diejenigen Bots, die sich als ein solcher Browser ausgeben, unerkannt durch.

Deine Beobachtung, dass sich Bots nicht als Safari-Browser ausgeben, überrascht mich. Jeder ernstzunehmende Bot nutzt einen zufälligen User Agent (siehe z. B. dieses Paket hier), der anhand der Verteilung der verschiedenen Browser ausgewählt wird. Da Safari ziemlich weit verbreitet ist, wäre es doch arg komisch, wenn dieser niemals ausgewählt würde. Das spricht eher dafür, dass du diese Bots nicht als solche erkannt hast.

Ich betreibe auf meinen Seiten auch eine "Falle" für "bad actors". Alle, die sich fälschlicherweise als Googlebot ausgeben oder (höchstwahrscheinlich automatisiert) testen, ob gewisse Software mit bekannten Sicherheitslücken bei mir installiert ist oder SQL Injection möglich ist, landen in einer Log-Datei. Da sehe ich haufenweise angebliche Safari-Browser. Von derselben IP-Adresse kommen dann im Sekundentakt Requests, die jedes Mal eine andere Schwachstelle abklopfen, und jedes Mal ist es ein anderer User Agent. Nicht überraschend, dass da auch Safaris auf dem Mac dabei sind.

supervisior

Vielen Dank an Euch beide, dass Ihr Euch der Thematik aussetzt und Ihr Euch kontroverse Gedanken darum macht!

So sehr sich insbesondere Selenium in Kombination mit Python dazu eignet Scraping zu betreiben, was man als böse und somit als unerwünscht bezeichnen kann, mag es mit entsprechendem Aufwand möglich sein Nutzerverhalten zu immitieren. Zu dieser Immitation gehört auch, dass ich damit welchen Request Header auch immer nachbilden kann. Dazu brauche ich aber weder Selenium noch Python oder jede andere Sprache. Das macht meine Lösung deswegen aber nicht obsolet oder gänzlich unwirksam. Zumal diese Sec-Fetch-* Header nicht aus Jux und Tollerei ins Leben gerufen wurden. Da gab es schon vor mir schlaue Leute, die sich was dabei gedacht haben. Es ist deswegen nicht einzigst auf meinem Mist gewachsen. Ungeachtet dessen ist es nur eine Frage des Aufwands einen Weg zu finden, um beispielsweise Scraping so zu betreiben, dass es nahezu unmöglich erscheint einen Filter bereitzustellen, der automatisiertes Nutzerverhalten detektieren kann. Ich detektiere aber kein Nutzerverhalten, wofür Selenium primär gedacht ist, also das Immitieren des Nutzerverhaltens.

Dass meine Lösung nicht weltfremd ist und deswegen auch eine Daseinsberechtigung hat, die in jedem Falle besser ist als was man sonst so kennt, lässt sich dadurch unter Beweis stellen, wenn man sich mit den Sec-Fetch-* Headern auseinandersetzt.

https://web.dev/fetch-metadata/
https://www.w3.org/TR/fetch-metadata/
https://webappsec.dev/assets/pub/Google ... atures.pdf
https://secmetadata.appspot.com/

Nur um etwaigen Argumenten entgegen zu wirken. Der Verwendung der besagten Header ist keine allumfassende Master Lösung mit der man nur auf Basis derer seinen Server absichern kann. Allerdings lässt sich mit einer handvoll Zeilen Code ein sehr wirksamer Filter bereitstellen, der in jedem Falle besser ist als womit sonst versucht wird Gutes von Bösem zu unterscheiden.

staticweb

> Das Besondere an diesen Sec-Fetch-* Headern ist nun, dass diese Header nur von den Browsern gesendet werden hinter denen sich ein realer User verbirgt. Bots, Crawler, Scraper und ähnliches maschinengetriebenes Zeugs verwenden diese nicht.

Sorry, aber ich muss dir bescheinigen, dass du immer noch nicht begriffen hast, dass man mit einem headless Browser alles simulieren kann was nach einer menschlichen Interaktion aussieht. Daran wird sich auch in der nächsten Zeit nichts ändern.

supervisior

staticweb hat geschrieben: ↑30.11.2022, 08:13 Sorry, aber ich muss dir bescheinigen, dass du immer noch nicht begriffen hast, dass man mit einem headless Browser alles simulieren kann was nach einer menschlichen Interaktion aussieht. Daran wird sich auch in der nächsten Zeit nichts ändern.

Lese mal bitte was ich zuletzt geschrieben habe... Und lese Dich bitte auch in die Thematik dieser Header ein.

staticweb

> Lese mal bitte was ich zuletzt geschrieben habe... Und lese Dich bitte auch in die Thematik dieser Header ein.

Ich erkenne deinen Enthusiasmus ja an, aber eine zufriedenstellende Lösung wirst du damit nicht erreichen. Womit wir ja eigentlich beim Kernproblem sind. Welche Art von Bots, Crawlern, Spydern, ... willst du denn damit ausschließen? Google schreibt selbst "second defense line".

Und wenn ich die vielen Warnungen sehe, die Google selbst ausspricht, weiß ich wie Wartungs-aufwändig diese Lösung ist. Auch hier kann ich nur sagen, dass jeder selbst entscheiden sollte ob der Aufwand gerechtfertigt ist. Einen 100%-igen Bot-Schutz wird man damit nicht erreichen.

@supervisior:

Ich stimme dir zu, dass man mit deiner Methode wohl die allermeisten 08/15-Bots aussperren kann, sofern sich diese als ein moderner Browser ausgeben, jedoch die Sec-Header nicht senden.

Allerdings bist du nicht auf meine Frage eingegangen, wie du verhinderst, dass legitime menschliche Nutzer, die einen älteren oder "obskuren" Browser verwenden, ebenfalls ausgesperrt werden.

Hier musst du mit zahlreichen Ausnahmen arbeiten, z. B. alle (angeblichen) Firefoxes vor Version 90 (von letztem Jahr) und, wie du schon erkannt hast, sämtliche Safari-Versionen.

Also werden Bots, die sich genau als ein solcher Browser ausgeben, nicht blockiert. Da diese Browser in der freien Wildbahn vertreten sind (insbesondere Safari), landen sie auch auf den User Agent-Listen, welche die Bots verwenden, um von dort zufällig einen auszuwählen.

Ich werde das Ganze auch mal bei mir testen, natürlich erstmal nur mit Logging statt direkt zu sperren. Ich habe ohnehin schon ein PHP-Script, das vor jedem anderen PHP-Script aufgerufen wird. Dort habe ich meine aktuellen Fallen eingebaut. Ich bin gespannt, wie viele angebliche moderne Browser bei mir unterwegs sind, die die Sec-Header nicht senden. Ich werde meine Ergebnisse und ggf. Code hier teilen.

PS: Statt mit Ausnahmen für alte Browser zu arbeiten, werde ich den Test auf solche Browser beschränken, von denen ich zu 100% weiß, dass sie diese Header senden. Damit besteht dann kein Risiko mehr, dass jemand zu unrecht blockiert wird, bloß weil mir der Browser nicht bekannt war oder ich eine Ausnahme vergessen habe. Also z. B.: Wenn der User Agent = Firefox ≥ 90 und keine Sec-Header, dann loggen, da kein echter Firefox.

supervisior

staticweb hat geschrieben: ↑30.11.2022, 13:16 > Lese mal bitte was ich zuletzt geschrieben habe... Und lese Dich bitte auch in die Thematik dieser Header ein.

Ich erkenne deinen Enthusiasmus ja an, aber eine zufriedenstellende Lösung wirst du damit nicht erreichen. Womit wir ja eigentlich beim Kernproblem sind. Welche Art von Bots, Crawlern, Spydern, ... willst du denn damit ausschließen? Google schreibt selbst "second defense line".

Und wenn ich die vielen Warnungen sehe, die Google selbst ausspricht, weiß ich wie Wartungs-aufwändig diese Lösung ist. Auch hier kann ich nur sagen, dass jeder selbst entscheiden sollte ob der Aufwand gerechtfertigt ist. Einen 100%-igen Bot-Schutz wird man damit nicht erreichen.

Ich habe doch mehrfach betont, dass man für sich selbst festlegen muss, was gut ist und dementsprechend man vom filtern ausschließen will | muss. Das sind in der Regel aber Maßnahmen, die man nur einmalig trifft, zumindest nach meinen Maßstäben. Das ist übrigens eine typische Maßnahme, wenn man eine Firewall konfiguriert, welche dem Prinzip folgt:"Es ist grundsätzlich alles verboten, es sei denn es ist ausdrücklich erlaubt.", wobei das sehr hart klingt.

Zufriedenstellend ist relativ, wird aber schon mal dadurch eingegrenzt, dass es sich dabei nicht um eine Lösung handelt, die alle Sicherheitsvorkehrungen obsolet machen soll und auch gar nicht kann. Diese Lösung ist keine Sicherheitslösung, sondern hält nur mind. 99% des Rotz davon ab meinen Server mit unnötigen Anfragen zu belästigen.

Die Warnungen, die Google da ausgibt, werden zurecht ausgesprochen, weil Google vermeiden will, dass diese Sec-Fetch-* Header nicht als Ersatz der ansonsten typischen Sicherheitsvorkehrungen verstanden werden sollen. So wie ich diese Header verwende, geht's dabei aber weniger um Sicherheit, sondern den von mir nicht gewünschten Rotz fernzuhalten. Im Nebeneffekt haben diese Header aber trotzdem eine Sicherheitsfunktion. Warum? Na eigentlich ganz einfach. 99% all jener maschinengetriebener Requests, bzw. deren Authoren machen sich nur wenig Kopf darum ihre Identität zu verschleiern. Da wird ebenso zu 99% maximal ein echtwirkender User-Agent gesetzt, deren Version aber aus dem letzten Jahrtausend stammt. Da wird offenbar keine Zeit damit verschwendet die Request Header anzupassen, um einen realen User nachzuahmen.

Ich will das mal vereinfachen, PHP liefert alles und wenig Aufwand sich die Request Header ausgeben zu lassen. Deswegen schlage ich einfach mal vor, dass ihr das nutzt, um zumindest den praktischen Nachweis zu bekommen. Ich kann dabei nur betonen, Ihr werdet überrascht sein!

Übrigens... Mit den Sec-Fetch Header ist noch lange nicht Schluss, weil es auch noch die Sec-CH-* Header gibt. Diese werden aktuell zwar nur vom Chrome Browser unterstützt, aber es ist nur eine Frage der Zeit bis auch der FF diese unterstützt. Leider spielt der Safari Browser auf dem Mac wieder mal nicht mit. Irgendwie entwickelt sich der Safari Browser zum Internet Explorer.....

staticweb

> Leider spielt der Safari Browser auf dem Mac wieder mal nicht mit. Irgendwie entwickelt sich der Safari Browser zum Internet Explorer.....

Es gäbe ja eine Chromium Version für den Mac, aber ich glaube nicht dass Apple den Safari dafür opfert. Ich glaube eher denen wäre es am liebsten wenn sich alles in deren Universum abspielt.

supervisior

staticweb hat geschrieben: ↑30.11.2022, 14:19 > Leider spielt der Safari Browser auf dem Mac wieder mal nicht mit. Irgendwie entwickelt sich der Safari Browser zum Internet Explorer.....

Es gäbe ja eine Chromium Version für den Mac, aber ich glaube nicht dass Apple den Safari dafür opfert. Ich glaube eher denen wäre es am liebsten wenn sich alles in deren Universum abspielt.

Die Chrome Version für den Mac ist komplett außen vor und hat mit dem Safari Browser nichts zu tun. Deswegen funktioniert in Chrome für den Mac alles so wie gehabt. Die Einschränkungen gelten nur für den Apple Safari Browser auf dem Mac. Dass Apple mit diesen Header nicht mitspielen will, hat wohl mehr was damit zu tun, dass Apple sich dagegen sträubt sich Google als quasi Standard zu unterwerfen. Das mit den Sec-Fetch-* ist ja nicht nicht die einzige Ausnahme. Zumindest bis zur Version 13 des MAC OS unterstützt der Safari Browser keine .wepb images.

Dass Apple glaubt sich in einem anderen Universum zu befinden, ist ein ganz anderes Thema. Aus meiner Sicht eher kontraproduktiv!

supervisior

Hanzo2012 hat geschrieben: ↑30.11.2022, 13:38 Allerdings bist du nicht auf meine Frage eingegangen, wie du verhinderst, dass legitime menschliche Nutzer, die einen älteren oder "obskuren" Browser verwenden, ebenfalls ausgesperrt werden.

Warum sollte ich das tun? Oder anders gefragt, glaubst Du tatsächlich an maximale Sicherheit? Speziell DU solltest wissen, dass nicht möglich ist, also warum stellst Du so eine Frage, die nur darauf abzielen kann mich zu diskreditieren?

Was ist denn jetzt in dich gefahren?! Das ist doch eine legitime Frage, zumal du von 99,999...%iger Sicherheit sprachst, dass damit kein menschlicher Nutzer ungerechtfertigt geblockt wird. Die Frage zielte auch auf eine Balance zwischen "zu viel blocken" und "zu wenig blocken" ab. Anders gefragt: Ist es dir wichtiger, dass alle Bots geblockt werden, oder dass kein menschlicher Nutzer geblockt wird?

supervisior

Um das Ganze hier nochmal zu verdeutlichen, es geht nicht darum meine Lösung zur verhackstücken und und als Ganzes Frage zu stellen.

Es geht wenn überhaupt hier eine Diskussion anzuregen, wie man meine Lösung entweder verbessern kann oder die Einschränkugen aufzuzeigen. Wer dies von vornherein auschließt, disqulifiziert sich als Diskussionsteilnehmen.

staticweb

> Einen Bildschirm mit 1024 x 1024 Auflösung gibt es meines Wissens nicht, ...

Es können auch schon lange keine HW Infos mehr ausgelesen werden. Und wenn du den ViewPort meinst, den gibt es in jeder erdenkbaren Auflösung.