Hanzo2012 hat geschrieben: ↑30.11.2022, 15:39
Der Ansatz mit der Positivliste hat den Vorteil, dass es unwahrscheinlicher ist, dass ein legitimer Nutzer oder erwünschter Bot blockiert wird.
Wenn in deiner Negativliste etwas fehlt, dann führt das dazu, dass potenziell legitime Nutzer oder erwünschte Bots blockiert werden (nicht gut, im schlimmsten Fall existenzbedrohend, siehe unten). Wenn in meiner Positivliste etwas fehlt, dann führt das dazu, dass potenziell mehr Bots durchkommen (auch nicht schön, aber damit kann man leben).
Aber hier noch ein praktisches Beispiel, warum eine Negativliste gefährlich ist: Wer einen Shop betreibt und Zahlungen via PayPal akzeptiert, der hat ein Script auf seiner Seite, das von PayPal aufgerufen wird, wenn eine Zahlung eingeht. Damit wird dem Shop Bescheid gegeben, dass eine Bestellung bezahlt wurde. Ich hab's nicht getestet, aber ich würde darauf wetten, dass PayPal beim Aufruf des Scripts keine Sec-Fetch-Header mitsendet. Wenn du daran nicht gedacht hast und keine Ausnahme für PayPal in deiner Negativliste hast (oder wenn PayPal irgendwann mal den User Agent ändert), dann wird PayPal blockiert, was dann dazu führt, dass der Shop nicht mehr richtig funktioniert.
Weitere (wichtige/nützliche) Dinge, die man mit der Negativliste sehr leicht blockieren könnte, ohne es zu wollen:
- Aufrufe des LetsEncrypt-Bots bei der Ausstellung/Erneuerung von SSL-Zertifikaten
- Aufrufe der ads.txt von Werbe-Diensten (sehr wichtig für deine Werbeeinnahmen)
- Aufrufe deiner Seite, um zu prüfen, ob du einen Code zur Bestätigung der Inhaberschaft eingebaut hast
- Crawler von weniger bekannten Suchmaschinen
- Crawler von Preisvergleich-Seiten (sehr wichtig für Shops)
- Lokale Caches oder ModPagespeed, die deine Seiten aufrufen
- Monitoring-Tools, die auf Wunsch den Status deiner Seite überwachen, um dich zu informieren, wenn es ein Problem gibt
- SEO-Tools, die auf Wunsch deine Seite analysieren
- RSS-Feed-Fetcher (nützlich für Foren und Blogs)
- WordPress Trackbacks und Pingbacks
- URL-Preview-Renderer, die z. B. zum Einsatz kommen, wenn man in sozialen Netzwerken oder Messengern eine URL teilt
Das alles sind legitime automatisierte Aufrufe, die aus gutem Grund erfolgen, und bei den meisten davon werden wohl keine Sec-Fetch-Header mitgesendet. Die User Agents kann man kaum alle in einer Negativliste/Ausnahmenliste erfassen, einfach weil es so viele verschiedene davon gibt und immer wieder neue dazukommen.