Link Validierung hinter Cloudfront

HelgeSchneider · **HelgeSchneider** » 23.06.2025, 14:16 **Link Validierung hinter Cloudfront**

Hi,

ich habe in meinen Projekten eine Validierung externer Links eingebaut (JavaCode). Dh wenn ich das Projekt deploye, werden alle ausgehenden Links auf Erreichbarkeit geprüft.

Viele Seiten verwenden mittlerweile CloudFront. Da kommt man natürlich mit einem einfachen HTTP GET nicht dahiner, auch nicht mit "User-Agent" und sonstigen HTTP Headern. Es kommt immer ein HTTP 403 zurück. Kann man auch einfach mit Curl prüfen.

Mein Ziel ist es nicht die Sicherheitsmechanismen von CloudFront zu umgehen.

Hat jemand eine andere Idee wie man die Links prüfen kann? Gibt es vielleicht eine Möglichkeit bei Cloudfront direkt anzufragen ob die URLs existieren? Die CloudFront Doku hat mich nicht so richtig erhellt.

Ich will ja nicht manuell immer wieder prüfen ob alle Links erreichbar sind.

Danke euch

**Hanzo2012** » 23.06.2025, 19:44 **Link Validierung hinter Cloudfront**

Rufe eine URL mal mit deinem Browser auf und lass dir in der Entwicklerkonsole sämtliche Header der Anfrage anzeigen. Die kopierst du dann exakt. Dann sollte das eigentlich gehen.

nerd · **nerd** » 25.06.2025, 03:05 **Link Validierung hinter Cloudfront**

Hanzo2012 hat geschrieben: ↑23.06.2025, 19:44 Rufe eine URL mal mit deinem Browser auf und lass dir in der Entwicklerkonsole sämtliche Header der Anfrage anzeigen. Die kopierst du dann exakt. Dann sollte das eigentlich gehen.

Nein? Bin sicher daß die header pro session unterschiedlich sind und sich je nach browser, IP usw. ändern.

**Hanzo2012** » 25.06.2025, 06:42 **Link Validierung hinter Cloudfront**

nerd hat geschrieben: ↑25.06.2025, 03:05
Hanzo2012 hat geschrieben: ↑23.06.2025, 19:44 Rufe eine URL mal mit deinem Browser auf und lass dir in der Entwicklerkonsole sämtliche Header der Anfrage anzeigen. Die kopierst du dann exakt. Dann sollte das eigentlich gehen.
Nein? Bin sicher daß die header pro session unterschiedlich sind und sich je nach browser, IP usw. ändern.

Der Header der Anfrage, die dein Browser sendet, enthält keine IP-Adresse.

Browser-spezifische Dinge natürlich, insbesondere User-Agent. Aber es geht ja auch darum, einen bestimmten (zufällig ausgesuchten) in Browser zu imitieren. Und solange da kein Captcha o. Ä. kommt, sollte das klappen. Für die meisten 08/15-Seiten bestimmt.

Habe auf diese Weise schon überraschend viele Seiten automatisiert abgerufen.

HelgeSchneider · **HelgeSchneider** » 25.06.2025, 09:04 **Link Validierung hinter Cloudfront**

Hi Hanzo2012,
danke für den Hinweis. Ich habe die Header erweitert, aber es geht manchmal und manchmal nicht. Meine aktuelle Theorie: Wenn ich mit Browser die Seite aufrufe, kann ich nachher auch mit curl drauf. Ansonsten geht es oft nicht. Ich spiele weiter ...

**Hanzo2012** » 25.06.2025, 09:07 **Link Validierung hinter Cloudfront**

HelgeSchneider hat geschrieben: ↑25.06.2025, 09:04 Hi Hanzo2012,
danke für den Hinweis. Ich habe die Header erweitert, aber es geht manchmal und manchmal nicht. Meine aktuelle Theorie: Wenn ich mit Browser die Seite aufrufe, kann ich nachher auch mit curl drauf. Ansonsten geht es oft nicht. Ich spiele weiter ...

Wenn das so ist, dann bau dir automatisiert eine HTML-Datei, die alle abzugrasenden Seiten als iframe einbindet. Die Datei lädst du einmal mit deinem Browser, dann werden alle Seiten geladen, und anschließend kannst du mit cURL drauf.

HelgeSchneider · **HelgeSchneider** » 25.06.2025, 09:22 **Link Validierung hinter Cloudfront**

Ziemlich coole Idee

staticweb · **staticweb** » 25.06.2025, 09:37 **Link Validierung hinter Cloudfront**

Es kann ja eigentlich nur am User Agent liegen, denn der Google und andere (white) Bots müssen die Ressourcen ja auch ohne größere Restriktionen erreichen. Am Ende wird es darauf hinauslaufen einen headless browser zu nutzen um solche Aktionen auszuführen. Dann geht man den meisten Problemen aus dem Weg.

**Hanzo2012** » 25.06.2025, 10:35 **Link Validierung hinter Cloudfront**

staticweb hat geschrieben: ↑25.06.2025, 09:37 Es kann ja eigentlich nur am User Agent liegen, denn der Google und andere (white) Bots müssen die Ressourcen ja auch ohne größere Restriktionen erreichen. Am Ende wird es darauf hinauslaufen einen headless browser zu nutzen um solche Aktionen auszuführen. Dann geht man den meisten Problemen aus dem Weg.

Nicht nur User Agent, die prüfen sicherlich auch, ob die anderen Header sinnvoll sind und zum angeblichen Browser passen. Sogar die Reihenfolge der Header kann man nutzen. Viele Bots, die sich als normaler Browser ausgeben, fälschen nur den User Agent und lassen sich somit leicht erkennen.
Googlebot und viele andere wichtige "gute" Bots kann man über die IP-Adresse erkennen, die sich kaum fälschen lässt. Viele Firmen veröffentlichen sogar eine stets aktuelle Liste von IP-Adressen, von denen aus sie crawlen. Die kann man dann whitelisten.
Anhand der IP-Adresse lässt sich auch erkennen, ob der Aufruf von einem Datacenter kommt oder von bekannten Hostern wie z. B. Hetzner, OVH etc., dort kann man dann ein Captcha ausspielen.

staticweb · **staticweb** » 25.06.2025, 12:08 **Link Validierung hinter Cloudfront**

Cloudfront hat inzwischen sicher mit den größten Datenbestand an IP-Adressen und kann darüber Regeln aufstellen ob und wie etwas ausgeliefert wird. Aber auch hier gibt es Methoden das zu manipulieren. Und ja wenn der User Agent nicht ausreicht muss man den Aufwand halt erweitern. Am Ende läuft aber alles auf eine headless browser Lösung hinaus.