registrieren registriertes Mitglied


Anzeige

Googlebot erkennen

Alles über Google diskutieren wir hier.
santamo
PostRank 1
PostRank 1
Beiträge: 24
Registriert: 17.07.2017, 13:46

Beitrag santamo » 05.02.2020, 21:22 Googlebot erkennen

Moin zusammen,

fangen eigentlich alle von Google benutzten IPs mit 66.249.xx.xx an?

Mir sind jetzt ein paar Russen aufgefallen, die sich gerne als Googlebot tarnen, z.b ....pppoe.omsknet.ru

Würde ja gerne alles bannen, was sich als Google ausgibt und nicht mit og. IP beginnt.

Oder kann das ins Auge gehen?

Danke und viele Grüße,

Mike

Anzeige von:

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1903
Registriert: 26.09.2011, 23:31

Beitrag Hanzo2012 » 05.02.2020, 21:25 Googlebot erkennen

Ja, das kann und wird ins Auge gehen!
Schau hier, was Google sagt, wie man den Googlebot sicher erkennen kann: https://support.google.com/webmasters/answer/80553
(Du musst den Hostnamen zur IP-Adresse ermitteln und schauen, ob er mit ".googlebot.com" oder ".google.com" endet.)

supervisior
PostRank 9
PostRank 9
Beiträge: 1899
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 06.02.2020, 06:00 Googlebot erkennen

Hanzo2012 hat geschrieben:
05.02.2020, 21:25
Ja, das kann und wird ins Auge gehen!
Schau hier, was Google sagt, wie man den Googlebot sicher erkennen kann: https://support.google.com/webmasters/answer/80553
(Du musst den Hostnamen zur IP-Adresse ermitteln und schauen, ob er mit ".googlebot.com" oder ".google.com" endet.)

Google sagt das zwar so und hat natürlich recht, um bei der Identifizierung absolut sicher zu gehen, aber ich habe beides in großem Stil und über einen längeren Zeitraum ausprobiert. Im Vergleich zu Bing klappt das mit der 66.249.x.x fehlerfrei. Frag jetzt aber bitte nicht, wofür ich das brauche....

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1903
Registriert: 26.09.2011, 23:31

Beitrag Hanzo2012 » 06.02.2020, 07:46 Googlebot erkennen

Wer sagt dir, dass Google nicht morgen einen zusätzlichen IP-Adressblock erwirbt und den auch für Crawler nutzt, oder seine hunderttausende IP-Adressen intern umstrukturiert?

Den Hostnamen zu ermitteln ist in PHP mit der Funktion „gethostbyaddr“ möglich. Das ist genauso ein Einzeiler wie zu prüfen, ob die IP mit 66.249 beginnt, nur eben sicherer. Dauert allerdings ein paar Millisekunden. Könnte man ggf. cachen, wenn das ein Problem ist.

supervisior
PostRank 9
PostRank 9
Beiträge: 1899
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 06.02.2020, 07:56 Googlebot erkennen

Da hast Du absolut recht! Wir reden hier aber von Google und nicht vom nächsten Providerwechsel vom Umzug eines WP Blogs. Wenn Google die IP Adressen seiner Bots ändern will, dann ist das ein kleiner Staatsakt und selbst wenn, dann ändert man die IP Adressen halt einfach und das ist dann kein Staatsakt. :)

Nicht falsch verstehen, wenn man 101% sichergehen will, dann nur unter Prüfung des RDNS, aber das dauert eben ein Stück weit länger als die IP zu bekommen.

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1903
Registriert: 26.09.2011, 23:31

Beitrag Hanzo2012 » 06.02.2020, 09:05 Googlebot erkennen

Ich persönlich bevorzuge in diesem Fall maximale Sicherheit, denn ein versehentliches Blockieren des Googlebots kann großen Schaden anrichten. Wahrscheinlich wär's im Ernstfall nicht ganz so tragisch, weil man von Google via Search Console über Probleme informiert würde (oder?), aber ich möchte es nicht drauf ankommen lassen.

Ein Vorschlag für eine pragmatische Vorgehensweise, die sowohl sicher als auch schnell ist (schnell, solange Google seine IPs nicht ändert):

Ein Fake-Googlebot (den man guten Gewissens blockieren kann) liegt dann vor, wenn alle der folgenden Bedingungen erfüllt sind:
1. sein User Agent behauptet, er sei ein Googlebot
2. seine IP beginnt nicht mit 66.249
3. sein Hostname endet nicht auf .google.com oder .googlebot.com

Wenn man Bedingung 2 vor Bedingung 3 testet, kommt es erst dann zu einer langsamen Reverse DNS-Anfrage, wenn Google mal seine IPs ändert (in dem Fall könnte das Script direkt eine E-Mail an den Admin schicken, damit der sich das anschauen kann).

supervisior
PostRank 9
PostRank 9
Beiträge: 1899
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 06.02.2020, 09:29 Googlebot erkennen

Du hast ja nicht ganz unrecht. Ginge es nur darum sicherzustellen, ob Google auch Google ist und sonst nix, müssten wir das nicht ausdiskutieren. Bei der Fragestellung, ob Google nun Google ist oder nicht, verbindet sich ja eine wie auch immer geartete Funktion oder Zielsetzung, wobei ich das gar nicht so hoch aufhängen will. Allein schon während des Requests festzustellen, ob Google auch Google ist, zieht ja eine Konsequenz nach sich. Die IP Adresse bekomme ich ohne zutun während des Requests schon mitgeliefert. Den RDNS muss ich mir separat erst holen. Und auch wenn das im allergünstigsten Fall nur im Millisekunden Bereich liegen mag, gibt es unweigerlich eine Verzögerung. Wenn ich das bei jedem Request machen muss, baue ich mir damit unweigerlich eine Bremse ein. Darauf kann zumindest ich verzichten, wenn ich für mich empierisch feststellen kann, dass mir die IP Adresse ausreicht. Wäre dem nicht so, hätte mir Google schon längstens auf die Füße getreten, dass es irgendwelche Problem beim Crawlen gibt. Und ich praktiziere das nicht erst seit 3 Tagen so, sondern mind. 3 Jahre lang.

Aber es gilt, Du hast uneingeschränkt recht, wenngleich mit der besagten Einschränkung!

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1903
Registriert: 26.09.2011, 23:31

Beitrag Hanzo2012 » 06.02.2020, 09:32 Googlebot erkennen

Darum schlage ich ja vor, den RDNS erst dann - und nur dann - zu machen, wenn der User Agent behauptet, es sei ein Googlebot, die IP jedoch nicht mit 66.249 beginnt. Quasi als letzte Chance, bevor eine wie auch immer geartete Reaktion (z. B. Bannen) gegen den vermeintlichen Fake-Bot erfolgt. Dann hast du kein Problem mit langsamem RDNS, aber trotzdem maximale Sicherheit.

Übrigens, was ist eigentlich mit IPv6? Sind Googlebots unterwegs, die via IPv6 crawlen?

supervisior
PostRank 9
PostRank 9
Beiträge: 1899
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 06.02.2020, 09:40 Googlebot erkennen

Hanzo2012 hat geschrieben:
06.02.2020, 09:32
Übrigens, was ist eigentlich mit IPv6? Sind Googlebots unterwegs, die via IPv6 crawlen?
Nicht, dass ich wüsste....

staticweb
PostRank 9
PostRank 9
Beiträge: 1919
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 06.02.2020, 12:13 Googlebot erkennen

>> Übrigens, was ist eigentlich mit IPv6? Sind Googlebots unterwegs, die via IPv6 crawlen?

> Nicht, dass ich wüsste....

Setzt doch mal einen Server auf, der nur über IPv6 zu erreichen ist. Mal schauen was passiert.

santamo
PostRank 1
PostRank 1
Beiträge: 24
Registriert: 17.07.2017, 13:46

Beitrag santamo » 06.02.2020, 13:17 Googlebot erkennen

Hanzo2012 hat geschrieben:
06.02.2020, 09:05
I
Ein Fake-Googlebot (den man guten Gewissens blockieren kann) liegt dann vor, wenn alle der folgenden Bedingungen erfüllt sind:
1. sein User Agent behauptet, er sei ein Googlebot
2. seine IP beginnt nicht mit 66.249
3. sein Hostname endet nicht auf .google.com oder .googlebot.com

Wenn man Bedingung 2 vor Bedingung 3 testet, kommt es erst dann zu einer langsamen Reverse DNS-Anfrage, wenn Google mal seine IPs ändert (in dem Fall könnte das Script direkt eine E-Mail an den Admin schicken, damit der sich das anschauen kann).
Guter Vorschlag. Besten Dank ;)

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag