Funktionierende Crawlersteuerung ?

nanos · **nanos** » 28.02.2016, 10:57 **Funktionierende Crawlersteuerung ?**

Hey,

wie kann man es wirkungsvoll verhindern, dass Google URLs indexiert ?
Wir haben es bislang immer per robots.txt versucht, aber gerade in letzter Zeit hält sich da Google anscheinend überhaupt nicht mehr dran und indexiert immer mehr Seiten die wir per robots.txt seit Monaten gesperrt haben (alles korrekt eingebunden und per GSC-Robots.txt-Tester gestestet).
Ein Noindex auf diesen Seiten macht ja auch wenig Sinn.

Ergo, wie soll man eine vernünftige Crawlersteuerung hinbekommen, wenn Google dennoch die gesperrten URLs crawlt und sogar indexiert ?

Can · **Can** » 28.02.2016, 11:55 **Funktionierende Crawlersteuerung ?**

Google hält sich exakt daran. Wenn du sie in der Robots vom crawlen ausschließt kann er kein noindex finden. Verlinkt jetzt irgendwas diese Seite kann sie somit in den Index.

Von daher ist es kein Problem dem Google Bot "Zugriff" zu gewähren.

vg

nanos · **nanos** » 28.02.2016, 12:57 **Funktionierende Crawlersteuerung ?**

Can hat geschrieben:Google hält sich exakt daran. Wenn du sie in der Robots vom crawlen ausschließt kann er kein noindex finden. Verlinkt jetzt irgendwas diese Seite kann sie somit in den Index.

Von daher ist es kein Problem dem Google Bot "Zugriff" zu gewähren.

vg

Wenn eine Seite Noindex ist, crawlt Google sie ja. Das will ich aufgrund des Crawlingbudgets verhindern, indem ich die Seiten per robots.txt aussperre.
Nun ist es aber nicht so, dass Google sich exakt dran hält sondern Google hat jetzt alle Urls (über 50.000), die per robots.txt gesperrt sind, indexiert.

Wenn Google eine Seite nicht cralen darf, dann kann sie doch unmöglich indxiert werden. Außer Google hat sich nicht an das Crawlverbot der robots.txt gehalten...

Can · **Can** » 28.02.2016, 13:31 **Funktionierende Crawlersteuerung ?**

Doch.

Hatte noch nie Seiten die nicht mehr indexiert wurden weil das Crawling Budget aufgebraucht war. Daher robots freigeben, dann wird noindex gewertet. Teste es halt.

nanos · **nanos** » 28.02.2016, 17:34 **Funktionierende Crawlersteuerung ?**

Can hat geschrieben:Doch.

Hatte noch nie Seiten die nicht mehr indexiert wurden weil das Crawling Budget aufgebraucht war. Daher robots freigeben, dann wird noindex gewertet. Teste es halt.

Du verstehst glaube ich nicht was ich meine. Ich will den Crawler entlasten und daher per robots die URLs aussperren, die keinen Mehrwert für ihn haben. Diese URLs DÜRFEN dann ja nicht mehr vom Crawler gecrawlt werden und können somit eigentlich NICHT indexiert werden.
Da Google aber anscheinend die Anweisung in der robots ignoriert, crawlt Google die unwichtigen URLs und indexiert sie.

Das ich mit noindex URLs aus dem Index bekomme ist mir vollkommen klar. Jedoch ist das nicht Sinn und Zweck der Aktion. Sinn und Zweck ist es, dass Google die Seiten gar nicht erst besucht/crawlt!

Can · **Can** » 28.02.2016, 20:14 **Funktionierende Crawlersteuerung ?**

Ok das ist nett von dir aber so ist es nun mal. Google halt mal nach "Trotz robots.txt Seiten im Google Index"

Versuchen könnte man mal noch wie sich ein X-Robots-Tag auswirkt. Aber ich denke das ändert auch nichts. Von daher wenn du ans Ziel willst: robots raus, noindex drinn lassen.

vg

untief · **untief** » 29.02.2016, 12:25 **Funktionierende Crawlersteuerung ?**

Can hat geschrieben:Von daher wenn du ans Ziel willst: robots raus, noindex drinn lassen.

So ist es und später, wenn alle URLs raus sind, kann man wieder robots.txt setzen.

Nicos · **Nicos** » 29.02.2016, 15:20 **Funktionierende Crawlersteuerung ?**

und auf alle Fälle auch darauf achten, dass die nicht zu crawlenden URLs nicht in irgendwelchen Sitemaps stehen, oder intern zusätzlich verlinkt sind, weil Du sonst den Crawler immer wieder drauf schickst!

Ansonsten alle auf noindex und warten bis sie raus sind, dann via robots den Crawler komplett aussperren. Alternativ kannst Du die URLs auch über die SearchConsole rauswerfen, das geht oft schneller als auf den Crawler zu warten, der das noindex endlich entdecken soll!

....und wenn Du es ganz dirty machen möchtest, Cloaking wäre auch noch eine Option!

Can · **Can** » 29.02.2016, 18:31 **Funktionierende Crawlersteuerung ?**

Nicos hat geschrieben:Ansonsten alle auf noindex und warten bis sie raus sind, dann via robots den Crawler komplett aussperren. Alternativ kannst Du die URLs auch über die SearchConsole rauswerfen, das geht oft schneller als auf den Crawler zu warten, der das noindex endlich entdecken soll!

Nicos du hast immer noch nichts verstanden oder?

nanos · **nanos** » 29.02.2016, 18:49 **Funktionierende Crawlersteuerung ?**

Ich erkläre es nochmal. Vielleicht war ich anfangs nicht klar verständlich.

Folgende Situation:
Wir betreiben einen Online Shop auf dessen Kategorieseiten wir die unwichtigen Filterurls jahrelang mit noindex ausgezeichnet haben. Das hat auch immer geklappt, die URLs waren nie im Index.
Dann haben wir aufgrund der Einsparung von Crawlingbudget (warum soll Google noindex-Filterurls crawlen, die unwichtig für Google sind und wir auch nicht im Index haben wollen) uns gedacht, dass wir die FilterURLs einfach per robots.txt sperren.
Das haben wir dann auch umgehend getan. Ergo Sperrung durch robots.txt + weiteres Beibehalten von Noindex (ich weiß, dass bringt nichts, aber schaden kann es auch nichts dachte ich mir).
Doch seitdem wir die Sperrung in der robots.txt haben ignoriert Google sie und indexiert fröhlich die FilterURLs. In den Serps steht dann anstatt der Meta Description zwar "Durch robots gesperrt usw", aber nichtsdestotrotz sind die URLs im Index und haben unseren Shop von ca. 2.000 URL auf mittlerweile knapp 100.000 URLs aufgebläht.

Can · **Can** » 29.02.2016, 19:32 **Funktionierende Crawlersteuerung ?**

nanos hat geschrieben:Ich erkläre es nochmal. Vielleicht war ich anfangs nicht klar verständlich.

Folgende Situation:
Wir betreiben einen Online Shop auf dessen Kategorieseiten wir die unwichtigen Filterurls jahrelang mit noindex ausgezeichnet haben. Das hat auch immer geklappt, die URLs waren nie im Index.
Dann haben wir aufgrund der Einsparung von Crawlingbudget (warum soll Google noindex-Filterurls crawlen, die unwichtig für Google sind und wir auch nicht im Index haben wollen) uns gedacht, dass wir die FilterURLs einfach per robots.txt sperren.
Das haben wir dann auch umgehend getan. Ergo Sperrung durch robots.txt + weiteres Beibehalten von Noindex (ich weiß, dass bringt nichts, aber schaden kann es auch nichts dachte ich mir).
Doch seitdem wir die Sperrung in der robots.txt haben ignoriert Google sie und indexiert fröhlich die FilterURLs. In den Serps steht dann anstatt der Meta Description zwar "Durch robots gesperrt usw", aber nichtsdestotrotz sind die URLs im Index und haben unseren Shop von ca. 2.000 URL auf mittlerweile knapp 100.000 URLs aufgebläht.

Ich diagnostiziere: Beratungsresistent.

Was willst du eigentlich, dein Problem lösen oder diskutieren?

nanos · **nanos** » 29.02.2016, 19:41 **Funktionierende Crawlersteuerung ?**

Can hat geschrieben:
nanos hat geschrieben:Ich erkläre es nochmal. Vielleicht war ich anfangs nicht klar verständlich.

Folgende Situation:
Wir betreiben einen Online Shop auf dessen Kategorieseiten wir die unwichtigen Filterurls jahrelang mit noindex ausgezeichnet haben. Das hat auch immer geklappt, die URLs waren nie im Index.
Dann haben wir aufgrund der Einsparung von Crawlingbudget (warum soll Google noindex-Filterurls crawlen, die unwichtig für Google sind und wir auch nicht im Index haben wollen) uns gedacht, dass wir die FilterURLs einfach per robots.txt sperren.
Das haben wir dann auch umgehend getan. Ergo Sperrung durch robots.txt + weiteres Beibehalten von Noindex (ich weiß, dass bringt nichts, aber schaden kann es auch nichts dachte ich mir).
Doch seitdem wir die Sperrung in der robots.txt haben ignoriert Google sie und indexiert fröhlich die FilterURLs. In den Serps steht dann anstatt der Meta Description zwar "Durch robots gesperrt usw", aber nichtsdestotrotz sind die URLs im Index und haben unseren Shop von ca. 2.000 URL auf mittlerweile knapp 100.000 URLs aufgebläht.
Ich diagnostiziere: Beratungsresistent.

Was willst du eigentlich, dein Problem lösen oder diskutieren?

Wenn ich die Seiten auf Noindex stelle und die Robots.txt-Sperrung wieder rausnehme, bin ich auf demselben Level, auf dem wir immer waren. Dann fliegen die URLs zwar wieder aus dem Index (das ist mir klar), aber dennoch habe ich keine Einsparung des Crawlingbudgets erreicht (was einzig und allein Sinn und Zweck der Aktion war)!

Can · **Can** » 29.02.2016, 21:04 **Funktionierende Crawlersteuerung ?**

Nein dann gehst du in die Webmastertools unter Crawling und definierst dort die Filterparameter.

Btw - hast du wirklich eine Einschränkung der Indexierung verspührt oder ist diese Maßnahme präventiv?

nanos · **nanos** » 29.02.2016, 22:24 **Funktionierende Crawlersteuerung ?**

Can hat geschrieben:Nein dann gehst du in die Webmastertools unter Crawling und definierst dort die Filterparameter.

Btw - hast du wirklich eine Einschränkung der Indexierung verspührt oder ist diese Maßnahme präventiv?

Das habe ich nach der Indexierung auch gleich getan. Vorher hat da niemand dran gedacht.
Die Maßnahme haben wir präventiv durchgeführt. Intelligente Crawlersteuerung spart Google enorme Ressourcen und daher gehe ich davon aus, dass dies über kurz oder lang auch von Google honoriert wird.

Can · **Can** » 29.02.2016, 23:24 **Funktionierende Crawlersteuerung ?**

Naja Google ist schon gut in HInsicht auf Effizienz. Wenn du was tun willst verwende Schema.org dann ist deine Inhaltsstruktur nicht mehr nur durch deine Seitenstruktur abgebildet.

Also würde ich das wirklich Rückgängig machen. Der Sinn von Robots disallow war übrignes, dass Bots auf deinem Server rechenintensive URLs nicht exkzessiv aufrufen - wenn ich mich recht erinnere.

Denn das jetzt hat dir vermutlich irrelevante Seiten in den Index geblasen die Nutzer mit hoher Abbruchrate erzeugt haben. Das schadet dir im Endeffekt vermutlich mehr als es nutzt.