(De)Indexieren? Umgang mit Kategorie- und Schlagwort-Seiten (Blog)

musikzumm

Hallo,

Wir sind ein Blog mit täglich neuen Beiträgen. Alle Texte werden Kategorien zugeordnet und verschlagwortet. In der Konsequenz wurden über die Jahre hunderte Schlagwort-Seiten ohne inhaltliche Bezüge oder zu Beiträgen, Duplicate-Content-erzeugende Kategorieübersichten, Archiv-Seiten indexiert.

Gibt es eine Möglichkeit, Tag-Pages und „Category“-Seiten nachträglich zu de-indexieren bzw. zu sperren – oder Google generell für all diese Seiten, etwa über ein CMS-Plugin (wir nutzen Wordpress-->Yoast), mitzuteilen, diese Seiten zu entfernen?

Wie seht ihr das allgemein bzw. wie ist euer Umgang damit:

Sollte man das Indizieren von Kategorie- /Tag-seiten pauschal unterbinden? Oder kommt es dann zu Problemen, da ja schon hunderte solcher Seiten im Index sind - leider wurde es versäumt, diese Inhalte von Beginn an zu sperren.

Danke für die Hilfe und LG

Martin Bongartz

Kurz und knapp: Mit Yoast auf noindex stellen um die Seiten aus dem Index zu bekommen. Wenn die nicht mehr gelistet sind, via Robots.txt vom Crawling ausschließen um das Crawl-Budget zu sparen.

arnego2

Martin Bongartz hat geschrieben: ↑24.06.2020, 14:16 Kurz und knapp: Mit Yoast auf noindex stellen um die Seiten aus dem Index zu bekommen. Wenn die nicht mehr gelistet sind, via Robots.txt vom Crawling ausschließen um das Crawl-Budget zu sparen.

Nun ich empfehle dir mal dieses hier durchzulesen:
https://www.searchenginejournal.com/goo ... ex/314961/

Titel sagt es schon Google Cancels Support for Robots.txt Noindex

Yoast ist seit dem Yoast Bug auch nicht mehr zu trauen:
https://www.searchenginejournal.com/yoa ... ug/255639/ und
https://flothemes.com/yoast-seo-bug/

Martin Bongartz

arnego2 hat geschrieben: ↑24.06.2020, 18:04
Martin Bongartz hat geschrieben: ↑24.06.2020, 14:16 Kurz und knapp: Mit Yoast auf noindex stellen um die Seiten aus dem Index zu bekommen. Wenn die nicht mehr gelistet sind, via Robots.txt vom Crawling ausschließen um das Crawl-Budget zu sparen.
Nun ich empfehle dir mal dieses hier durchzulesen:
https://www.searchenginejournal.com/goo ... ex/314961/

Titel sagt es schon Google Cancels Support for Robots.txt Noindex

Yoast ist seit dem Yoast Bug auch nicht mehr zu trauen:
https://www.searchenginejournal.com/yoa ... ug/255639/ und
https://flothemes.com/yoast-seo-bug/

Ja Google unterstützt kein Noindex mehr über die Robots.txt aber in den Metadaten geht es ja noch ohne Probleme. Oder was meinst du?

Sobald die Seiten aus dem Index sind, erst dann über die Robots.txt via Disallow verbieten zu crawlen.
Aber erst wenn sie aus dem Index sind. Weil sonst kann der Crawler das noindex auf der Seite ja nicht finden.

Deine Quellen sind von 2018.... Hast du geprüft ob die Infos noch aktuell sind?

arnego2

Martin Bongartz hat geschrieben: ↑24.06.2020, 20:36
Ja Google unterstützt kein Noindex mehr über die Robots.txt aber in den Metadaten geht es ja noch ohne Probleme. Oder was meinst du?

Sobald die Seiten aus dem Index sind, erst dann über die Robots.txt via Disallow verbieten zu crawlen.
Aber erst wenn sie aus dem Index sind. Weil sonst kann der Crawler das noindex auf der Seite ja nicht finden.

Deine Quellen sind von 2018.... Hast du geprüft ob die Infos noch aktuell sind?

jupp, du hast ihm gesagt es geht über robots.txt und das geht leider nicht mehr.
Und die GSC geht leider auch nicht mehr so toll das man da die Links via Disallow los wird.

musikzumm

Danke für eure Rückmeldungen.

Ok, dann macht man das am Besten und schnellsten über das Wordpress-SEO-Plugin.
Dort lassen sich Meta-Tag-Robots zu Beiträgen hinzuzufügen (noindex, nofollow etc.).

Was ich mich aber jetzt frage und das hattest du schon angesprochen ("Aber erst wenn sie aus dem Index sind."): Es kann doch viele Monate dauern, bis Google diese Inhalte aus dem Datenbestand entfernt, oder?

Und: Angenommen ich möchte Seiten deindexieren lassen, nutze allerdings kein hochwertiges CMS sondern ein Homepage-Baukasten bzw. Website-Builder der mir nur eingeschränkt Möglichkeiten gibt, in den Code einzugreifen (unerfahrene Website-Betreiber sollten wohl ohnehin davon absehen Code hinzuzufügen): wie gehe ich dann vor? Dann müsste ich den Anbieter bzw. Hoster darum bitten, Änderungen vorzunehmen, oder?

Oder in der Search Console Änderungen vornehmen.

LG

Martin Bongartz

arnego2 hat geschrieben: ↑25.06.2020, 02:49
Martin Bongartz hat geschrieben: ↑24.06.2020, 20:36
Ja Google unterstützt kein Noindex mehr über die Robots.txt aber in den Metadaten geht es ja noch ohne Probleme. Oder was meinst du?

Sobald die Seiten aus dem Index sind, erst dann über die Robots.txt via Disallow verbieten zu crawlen.
Aber erst wenn sie aus dem Index sind. Weil sonst kann der Crawler das noindex auf der Seite ja nicht finden.

Deine Quellen sind von 2018.... Hast du geprüft ob die Infos noch aktuell sind?
jupp, du hast ihm gesagt es geht über robots.txt und das geht leider nicht mehr.
Und die GSC geht leider auch nicht mehr so toll das man da die Links via Disallow los wird.

In meine Antwort steht nichts davon, dass er noindex über die Robots.txt setzten soll.

arnego2

Martin Bongartz hat geschrieben: ↑24.06.2020, 14:16 Kurz und knapp: Mit Yoast auf noindex stellen um die Seiten aus dem Index zu bekommen. Wenn die nicht mehr gelistet sind, via Robots.txt vom Crawling ausschließen um das Crawl-Budget zu sparen.

Nicht?
Wie sollte man das via Robots.txt vom Crawling ausschließen interpretieren?

staticweb

> Wie sollte man das via Robots.txt vom Crawling ausschließen interpretieren?

Es geht nur um das Crawl-Budget. Das ist allerdings bei einem Blog nicht relevant und macht nur bei großen Websites Sinn.

/Affilitiv/

arnego2 hat geschrieben: ↑25.06.2020, 15:35
um das Crawl-Budget zu sparen.
Nicht?
Wie sollte man das via Robots.txt vom Crawling ausschließen interpretieren?

indem man den Satz bis zum Ende liest

musikzumm hat geschrieben: ↑25.06.2020, 09:34

Und: Angenommen ich ... Homepage-Baukasten

Dann müsste ich den Anbieter bzw. Hoster darum bitten, Änderungen vorzunehmen, oder?

oder, LArry Page einen Brief schreiben und erklären das der bitte seinen Bots erklären soll das da was drinsteht obwohl es nicht drinsteht

Martin Bongartz

arnego2 hat geschrieben: ↑25.06.2020, 15:35
Martin Bongartz hat geschrieben: ↑24.06.2020, 14:16 Kurz und knapp: Mit Yoast auf noindex stellen um die Seiten aus dem Index zu bekommen. Wenn die nicht mehr gelistet sind, via Robots.txt vom Crawling ausschließen um das Crawl-Budget zu sparen.
Nicht?
Wie sollte man das via Robots.txt vom Crawling ausschließen interpretieren?

Wie es üblich gemacht wird: Mit Disallow und nicht noindex. Mit noindex wird das indexieren verboten. Mit Disallow das Crawlen. Das ist schon ein großer Unterschied

staticweb hat geschrieben: ↑25.06.2020, 15:50 > Wie sollte man das via Robots.txt vom Crawling ausschließen interpretieren?

Es geht nur um das Crawl-Budget. Das ist allerdings bei einem Blog nicht relevant und macht nur bei großen Websites Sinn.

Da muss ich dir leider widersprechen. Wenn ich einen Blog mit 100 Unterseiten habe, wovon 90 Tag oder Filter Seiten sind, sind 90 % der Domain für Google Uninteressant. Die Relation sollte auch bei kleineren Domains schon stimmen.

staticweb

> Da muss ich dir leider widersprechen. Wenn ich einen Blog mit 100 Unterseiten habe, wovon 90 Tag oder Filter Seiten sind, sind 90 % der Domain für Google Uninteressant. Die Relation sollte auch bei kleineren Domains schon stimmen.

Was interessant ist oder nicht muss Google bzw. deren Bots entscheiden. Ich kann auch tag Seiten interessant machen.
Dass der Bot es aus diesem Grund nicht mehr schafft, die 10 interessanten Seiten regelmäßig zu crawlen wirst du wohl selbst nicht glauben.

Martin Bongartz

Natürlich kann man Tag-Seiten interessant machen. Das war nur ein Beispiel. Es geht darum, wie viele Seiten gibt es und wie viel Prozent davon bietet dem Nutzer einen klaren Mehrwert. Die Relation von wertvollen Inhalten zu Inhalten die kein klares Potential haben als Einstiegsseite zu ranken. Wenn die Relation halt nicht stimmt, wird das Crawl-Budget ja unnötig verwendet. Warum soll Google auch uninteressante Seite für meine Nutzer crawlen? Schließe ich aber mit den passenden Robots.txt-Einträgen solche Seiten aus, kann sich der Google-Crawler den Aufwand sparen und nur die Seiten Crawlen, die ich gerne auch gerankt haben möchte. Somit spare ich Crawl-Budget und fokussiere den Crawler auf die wichtigen Inhalte. Das hat nichts damit zutun, dass der Crawler es nicht schafft von 100 Seiten 10 interessante Seiten zu crawlen.

staticweb

> Wenn die Relation halt nicht stimmt, wird das Crawl-Budget ja unnötig verwendet.

Das kann schon sein. Aber solange das Budget höher ist als der Bedarf muss dich das nicht interessieren. Der Google Bot kann sowas auch selbständig erkennen. Ein Eingriff ist nur notwendig, wenn das Crawl Budget nicht mehr ausreicht.

Martin Bongartz

staticweb hat geschrieben: ↑25.06.2020, 17:44 > Wenn die Relation halt nicht stimmt, wird das Crawl-Budget ja unnötig verwendet.

Das kann schon sein. Aber solange das Budget höher ist als der Bedarf muss dich das nicht interessieren. Der Google Bot kann sowas auch selbständig erkennen. Ein Eingriff ist nur notwendig, wenn das Crawl Budget nicht mehr ausreicht.

und wie erkennst du, wie hoch das Budget ist? Analysierst du täglich Logfiles? Ist es dann nicht doch lieber ratsam, dem Bot klare Regeln zu geben, bevor es zu viel wird? Und das Thema "Thin Content" ist dann ganz schnell bei solchen Seiten ein großes Thema.