Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

Frieder01

Hallo,
auf meiner Seite habe ich vor einigen Monaten ein bekanntes kostenloses Modul mit Hinweis auf Cookies installiert. Vor vier Wochen habe ich bei Erstellung einer Sitemap festgestellt, dass sämtliche URL mit der Endungen „?rCH=2“ versehen wurden. Nach Kontakt mit dem Hersteller wurde empfohlen, die Zeile „Disallow: /*?rCH“ in der robots.txt anzubringen. Jetzt erscheinen die URL's bei Aufruf wieder ohne diesen Zusatz. Die URL's existieren meist schon seit Jahren unverändert.

Die GoogleSearchConsole meldet jetzt:
Indexiert, obwohl durch robots.txt-Datei blockiert. Betroffene Seiten 971. Aufgeführt sind URL mit der Endungen "?rCH=2".

Das ist jetzt so und ist auch nicht zu ändern.
Meine Fragen wären: Wird Google irgendwann merken bzw. nach welcher Zeit merken, dass die Blockierung der Endung dauerhaft ist? Ist vorhersehbar, was dann passiert?

Ein Tipp könnte mich hoffentlich beruhigen (oder auch nicht).

Danke.

Tippi

Schau mal im Quelltext wo das "canonical" hinzeigt.

Frieder01

Hallo,
danke für den Tipp. Ich habe nach dem Eintrag in der robots.txt stichprobenweise die URL's angeschaut und die Endung nicht mehr gefunden. Jetzt stell ich fest, dass bei den von Google reklamierten URL die eigentlich unterdrückte Endung trotzdem in der Browserzeile und im Seitenquelltext auftaucht:

URL
https://www.example.de/kategorie/item/b ... tler?rCH=2
Seitenquelltext
<link href="/kategorie/item/beratungsgespraech-beim-arbeitsvermittler" rel="canonical" />

URL
https://www.example.de/kategorie/item/n ... aub?rCH=-2
Seitenquelltext
<link href="/kategorie/item/nur-3-wochen-urlaub" rel="canonical" />

Ich versteh das nicht, weil ich davon wenig Ahnung habe. Sollte ich das Modul doch besser durch ein anderes ersetzen?

Für einen Tipp wäre ich dankbar.

staticweb

> Ich versteh das nicht, weil ich davon wenig Ahnung habe.

In der robots "blockiert" und in der sitemap "empfohlen". Klar, dass Google da Probleme bekommt. Ich würde hier den Einsatz von x-robots empfehlen.

> Sollte ich das Modul doch besser durch ein anderes ersetzen?

Das hätte ich schon lange gemacht und das CMS wahrscheinlich gleich mit ersetzt. Du solltest überhaupt mal schauen ob das ganze DSGVO-konform funktioniert.

Frieder01

staticweb hat geschrieben: ↑24.12.2019, 13:24 > Ich versteh das nicht, weil ich davon wenig Ahnung habe.

In der robots "blockiert" und in der sitemap "empfohlen". Klar, dass Google da Probleme bekommt. Ich würde hier den Einsatz von x-robots empfehlen.

Das ist mir auch gerade durch die Glieder gefahren. Aber ich hab die Sitemap angeschaut. Dort steht die URL ohne Endung.
Ich muss ja zugeben, dass ich nicht versteh, was der robots.txt-Eintrag bewirkt. Bewirkt er, dass die URL-Endung grundsätzlich überall unterdrückt wird. Das hat aber nicht funktioniert, denn die meisten Artikel lassen erscheinen bei Aufruf ohne Endung.
Oder bewirkt der robots.txt-Eintrag nur, dass die Suchmaschinen beim Crawlen die Endung nicht aufnehmen?

Danke.

arnego2

Frieder01 hat geschrieben: ↑24.12.2019, 14:09 Oder bewirkt der robots.txt-Eintrag nur, dass die Suchmaschinen beim Crawlen die Endung nicht aufnehmen?

Wenn überhaupt nehmen die Crawler Rücksicht auf Robots.txt Anweisungen wenn sie durch deine Seite gehen. Kommt ein Crawler von außen auf die besagte Seite und sie wird im index erscheinen es sei denn sie hat den meta tag noindex gesetzt. Und auch da scheint es Ausnahmen zu geben.

staticweb

> Bewirkt er, dass die URL-Endung grundsätzlich überall unterdrückt wird.

Er bewirkt dass alle URLs mit dieser Endung nie mehr aus dem Index kommen, da sie nicht mehr gecrawled werden.

Frieder01

Nach weiterem Nachschlagen vermute ich hoffentlich richtig, dass durch den Eintrag "Disallow: /*?rCH" die Endung nicht verhindert, sondern nur Google angewiesen wird, diese Endung nicht zu lesen.
Und die Meldung von Google "Indexiert, obwohl durch robots.txt-Datei blockiert. Betroffene Seiten 971" kommt evtl. (?) daher, weil Google die Seiten früher schon mit der Endung gecrawlt hat.

Es muss ein anderes Modul her.
@staticweb
x-robots wird vermutlich gut sein. Nur habe ich es gerade nicht im Internet gefunden und es wäre für mich, als würde ich mit meinem PKW-Führerschein in ein Formel-1-Auto einsteigen.

DSGVO-konform ist das jetzige Modul vermutlich, hat auch die Auswahl akzeptieren / nicht akzeptieren und den Link zur Datenschutzerklärung. Es wurde von einem bekannten Joomlaeaner in Youtube als konform vorgestellt und erklärt. Ich werde mal ein anderes Modul suchen.

Frieder01

staticweb hat geschrieben: ↑24.12.2019, 14:17 > Bewirkt er, dass die URL-Endung grundsätzlich überall unterdrückt wird.

Er bewirkt dass alle URLs mit dieser Endung nie mehr aus dem Index kommen, da sie nicht mehr gecrawled werden.

Danke.
Das heißt aber

Modul raus - dann entfällt die Endung

Text aus robots.txt raus - dann wird nach und nach auch der Index bei Google aktualisiert.

staticweb

> Modul raus - dann entfällt die Endung

Vermutlich ja.

> Text aus robots.txt raus - dann wird nach und nach auch der Index bei Google aktualisiert.

Da wirst du wohl nachhelfen müssen, sonst dauert es wahrscheinlich ewig.

Frieder01

staticweb hat geschrieben: ↑24.12.2019, 14:28 > Text aus robots.txt raus - dann wird nach und nach auch der Index bei Google aktualisiert.
Da wirst du wohl nachhelfen müssen, sonst dauert es wahrscheinlich ewig.

Danke. Dann kenn ich wenigstens die Richtung.
Aber die Frage muss ja jetzt kommen: Wie hilft man nach, falls es überhaupt einfach erklärt werden kann?

staticweb · Zuletzt geändert von staticweb am 24.12.2019, 15:18, insgesamt 1-mal geändert.

> Aber die Frage muss ja jetzt kommen: Wie hilft man nach, falls es überhaupt einfach erklärt werden kann?

Da gibt es mindestens 2 Möglichkeiten. OnPage den Status Code oder die Indexierungsregeln anpassen.

Auf die Kanonisierung als 3. Möglichkeit würde ich mich nicht mehr verlassen.

Frohes Fest!

Frieder01

Für mich verständlich ist das "Indexierungsregeln anpassen". Ich werde eine neue Sitemap erstellen, mit kurzem Crawl-Intervall. Zuvor suche ich aber erst ein neues Cookie-Modul und schmeiss die Regel aus der robots.txt.

Danke und ich wünsch ebenfalls ein Frohes Fest.