registrieren registriertes Mitglied


Anzeige

Anzeige

Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

Alles über Google diskutieren wir hier.
Frieder01
PostRank 4
PostRank 4
Beiträge: 115
Registriert: 22.12.2015, 09:09

Beitrag Frieder01 » 23.12.2019, 22:39 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

Hallo,
auf meiner Seite habe ich vor einigen Monaten ein bekanntes kostenloses Modul mit Hinweis auf Cookies installiert. Vor vier Wochen habe ich bei Erstellung einer Sitemap festgestellt, dass sämtliche URL mit der Endungen „?rCH=2“ versehen wurden. Nach Kontakt mit dem Hersteller wurde empfohlen, die Zeile „Disallow: /*?rCH“ in der robots.txt anzubringen. Jetzt erscheinen die URL's bei Aufruf wieder ohne diesen Zusatz. Die URL's existieren meist schon seit Jahren unverändert.

Die GoogleSearchConsole meldet jetzt:
Indexiert, obwohl durch robots.txt-Datei blockiert. Betroffene Seiten 971. Aufgeführt sind URL mit der Endungen "?rCH=2".

Das ist jetzt so und ist auch nicht zu ändern.
Meine Fragen wären: Wird Google irgendwann merken bzw. nach welcher Zeit merken, dass die Blockierung der Endung dauerhaft ist? Ist vorhersehbar, was dann passiert?

Ein Tipp könnte mich hoffentlich beruhigen (oder auch nicht).

Danke.

Anzeige von:

SEO Telefonberatung bei ABAKUS:
  • Schnelle & kompetente Hilfe
  • Direkte Kommunikation
  • Fachkundige Beratung
  • Geringer Kostenaufwand
Sprechen Sie uns gerne an:
0511 / 300325-0

Tippi
PostRank 6
PostRank 6
Beiträge: 444
Registriert: 06.06.2012, 21:32

Beitrag Tippi » 24.12.2019, 00:43 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

Schau mal im Quelltext wo das "canonical" hinzeigt.

Frieder01
PostRank 4
PostRank 4
Beiträge: 115
Registriert: 22.12.2015, 09:09

Beitrag Frieder01 » 24.12.2019, 13:03 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

Hallo,
danke für den Tipp. Ich habe nach dem Eintrag in der robots.txt stichprobenweise die URL's angeschaut und die Endung nicht mehr gefunden. Jetzt stell ich fest, dass bei den von Google reklamierten URL die eigentlich unterdrückte Endung trotzdem in der Browserzeile und im Seitenquelltext auftaucht:

URL
https://www.example.de/kategorie/item/b ... tler?rCH=2
Seitenquelltext
<link href="/kategorie/item/beratungsgespraech-beim-arbeitsvermittler" rel="canonical" />

URL
https://www.example.de/kategorie/item/n ... aub?rCH=-2
Seitenquelltext
<link href="/kategorie/item/nur-3-wochen-urlaub" rel="canonical" />

Ich versteh das nicht, weil ich davon wenig Ahnung habe. Sollte ich das Modul doch besser durch ein anderes ersetzen?

Für einen Tipp wäre ich dankbar.

staticweb
PostRank 9
PostRank 9
Beiträge: 2014
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 24.12.2019, 13:24 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

> Ich versteh das nicht, weil ich davon wenig Ahnung habe.

In der robots "blockiert" und in der sitemap "empfohlen". Klar, dass Google da Probleme bekommt. Ich würde hier den Einsatz von x-robots empfehlen.

> Sollte ich das Modul doch besser durch ein anderes ersetzen?

Das hätte ich schon lange gemacht und das CMS wahrscheinlich gleich mit ersetzt. Du solltest überhaupt mal schauen ob das ganze DSGVO-konform funktioniert.

Frieder01
PostRank 4
PostRank 4
Beiträge: 115
Registriert: 22.12.2015, 09:09

Beitrag Frieder01 » 24.12.2019, 14:09 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

staticweb hat geschrieben:
24.12.2019, 13:24
> Ich versteh das nicht, weil ich davon wenig Ahnung habe.

In der robots "blockiert" und in der sitemap "empfohlen". Klar, dass Google da Probleme bekommt. Ich würde hier den Einsatz von x-robots empfehlen.
Das ist mir auch gerade durch die Glieder gefahren. Aber ich hab die Sitemap angeschaut. Dort steht die URL ohne Endung.
Ich muss ja zugeben, dass ich nicht versteh, was der robots.txt-Eintrag bewirkt. Bewirkt er, dass die URL-Endung grundsätzlich überall unterdrückt wird. Das hat aber nicht funktioniert, denn die meisten Artikel lassen erscheinen bei Aufruf ohne Endung.
Oder bewirkt der robots.txt-Eintrag nur, dass die Suchmaschinen beim Crawlen die Endung nicht aufnehmen?

Danke.
Dateianhänge

Anzeige von:


Hochwertiger Linkaufbau bei ABAKUS:
  • Google-konformer Linkaufbau
  • nachhaltiges Ranking
  • Linkbuilding Angebote zu fairen Preisen
  • internationale Backlinks
Wir bieten Beratung und Umsetzung.
Jetzt anfragen: 0511 / 300325-0

Benutzeravatar
arnego2
PostRank 9
PostRank 9
Beiträge: 1996
Registriert: 23.02.2016, 13:55
Kontaktdaten:

Beitrag arnego2 » 24.12.2019, 14:12 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

Frieder01 hat geschrieben:
24.12.2019, 14:09
Oder bewirkt der robots.txt-Eintrag nur, dass die Suchmaschinen beim Crawlen die Endung nicht aufnehmen?
Wenn überhaupt nehmen die Crawler Rücksicht auf Robots.txt Anweisungen wenn sie durch deine Seite gehen. Kommt ein Crawler von außen auf die besagte Seite und sie wird im index erscheinen es sei denn sie hat den meta tag noindex gesetzt. Und auch da scheint es Ausnahmen zu geben.
Arnego2 <Webseiten Umbau ab 80 Euro>

staticweb
PostRank 9
PostRank 9
Beiträge: 2014
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 24.12.2019, 14:17 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

> Bewirkt er, dass die URL-Endung grundsätzlich überall unterdrückt wird.

Er bewirkt dass alle URLs mit dieser Endung nie mehr aus dem Index kommen, da sie nicht mehr gecrawled werden. :-)

Frieder01
PostRank 4
PostRank 4
Beiträge: 115
Registriert: 22.12.2015, 09:09

Beitrag Frieder01 » 24.12.2019, 14:23 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

Nach weiterem Nachschlagen vermute ich hoffentlich richtig, dass durch den Eintrag "Disallow: /*?rCH" die Endung nicht verhindert, sondern nur Google angewiesen wird, diese Endung nicht zu lesen.
Und die Meldung von Google "Indexiert, obwohl durch robots.txt-Datei blockiert. Betroffene Seiten 971" kommt evtl. (?) daher, weil Google die Seiten früher schon mit der Endung gecrawlt hat.

Es muss ein anderes Modul her.
@staticweb
x-robots wird vermutlich gut sein. Nur habe ich es gerade nicht im Internet gefunden und es wäre für mich, als würde ich mit meinem PKW-Führerschein in ein Formel-1-Auto einsteigen.

DSGVO-konform ist das jetzige Modul vermutlich, hat auch die Auswahl akzeptieren / nicht akzeptieren und den Link zur Datenschutzerklärung. Es wurde von einem bekannten Joomlaeaner in Youtube als konform vorgestellt und erklärt. Ich werde mal ein anderes Modul suchen.

Frieder01
PostRank 4
PostRank 4
Beiträge: 115
Registriert: 22.12.2015, 09:09

Beitrag Frieder01 » 24.12.2019, 14:25 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

staticweb hat geschrieben:
24.12.2019, 14:17
> Bewirkt er, dass die URL-Endung grundsätzlich überall unterdrückt wird.

Er bewirkt dass alle URLs mit dieser Endung nie mehr aus dem Index kommen, da sie nicht mehr gecrawled werden. :-)
Danke.
Das heißt aber
  • Modul raus - dann entfällt die Endung
  • Text aus robots.txt raus - dann wird nach und nach auch der Index bei Google aktualisiert.

staticweb
PostRank 9
PostRank 9
Beiträge: 2014
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 24.12.2019, 14:28 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

> Modul raus - dann entfällt die Endung

Vermutlich ja.

> Text aus robots.txt raus - dann wird nach und nach auch der Index bei Google aktualisiert.

Da wirst du wohl nachhelfen müssen, sonst dauert es wahrscheinlich ewig.

Frieder01
PostRank 4
PostRank 4
Beiträge: 115
Registriert: 22.12.2015, 09:09

Beitrag Frieder01 » 24.12.2019, 14:36 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

staticweb hat geschrieben:
24.12.2019, 14:28
> Text aus robots.txt raus - dann wird nach und nach auch der Index bei Google aktualisiert.
Da wirst du wohl nachhelfen müssen, sonst dauert es wahrscheinlich ewig.
Danke. Dann kenn ich wenigstens die Richtung.
Aber die Frage muss ja jetzt kommen: Wie hilft man nach, falls es überhaupt einfach erklärt werden kann?

staticweb
PostRank 9
PostRank 9
Beiträge: 2014
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 24.12.2019, 14:50 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

> Aber die Frage muss ja jetzt kommen: Wie hilft man nach, falls es überhaupt einfach erklärt werden kann?

Da gibt es mindestens 2 Möglichkeiten. OnPage den Status Code oder die Indexierungsregeln anpassen.

Auf die Kanonisierung als 3. Möglichkeit würde ich mich nicht mehr verlassen.

Frohes Fest!
Zuletzt geändert von staticweb am 24.12.2019, 15:18, insgesamt 1-mal geändert.

Frieder01
PostRank 4
PostRank 4
Beiträge: 115
Registriert: 22.12.2015, 09:09

Beitrag Frieder01 » 24.12.2019, 15:12 Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

Für mich verständlich ist das "Indexierungsregeln anpassen". Ich werde eine neue Sitemap erstellen, mit kurzem Crawl-Intervall. Zuvor suche ich aber erst ein neues Cookie-Modul und schmeiss die Regel aus der robots.txt.

Danke und ich wünsch ebenfalls ein Frohes Fest.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag