Crawling von dynamisch generierten Suchseiten

SloMo · **SloMo** » 04.10.2016, 12:09 **Crawling von dynamisch generierten Suchseiten**

rafig hat geschrieben:Selbst zalando setzt das so ein, Stichwort /wunschzettel/.

Das ist ganz witzig. https://www.zalando.de/robots.txt ist ein 8-Zeiler. Oxids robots.txt ist 93 Zeilen lang. Zalandos SEO-Team weiß sehr gut, was es tun.

SloMo · **SloMo** » 04.10.2016, 12:13 **Crawling von dynamisch generierten Suchseiten**

rafig hat geschrieben:Das ist doch selbstverständlich das wir auf den Seiten die in robots.txt mit "Disallow" vermerkt sind immer "noindex, nofollow" nutzen.

Du weißt aber schon, dass Google es nie sieht. Ganz abgesehen davon, dass interner "nofollow" echt maso ist.

rafig · Zuletzt geändert von rafig am 04.10.2016, 12:19, insgesamt 1-mal geändert.

Ok. Nach deiner Logik funktioniert gleicher Funktion in 8 Zeilen Dokument schon aber in 93 Zeilen Dokument wiederum nicht. Was machst du noch mal beruflich?

SloMo · **SloMo** » 04.10.2016, 12:19 **Crawling von dynamisch generierten Suchseiten**

rafig hat geschrieben:Ok. Nach deiner Logik funktioniert heißt 8 Zeilen Kode funktioniert aber 93 nicht. Was machst du noch mal beruflich?

Werde bitte nicht persönlich. Ich habe Dir gesagt, dass die robots.txt das letzte Mittel der Wahl ist, wenn es darum geht, Seiten aus dem Index fern zu halten. Es gibt wenige Ausnahmen. Halte die robots.txt schlank und vermeide, Linkjuice mit der Axt abzuhacken. Denn das ist, was eine zu große robots.txt potenziell macht. Nutze statt dessen "noindex, follow", wo es nur geht. Falls zu langsam gecrawlt wird, setze sitemaps (siehe Zalandos robots.txt) und unterbinde ganz sachte bestimmte Zweige der Site. Genau wie Dein Beispiel Zalando es vormacht.

rafig · **rafig** » 04.10.2016, 12:25 **Crawling von dynamisch generierten Suchseiten**

Ich werde nicht persönlich aber die Aussage von dir ist aus reine Programmiertechnisch ein Schwachsinn. Ich verstehe nicht viel vom SEO aber vom Programmieren schon.

Wie schon gesagt "noindex, nofollow" ist einfach pflicht bei den Seiten die in robots.txt mit "Disallow" eingetragen sind.

SloMo · **SloMo** » 04.10.2016, 12:30 **Crawling von dynamisch generierten Suchseiten**

Du programmierst eine robots.txt? Programmierst Du auch HTML? SCNR

Robots.txt ist eine Config-Datei die das Crawling steuert. Das hat mit Programmierung rein gar nichts zu tun. Egal, Ende.

rafig · **rafig** » 04.10.2016, 12:33 **Crawling von dynamisch generierten Suchseiten**

Nein, das nicht. Aber eine Funktion wird im 8 Zeiler genauso ausgeführt wie in 100 Zeiler.

"Off-Topic"

Aber das mit der Sitemap klingt sehr Interessant. Konntest du das ein bisschen ausführlicher erklären?

Can · Zuletzt geändert von Can am 04.10.2016, 16:11, insgesamt 1-mal geändert.

rafig hat geschrieben:Ich werde nicht persönlich aber die Aussage von dir ist aus reine Programmiertechnisch ein Schwachsinn. Ich verstehe nicht viel vom SEO aber vom Programmieren schon.

Wie schon gesagt "noindex, nofollow" ist einfach pflicht bei den Seiten die in robots.txt mit "Disallow" eingetragen sind.

Jemand der eine schwach typisierte Sprache beherrscht sollte sich nicht Programmierer nennen.

Übrignes dein zweites Eigentor in diesem Thread:
"noindex" auf einer Disallowed Seite bringt nix. Gar nix Wieso? Naja weil der Google Bot diese Seite ja nicht crawled. Deswegen wird er den noindex Eintrag im Sourcecode dieser Seite nie finden.

rafig · **rafig** » 04.10.2016, 16:01 **Crawling von dynamisch generierten Suchseiten**

Hallo Can,
einen streit anfangen liegt mir wirklich fern.

Aber lies bitte Beiträge von dir und vom SloMo doch noch einmal durch. Darin hieß es das die Disallow nicht zuverlässig arbeitet und mancher Seiten trotzdem in index landen. In so einem Fall greift doch die "noindex, nofollow", meinst du das nicht?

Danke das du mich daran errinnerst das ich ein Spätaussiedler bin.

Can · **Can** » 04.10.2016, 16:16 **Crawling von dynamisch generierten Suchseiten**

rafig hat geschrieben:Hallo Can,
einen streit anfangen liegt mir wirklich fern.

Aber lies bitte Beiträge von dir und vom SloMo doch noch einmal durch. Darin hieß es das die Disallow nicht zuverlässig arbeitet und mancher Seiten trotzdem in index landen. In so einem Fall greift doch die "noindex, nofollow", meinst du das nicht?

Danke das du mich daran errinnerst das ich ein Spätaussiedler bin.

Ums mal vorweg zu nehmen: Schwach typisiert ist PHP und nicht dein Deutsch. Du bietest genug fachliche Angriffsfläche als dass ich auf deine Person oder Nationalität abzielen würde.

Wenn der Disallow gesetzt ist wird ein Noindex vom Bot gar nicht erkannt. Um so etwas aus dem Index zu bekommen entweder via Webmastertools oder Disallow entfernen und Noindex setzen. Nicht jedoch beides. Weil wie bereits gesagt Disallow verhindert das der Google Bot ein Noindex warnimmt.

Wenn eine Seite trotz disallow im Index landet dann wird sie dennoch nicht gecrawled sondern aufgrund der Links die auf sie zeigen aufgenommen. Sieht man oft an fehlenden Meta Angaben.

Da immer wieder falsch geraten wird disallow + noindex zu verwenden muss ich dich korrigieren sonst sind hier in 3 Moanten wieder 5 User die das Problem haben das ihre Seiten trotz disallow und noindex im Google Index sind.

rafig · **rafig** » 04.10.2016, 16:51 **Crawling von dynamisch generierten Suchseiten**

Warum dann auf einmal so höfflich.

Warst du nicht derjenige der zuletzt hier eine Rufschädigung gegen mein Unternehmen rein geschrieben und gehofft hat das es schnell in index kommt? Das hat übrigens für dich ein rechtliches Nachspiel.

Zurück zum Thema:

Ebay:

Disallow in robots.txt und "noindex, nofollow" in Quelltext.

Beispiel: /tickets/

Amazon:

Disallow in robots.txt und "noindex, nofollow" in Quelltext.

Beispiel: /wishlist/

Zalando hatten wir ja bereits.

Und du meinst das ich hier eine Fachliche Angriffsfläche biete?

SloMo · **SloMo** » 04.10.2016, 18:57 **Crawling von dynamisch generierten Suchseiten**

Mensch @rafig, Du solltest aufhören, die über Jahre gewachsenen SEO-Maßnahmen der extrem versierten Teams von echt fetten Authorities wie Amazon und eBay anzuführen. Deren internes Link/PR-Sculpting und Crawling-Steuerung sind in keiner Hinsicht auf Deine Projekte übertragbar. Du wirst jetzt auch nicht herausfinden wollen, was diese alten und gewaltigen Websites trieb, bestimmte Bereiche für Crawler zu sperren, zu deindizieren oder was auch immer.

Es gelten ganz einfache Grundregeln:

- robots.txt steuert das Crawling
- (no)index, (no)follow steuern die Indizierung
- wenn Du etwas in der robots.txt sperrst, wird es nicht mehr gecrawlt, also werden auch keine Meta-Angaben wie noindex/nofollow gefunden

Das ist wirklich ganz einfache SEO-Grundlage.

Es führt zu interessanten Problemen wie dem folgenden: Wenn Du eine Seite aus dem Index haben möchtest, sie auf noindex setzt und gleichzeitig auf disallowst, dann bleibt sie im Index. Das ist ein typischer Anfängerfehler, weil der Unterschied Crawling vs. Indizierung offenbar nicht nur Dir Probleme macht. Das wurde hier im Forum auch schon oft diskutiert.

rafig · **rafig** » 04.10.2016, 19:01 **Crawling von dynamisch generierten Suchseiten**

@SloMo

Ich bin hier um mein wissen über aktuellsten SEO-Techniken zu erweitern. Danke für die ausführliche Erklärung.

Wenn du zeit und lust hast erkläre mir bitte doch das mit dem sitemap.xml in robots.txt die ich übrigens bei Ebay und Amazon gesehen habe.

SloMo · **SloMo** » 04.10.2016, 19:05 **Crawling von dynamisch generierten Suchseiten**

Guckstu da: seo sitemap robots.txt

rafig · **rafig** » 04.10.2016, 19:13 **Crawling von dynamisch generierten Suchseiten**

Ok. Die Sitemap Angabe in robots.txt ist mir schon bekannt. Dann habe ich dich vorhin ganz falsch verstanden mit besonderen Sitemap techniken.

Übrigens abakus schreibt bei den URLs "&" auf "&" um. Deshalb funktionieren die URL nicht korrekt. Ist mir schon gestern aufgefallen.