registrieren registriertes Mitglied


Anzeige

Anzeige

Crawling von dynamisch generierten Suchseiten

Hier kannst Du Deine Fragen zum Thema Suchmaschinenoptimierung (SEO) stellen.
SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag SloMo » 04.10.2016, 12:09 Crawling von dynamisch generierten Suchseiten

rafig hat geschrieben:Selbst zalando setzt das so ein, Stichwort /wunschzettel/.
Das ist ganz witzig. https://www.zalando.de/robots.txt ist ein 8-Zeiler. Oxids robots.txt ist 93 Zeilen lang. Zalandos SEO-Team weiß sehr gut, was es tun.

Anzeige von:


Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag SloMo » 04.10.2016, 12:13 Crawling von dynamisch generierten Suchseiten

rafig hat geschrieben:Das ist doch selbstverständlich das wir auf den Seiten die in robots.txt mit "Disallow" vermerkt sind immer "noindex, nofollow" nutzen.
Du weißt aber schon, dass Google es nie sieht. Ganz abgesehen davon, dass interner "nofollow" echt maso ist. :)

Benutzeravatar
rafig
PostRank 4
PostRank 4
Beiträge: 171
Registriert: 07.11.2014, 14:34
Kontaktdaten:

Beitrag rafig » 04.10.2016, 12:15 Crawling von dynamisch generierten Suchseiten

Ok. Nach deiner Logik funktioniert gleicher Funktion in 8 Zeilen Dokument schon aber in 93 Zeilen Dokument wiederum nicht. Was machst du noch mal beruflich?
Zuletzt geändert von rafig am 04.10.2016, 12:19, insgesamt 1-mal geändert.
OXID eShop Programmierer:
www.oxid-design.com

SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag SloMo » 04.10.2016, 12:19 Crawling von dynamisch generierten Suchseiten

rafig hat geschrieben:Ok. Nach deiner Logik funktioniert heißt 8 Zeilen Kode funktioniert aber 93 nicht. Was machst du noch mal beruflich?
Werde bitte nicht persönlich. Ich habe Dir gesagt, dass die robots.txt das letzte Mittel der Wahl ist, wenn es darum geht, Seiten aus dem Index fern zu halten. Es gibt wenige Ausnahmen. Halte die robots.txt schlank und vermeide, Linkjuice mit der Axt abzuhacken. Denn das ist, was eine zu große robots.txt potenziell macht. Nutze statt dessen "noindex, follow", wo es nur geht. Falls zu langsam gecrawlt wird, setze sitemaps (siehe Zalandos robots.txt) und unterbinde ganz sachte bestimmte Zweige der Site. Genau wie Dein Beispiel Zalando es vormacht.

Benutzeravatar
rafig
PostRank 4
PostRank 4
Beiträge: 171
Registriert: 07.11.2014, 14:34

Beitrag rafig » 04.10.2016, 12:25 Crawling von dynamisch generierten Suchseiten

Ich werde nicht persönlich aber die Aussage von dir ist aus reine Programmiertechnisch ein Schwachsinn. Ich verstehe nicht viel vom SEO aber vom Programmieren schon.

Wie schon gesagt "noindex, nofollow" ist einfach pflicht bei den Seiten die in robots.txt mit "Disallow" eingetragen sind.
OXID eShop Programmierer:
www.oxid-design.com

Anzeige von:

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag SloMo » 04.10.2016, 12:30 Crawling von dynamisch generierten Suchseiten

Du programmierst eine robots.txt? Programmierst Du auch HTML? SCNR :lol:

Robots.txt ist eine Config-Datei die das Crawling steuert. Das hat mit Programmierung rein gar nichts zu tun. Egal, Ende.

Benutzeravatar
rafig
PostRank 4
PostRank 4
Beiträge: 171
Registriert: 07.11.2014, 14:34
Kontaktdaten:

Beitrag rafig » 04.10.2016, 12:33 Crawling von dynamisch generierten Suchseiten

Nein, das nicht. Aber eine Funktion wird im 8 Zeiler genauso ausgeführt wie in 100 Zeiler.

"Off-Topic"

Aber das mit der Sitemap klingt sehr Interessant. Konntest du das ein bisschen ausführlicher erklären?
OXID eShop Programmierer:
www.oxid-design.com

Can
PostRank 9
PostRank 9
Beiträge: 1035
Registriert: 30.10.2010, 13:47

Beitrag Can » 04.10.2016, 15:24 Crawling von dynamisch generierten Suchseiten

rafig hat geschrieben:Ich werde nicht persönlich aber die Aussage von dir ist aus reine Programmiertechnisch ein Schwachsinn. Ich verstehe nicht viel vom SEO aber vom Programmieren schon.

Wie schon gesagt "noindex, nofollow" ist einfach pflicht bei den Seiten die in robots.txt mit "Disallow" eingetragen sind.
Jemand der eine schwach typisierte Sprache beherrscht sollte sich nicht Programmierer nennen.

Übrignes dein zweites Eigentor in diesem Thread:
"noindex" auf einer Disallowed Seite bringt nix. Gar nix Wieso? Naja weil der Google Bot diese Seite ja nicht crawled. Deswegen wird er den noindex Eintrag im Sourcecode dieser Seite nie finden.
Zuletzt geändert von Can am 04.10.2016, 16:11, insgesamt 1-mal geändert.

Benutzeravatar
rafig
PostRank 4
PostRank 4
Beiträge: 171
Registriert: 07.11.2014, 14:34
Kontaktdaten:

Beitrag rafig » 04.10.2016, 16:01 Crawling von dynamisch generierten Suchseiten

Hallo Can,
einen streit anfangen liegt mir wirklich fern.

Aber lies bitte Beiträge von dir und vom SloMo doch noch einmal durch. Darin hieß es das die Disallow nicht zuverlässig arbeitet und mancher Seiten trotzdem in index landen. In so einem Fall greift doch die "noindex, nofollow", meinst du das nicht?

Danke das du mich daran errinnerst das ich ein Spätaussiedler bin.
OXID eShop Programmierer:
www.oxid-design.com

Can
PostRank 9
PostRank 9
Beiträge: 1035
Registriert: 30.10.2010, 13:47

Beitrag Can » 04.10.2016, 16:16 Crawling von dynamisch generierten Suchseiten

rafig hat geschrieben:Hallo Can,
einen streit anfangen liegt mir wirklich fern.

Aber lies bitte Beiträge von dir und vom SloMo doch noch einmal durch. Darin hieß es das die Disallow nicht zuverlässig arbeitet und mancher Seiten trotzdem in index landen. In so einem Fall greift doch die "noindex, nofollow", meinst du das nicht?

Danke das du mich daran errinnerst das ich ein Spätaussiedler bin.

Ums mal vorweg zu nehmen: Schwach typisiert ist PHP und nicht dein Deutsch. Du bietest genug fachliche Angriffsfläche als dass ich auf deine Person oder Nationalität abzielen würde. ;-)

Wenn der Disallow gesetzt ist wird ein Noindex vom Bot gar nicht erkannt. Um so etwas aus dem Index zu bekommen entweder via Webmastertools oder Disallow entfernen und Noindex setzen. Nicht jedoch beides. Weil wie bereits gesagt Disallow verhindert das der Google Bot ein Noindex warnimmt.

Wenn eine Seite trotz disallow im Index landet dann wird sie dennoch nicht gecrawled sondern aufgrund der Links die auf sie zeigen aufgenommen. Sieht man oft an fehlenden Meta Angaben.

Da immer wieder falsch geraten wird disallow + noindex zu verwenden muss ich dich korrigieren sonst sind hier in 3 Moanten wieder 5 User die das Problem haben das ihre Seiten trotz disallow und noindex im Google Index sind.

Benutzeravatar
rafig
PostRank 4
PostRank 4
Beiträge: 171
Registriert: 07.11.2014, 14:34
Kontaktdaten:

Beitrag rafig » 04.10.2016, 16:51 Crawling von dynamisch generierten Suchseiten

Warum dann auf einmal so höfflich.

Warst du nicht derjenige der zuletzt hier eine Rufschädigung gegen mein Unternehmen rein geschrieben und gehofft hat das es schnell in index kommt? Das hat übrigens für dich ein rechtliches Nachspiel.

Zurück zum Thema:

Ebay:

Disallow in robots.txt und "noindex, nofollow" in Quelltext.

Beispiel: /tickets/

Amazon:

Disallow in robots.txt und "noindex, nofollow" in Quelltext.

Beispiel: /wishlist/

Zalando hatten wir ja bereits.

Und du meinst das ich hier eine Fachliche Angriffsfläche biete?
OXID eShop Programmierer:
www.oxid-design.com

SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag SloMo » 04.10.2016, 18:57 Crawling von dynamisch generierten Suchseiten

Mensch @rafig, Du solltest aufhören, die über Jahre gewachsenen SEO-Maßnahmen der extrem versierten Teams von echt fetten Authorities wie Amazon und eBay anzuführen. Deren internes Link/PR-Sculpting und Crawling-Steuerung sind in keiner Hinsicht auf Deine Projekte übertragbar. Du wirst jetzt auch nicht herausfinden wollen, was diese alten und gewaltigen Websites trieb, bestimmte Bereiche für Crawler zu sperren, zu deindizieren oder was auch immer.

Es gelten ganz einfache Grundregeln:

- robots.txt steuert das Crawling
- (no)index, (no)follow steuern die Indizierung
- wenn Du etwas in der robots.txt sperrst, wird es nicht mehr gecrawlt, also werden auch keine Meta-Angaben wie noindex/nofollow gefunden

Das ist wirklich ganz einfache SEO-Grundlage.

Es führt zu interessanten Problemen wie dem folgenden: Wenn Du eine Seite aus dem Index haben möchtest, sie auf noindex setzt und gleichzeitig auf disallowst, dann bleibt sie im Index. Das ist ein typischer Anfängerfehler, weil der Unterschied Crawling vs. Indizierung offenbar nicht nur Dir Probleme macht. Das wurde hier im Forum auch schon oft diskutiert.

Benutzeravatar
rafig
PostRank 4
PostRank 4
Beiträge: 171
Registriert: 07.11.2014, 14:34
Kontaktdaten:

Beitrag rafig » 04.10.2016, 19:01 Crawling von dynamisch generierten Suchseiten

@SloMo

Ich bin hier um mein wissen über aktuellsten SEO-Techniken zu erweitern. Danke für die ausführliche Erklärung.

Wenn du zeit und lust hast erkläre mir bitte doch das mit dem sitemap.xml in robots.txt die ich übrigens bei Ebay und Amazon gesehen habe.
OXID eShop Programmierer:
www.oxid-design.com

SloMo
PostRank 10
PostRank 10
Beiträge: 4880
Registriert: 04.01.2005, 18:26

Beitrag SloMo » 04.10.2016, 19:05 Crawling von dynamisch generierten Suchseiten


Benutzeravatar
rafig
PostRank 4
PostRank 4
Beiträge: 171
Registriert: 07.11.2014, 14:34
Kontaktdaten:

Beitrag rafig » 04.10.2016, 19:13 Crawling von dynamisch generierten Suchseiten

Ok. Die Sitemap Angabe in robots.txt ist mir schon bekannt. Dann habe ich dich vorhin ganz falsch verstanden mit besonderen Sitemap techniken.

Übrigens abakus schreibt bei den URLs "&" auf "&" um. Deshalb funktionieren die URL nicht korrekt. Ist mir schon gestern aufgefallen.
OXID eShop Programmierer:
www.oxid-design.com

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag