registrieren registriertes Mitglied


Anzeige

Anzeige

Archive.org beachtet nicht mehr die Robots.txt

Hier findest Du News aus der SEO-Welt.
superolli
PostRank 8
PostRank 8
Beiträge: 724
Registriert: 22.07.2007, 15:17

Beitrag superolli » 10.05.2017, 08:44 Archive.org beachtet nicht mehr die Robots.txt

So wie ich das verstehe, will archive.org die robots.txt nicht mehr beachten:

https://blog.archive.org/2017/04/17/rob ... -archives/

Oder lest ihr das anders bzw. was haltet ihr eigentlich davon?

Ich finde es eine Frechheit. Wenn ich jemandem sage "bleib draussen, du betrittst mein Haus nicht", dann hat er sich gefälligst dran zu halten.

Anzeige von:

Content Marketing Strategie von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

top
PostRank 8
PostRank 8
Beiträge: 687
Registriert: 14.07.2005, 17:09

Beitrag top » 10.05.2017, 09:51 Archive.org beachtet nicht mehr die Robots.txt

superolli hat geschrieben:...

Ich finde es eine Frechheit. Wenn ich jemandem sage "bleib draussen, du betrittst mein Haus nicht", dann hat er sich gefälligst dran zu halten.
Schon klar, aber seine Haustür schließen die meisten Menschen auch ab, so dass man bei jedem Besuch entscheiden kann wen man ins Haus lassen will.

Webseiten sind in der Regel aber für jedermann offen wie ein Einkaufszentrum. Wenn man da zuverlässig sicherstellen will, dass dort niemand unerwünschtes das Gebäude betritt, reicht es nicht wenn dafür Hinweistafeln an den Eingängen angebracht werden. Wer sich schon ein Hausverbot vom Betreiber hat einfangen lassen, den interessieren solche Verbotsschilder meistens auch nicht mehr. Große Spielkasinos nutzten daher schon seit einiger Zeit Videoüberwachung mit automatischer Gesichtserkennung. Wer da einmal bei 17und4 beim Kartenzählen erwischt wurde, muss damit rechnen, dass er weltweit schon beim Betreten eines Spielkasinos nachhaltig gebeten wird das Gebäude freiwillig zu verlassen.

Auf Webseiten übertragen: Du musst deinen Server schon so einrichten, dass unerwünschte Besucher an der IP erkannt werden und entsprechend gefiltert wird. (Und selbst das ist kein 100%tiger Schutz um die bösen Jungs draußen zu lassen.)

superolli
PostRank 8
PostRank 8
Beiträge: 724
Registriert: 22.07.2007, 15:17
Wohnort: Hadamar
Kontaktdaten:

Beitrag superolli » 10.05.2017, 13:14 Archive.org beachtet nicht mehr die Robots.txt

Also wenn Du im Stadtpark ein Schild siehst "Betreten verboten" gehst Du da trotzdem weiter, weil man ja auch einen hohen Zaun hätte bauen können und die Gemeinde es ja selber Schuld ist wenn sie so eine schöne Wiese dahin setzt? Also jetzt nicht du persönlich .. :-)

Also ich weiss nicht. Wenn ich auf technischer Ebene klar formuliere, dass ich keinen Besuch vom Crawler will, dann muss ich nicht mit dem diskutieren, ob er nicht vielleicht doch darf. Und dass die dann mit dem Argument der geparkten Seiten zu kommen, ist echt eine Frechheit.
Klar ist das für die ein Problem, aber deswegen müssen sie doch trotzdem weiterhin die Beschilderung beachten und können deren Problem nicht zu meinem machen.

Leider gibt es auch sehr viele SEO Bots aus Deutschland (auch hier agierende) die sich genauso ignorant verhalten.

Ich weiss, dass ich das effektiver sperren kann -. wie ich ja auch meine Haustür abschließe - aber richtig ist das trotzdem nicht.

Benutzeravatar
arnego2
PostRank 9
PostRank 9
Beiträge: 2077
Registriert: 23.02.2016, 13:55
Kontaktdaten:

Beitrag arnego2 » 10.05.2017, 15:25 Archive.org beachtet nicht mehr die Robots.txt

top hat geschrieben: Webseiten sind in der Regel aber für jedermann offen wie ein Einkaufszentrum.
Tja nur die Lagerräume darf das Publikum im Allgemeinen nicht betreten. Und gerade im Webseiten Bereich gibt es so einige Dateien die offlimit und für die Indexierung irrelevant sind
Arnego2 <Webseiten Umbau ab 80 Euro>

RH666
PostRank 4
PostRank 4
Beiträge: 171
Registriert: 17.10.2015, 23:22

Beitrag RH666 » 10.05.2017, 17:58 Archive.org beachtet nicht mehr die Robots.txt

Ist halt wie im echten Leben ..die Gesellschaft verroht zusehends.

Regeln und Respekt finden immer weniger Beachtung.

Anzeige von:

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


top
PostRank 8
PostRank 8
Beiträge: 687
Registriert: 14.07.2005, 17:09

Beitrag top » 11.05.2017, 17:33 Archive.org beachtet nicht mehr die Robots.txt

Man liest hier ja auch immer wieder von (in Anführungsstrichen) "Experten" die DC vermeiden wollen, indem sie unerwünschte (aber nicht vermeidbare) Seiten mit fast identischen Inhalt mit "noindex" kennzeichnen. Wenn archiv.org sich daran hält, landet man beim Navigieren der entsprechenden Archiv-Seiten ständig auf Fehlerseiten.

Und bevor Google betont hat, dass auch css- und js-Dateien vom Bot durchsuchbar sein sollten um Seiten komplett bewerten zu können, hatte manch einer die entsprechenden Verzeichnisse per robot.txt gesperrt um den Bot nicht mit unnötigen Ballast zu füttern in der Hoffnung, dass dann mehr Wert auf die Keywörter im Quelltext gelegt wird. Solche Seiten machen sich dann auch nicht gut im Archiv - ohne die entsprechenden css-Dateien.

Manch einer will vielleicht auch nur vermeiden, dass bestimmte Bilder nicht in der Bildersuche auftauchen (weil man damit ja nur Bilderdiebe anlockt) und sperren den entsprechenden Ordner - ganz unabhängig ob ihnen das auch fürs Webarchiv wichtig wäre.

archive.org will ja auch keine Suchmaschine werden für die die robots.txt in der Regel geschrieben sind. In so fern überwiegen für mich persönlich die Argumente für deren Entscheidung.

nerd
PostRank 10
PostRank 10
Beiträge: 4247
Registriert: 15.02.2005, 04:02

Beitrag nerd » 12.05.2017, 01:48 Archive.org beachtet nicht mehr die Robots.txt

arnego2 hat geschrieben: Tja nur die Lagerräume darf das Publikum im Allgemeinen nicht betreten. Und gerade im Webseiten Bereich gibt es so einige Dateien die offlimit und für die Indexierung irrelevant sind
Deswegen verschliesst man die lagerraeume ja auch hinter einem login, statt ein "nur fuer mitarbeiter"-schild an der tuer anzubringen und darauf zu hoffen dass niemand versehentlich reinlaeuft, und sich dann ueber die respektlose und verrohende gesellschaft zu beschweren ...

multiple
PostRank 5
PostRank 5
Beiträge: 228
Registriert: 10.07.2005, 13:17

Beitrag multiple » 12.05.2017, 11:04 Archive.org beachtet nicht mehr die Robots.txt

Wie man den Kommentaren beim Blogeintrag von archive.org entnehmen kann, soll eine E-Mail an info@archive.org das Problem lösen, heißt: Löschung vorhandenen Contents und Ausschluss weiterer Crawl-Versuche.

superolli
PostRank 8
PostRank 8
Beiträge: 724
Registriert: 22.07.2007, 15:17
Wohnort: Hadamar
Kontaktdaten:

Beitrag superolli » 12.05.2017, 12:43 Archive.org beachtet nicht mehr die Robots.txt

nerd hat geschrieben:
arnego2 hat geschrieben: Tja nur die Lagerräume darf das Publikum im Allgemeinen nicht betreten. Und gerade im Webseiten Bereich gibt es so einige Dateien die offlimit und für die Indexierung irrelevant sind
Deswegen verschliesst man die lagerraeume ja auch hinter einem login, statt ein "nur fuer mitarbeiter"-schild an der tuer anzubringen und darauf zu hoffen dass niemand versehentlich reinlaeuft, und sich dann ueber die respektlose und verrohende gesellschaft zu beschweren ...
Auf keinen Fall. Wenn da steht "nur für Mitarbeiter" hat das gefälligst zu reichen. Jeder nicht SEO wird das so sehen. Aber egal.

Mich würde ernsthaft interessieren, welchen Sinn archive.org überhaupt hat. Ich mache von meinen Seiten Backupws. Wofür brauche ich das Archiv?

RH666
PostRank 4
PostRank 4
Beiträge: 171
Registriert: 17.10.2015, 23:22

Beitrag RH666 » 12.05.2017, 13:01 Archive.org beachtet nicht mehr die Robots.txt

Naja, ist halt so ne art Online-Museum. Konnte dort mal ein paar Bilder und auch infos von Webseiten die schon seit zig Jahren gelöscht waren (bankrott gingen) finden

multiple
PostRank 5
PostRank 5
Beiträge: 228
Registriert: 10.07.2005, 13:17

Beitrag multiple » 12.05.2017, 15:24 Archive.org beachtet nicht mehr die Robots.txt

@superolli: Ich hatte mal einen Fall, da hat jemand eine (sehr gemäßigte) Rechnung (keine Abmahnung) wegen Urheberrechtsverletzung nicht zahlen wollen. Das ging vor Gericht und dort hat er behauptet, der entsprechende Bereich wäre passwortgeschützt gewesen und ich hätte mich irgendwelcher Computerkriminalität durch Eindringen in diesen Bereich schuldig gemacht (Strafanzeige vorbehalten). Aber dann gibt es eben so was wie archive.org, wo mit Datum vermerkt ist, wie die Seite aussah. Dem Gericht war das übrigens egal, denn selbst in einem geschützten Bereich ist eine Veröffentlichung eine Veröffentlichung. Aber für mich war das Reichsparteitag, innerer, weil da auch noch ein paar andere Schoten vorher gelaufen sind.

superolli
PostRank 8
PostRank 8
Beiträge: 724
Registriert: 22.07.2007, 15:17
Wohnort: Hadamar
Kontaktdaten:

Beitrag superolli » 12.05.2017, 15:36 Archive.org beachtet nicht mehr die Robots.txt

Aber darauf will ich hinaus. Für mich als Webseitenbetreiber fällt mir kein einziger Vorteil ein. Ausser dass ich bei andren spionieren kann. Egal ob mal jetzt für den guten Zweck oder nicht.

Das ist der Grund, warum ich deren Argumente für an der Realität vorbegehend halte.

marc77
PostRank 8
PostRank 8
Beiträge: 893
Registriert: 22.05.2007, 22:41

Beitrag marc77 » 13.05.2017, 10:23 Archive.org beachtet nicht mehr die Robots.txt

und was spricht dagegen einfach den user-agent ia_archiver zu blockieren? Den werden sie ja wohl nicht faken und sich als firefox etc ausgeben...

superolli
PostRank 8
PostRank 8
Beiträge: 724
Registriert: 22.07.2007, 15:17
Wohnort: Hadamar
Kontaktdaten:

Beitrag superolli » 16.05.2017, 07:31 Archive.org beachtet nicht mehr die Robots.txt

Ich fand es zum einen bemerkenswert, weil ich auf allen Seiten auch hier im Forum aktiver SEOs lese, dass archive.org die robots.txt beachten würde.

Weil ich zusätzlich auf vielen renommierten Seiten lese, dass man einen guten Bot daran erkennt, dass er die Angaben in der robots.txt beachtet.

Und weil ich Aussagen wie Deine Frage merkwürdig finde.

Can
PostRank 9
PostRank 9
Beiträge: 1035
Registriert: 30.10.2010, 13:47

Beitrag Can » 16.05.2017, 08:41 Archive.org beachtet nicht mehr die Robots.txt

Als Stümper SEO wie die meisten User es hier sind jeden Tag den Datenschutz mit Füßen treten aber dann meckern wenn Archive.org eine Robots.txt Datei ignoriert und sich wie ein echter Besucher im Netz bewegen kann.

Lächerlich. Danke den Jungs von Archive. So eine super Seite, so ein super Service. Das Internet ist öffentlich, Besucher beachten deine Robots.txt auch nicht. Archive macht einen tollen Job.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag