Spider Software

staticweb · **staticweb** » 18.10.2019, 12:36 **Spider Software**

> Die Datenbank, bzw. die Erstellung muss aber mit einem hohen finanziellen wie personalintensivem Aufwand verbunden sein, damit man hier einen Anspruch auf Urheberrecht stellen kann.

Ich denke, da machst du es dir zu einfach. Hier ein Link mit einem Artikel der auf dieses Problem eingeht:

https://www.wbs-law.de/urheberrecht/ist ... gal-15081/

supervisior · **supervisior** » 18.10.2019, 13:25 **Spider Software**

staticweb hat geschrieben: ↑18.10.2019, 12:36 > Die Datenbank, bzw. die Erstellung muss aber mit einem hohen finanziellen wie personalintensivem Aufwand verbunden sein, damit man hier einen Anspruch auf Urheberrecht stellen kann.

Ich denke, da machst du es dir zu einfach. Hier ein Link mit einem Artikel der auf dieses Problem eingeht:

https://www.wbs-law.de/urheberrecht/ist ... gal-15081/

Ich machs mir nicht zu einfach. Ich zitiere nur das Urheberrecht, zumal der Artikel das bestätigt, was ich nur interpretiere

staticweb · **staticweb** » 18.10.2019, 14:09 **Spider Software**

> Und wenn ich Dir sage, dass es doch geht?

Dann sage ich dir, dass alles was deine User können, auch von Tools simuliert werden kann.

Allerdings gibt es natürlich Mechanismen die versuchen, dies zu erkennen. Das hat aber dann zur Folge, dass du auch SE-Bots blockierst.

supervisior · **supervisior** » 18.10.2019, 15:49 **Spider Software**

Du denkst viel zu kompliziert. Es hat aber eine zeitlang gedauert bis ich wusste, was und wie was zu tun ist. Ich wills mal knapp und einfach versuchen zu beschreiben. In 9 von 10 Fällen brauchst Du um eine gleiche Funktion zu erreichen, was webscraper.io an Daten liefert, einen herkömmlichen Client PC, bzw. einen Client der sich annähernd gleich verhält wie ein normaler User. Auch Dienste, die so was online anbieten, müssen einen herkömmlichen Client nachbilden, da sie ansonsten Gefahr laufen ein unerwünschter Bot zu sein und schon deswegen geblockt werden.

Nachdem das so ist, verwende ich Mittel, die vom Nutzer nicht beeinflussbar sind, aber keine IP Adressen oder ähnliches. Ich verwende die Session und schreibe in diese einen Zähler für jeden Seitenaufruf. Wenn also die Bedingung lautet nicht mehr als Anzahl X an Seiten in einem bestimmten Zeitraum, dann kann ich zu 99.999999999999999999% sagen, dass das kein normaler Seitenaufruf ist, sprich da will jemand Daten scrapen. Ist die Regel erfüllt, landet die IP Adresse temporär in der .htaccess. Bots muss ich nicht gesondert rausfiltern, weil die für gewöhnlich keine Session Cookies annehmen. Zur Absicherung habe ich aber trotzdem eine Liste, die aber nur aus 2 Einträgen besteht. Außer Google und Bing hat sowieso kein anderer eine Systemrelevanz.

staticweb · **staticweb** » 18.10.2019, 16:06 **Spider Software**

> ... brauchst Du ... , einen herkömmlichen Client PC, bzw. einen Client der sich annähernd gleich verhält wie ein normaler User.

Deswegen benutzt man dafür einen herkömmlichen Browser ohne GUI.

> ... verwende ich Mittel, die vom Nutzer nicht beeinflussbar sind.

Alle Anfragen sind manipulierbar. Und über den Client kann man maximal über Interaktionen eine Identifikation versuchen.

> Ich verwende die Session ...

"ist ein herkömmlichen Browser ohne GUI."

> ... nicht mehr als Anzahl X an Seiten in einem bestimmten Zeitraum, ...

Wie bereits geschrieben. Die Frequenz runter setzen und evtl. die IP wechseln (inkl. Cookie-Löschung).

> Bots muss ich nicht gesondert rausfiltern, weil die für gewöhnlich keine Session Cookies annehmen.

Das widerspricht sich dann aber und eine IP-Erkennung wäre notwendig.

supervisior · **supervisior** » 18.10.2019, 16:38 **Spider Software**

Du kannst jetzt daran meckern wie Du willst. Der Punkt ist, dass es funktioniert. Deine Anmerkungen greifen auch nicht, egal wie lange Du nach einer Schwachstelle suchst. Es ist ja nicht so, dass ich das for fun gemacht habe, sondern für eine hochfrequentierte Seite und natürlich bedurfte es der Gegenkontrolle, ob doch einer durchschlüpft, aber das hatte ich den letzten 3 Jahren nicht. Ergo, es funzt und ich hab recht, ätsch.

Nur mal so ein Tipp am Rande. Teste webscraper.io mal aus....

staticweb · **staticweb** » 18.10.2019, 17:13 **Spider Software**

> Du kannst jetzt daran meckern wie Du willst.

Nein, ich habe dir nur die Schwachstellen aufgezeigt.

> ... und natürlich bedurfte es der Gegenkontrolle, ob doch einer durchschlüpft, ...

Das sollte man dann schon von Außenstehenden prüfen lassen, da man ja nur die Lücken schließt die man selbst kennt.

> Nur mal so ein Tipp am Rande. Teste webscraper.io mal aus....

Die nutzen doch auch nur frei verfügbare Tools. Ich sehe da keinen Mehrwert.

supervisior · **supervisior** » 18.10.2019, 18:22 **Spider Software**

Du hast immer noch nicht verstanden worum es bei diesem Thema geht. Es geht nicht darum unerwünschten Bots den Zugriff zu verwehren. Beschäftige dich mal mit diesem websraper.io, dann kannst auch fundiert mitreden!

staticweb · **staticweb** » 18.10.2019, 18:47 **Spider Software**

> Du hast immer noch nicht verstanden worum es bei diesem Thema geht.

WebScraping

> Es geht nicht darum unerwünschten Bots den Zugriff zu verwehren.

Auch SE-Bots holen sich den Inhalt und die META-Daten deiner Seiten und verarbeiten sie danach. Wo soll da der Unterschied sein?

> Beschäftige dich mal mit diesem websraper.io, dann kannst auch fundiert mitreden!

Das ist nur ein Online-Dienst aus Lettland. Warum sollte ich mich mit denen beschäftigen? Ich kann mir mit Python eigene Scripte bauen. Dazu benötige ich keinen Zugang zu einem Dienst.

hanneswobus · **hanneswobus** » 18.10.2019, 20:02 **Spider Software**

elmex hat geschrieben: ↑18.10.2019, 09:28 Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.

Nur ist die Idee weder neu noch stösst sie auf Gegenliebe bei den Gelben Seiten & Co. Eben diese schützen sich gegen unzulässige Datennutzung schon länger, als es das Internet gibt. Denn das war schon bei den dicken gelben Telefonbüchern ein Thema. Also Finger von lassen, denn die haben ihre Tricks, Euch zu erwischen, wenn ihr diese Daten nutzt oder gar noch selber veröffentlicht!

also.
ich sehe hier keine extrem punktgenaue darstellung dazu, wie man da was abnuckelt.
zu "finger von lassen".
also ... ich habe da eine interessante erfahrung gemacht: manchmal haben "die" gar keine tricks, jedoch extremste lücken in den systemen, die eben auch wirklich simple scrapingansätze erlauben.

supervisior · **supervisior** » 19.10.2019, 09:39 **Spider Software**

staticweb hat geschrieben: ↑18.10.2019, 18:47 WebScraping

Wo Du nicht weißt, was das ist. Wüsstest Du es, würdest Du ganz anders argumentieren.

staticweb hat geschrieben: ↑18.10.2019, 18:47
Auch SE-Bots holen sich den Inhalt und die META-Daten deiner Seiten und verarbeiten sie danach. Wo soll da der Unterschied sein?

Schon wieder falsch. Nix Meta-Daten und auch nix danach verarbeiten.

staticweb hat geschrieben: ↑18.10.2019, 18:47 Das ist nur ein Online-Dienst aus Lettland. Warum sollte ich mich mit denen beschäftigen? Ich kann mir mit Python eigene Scripte bauen. Dazu benötige ich keinen Zugang zu einem Dienst.

Das ist kein ausschließlicher Online Dienst. Meno, warum unterhalte ich mich überhaupt mit Dir, wenn Du von hinten bis vorne nicht weißt worum es überhaupt geht!?

staticweb · **staticweb** » 20.10.2019, 14:05 **Spider Software**

> Wo Du nicht weißt, was das ist. Wüsstest Du es, würdest Du ganz anders argumentieren.

Aha.

> Schon wieder falsch. Nix Meta-Daten und auch nix danach verarbeiten.

Die kommen als nur zu Besuch und schauen dann ab und zu mal vorbei? Da frage ich mich zu was Google über ein Scraping Patent verfügt.

> Das ist kein ausschließlicher Online Dienst.

Wenn es dir nur um die Chrome Erweiterung geht muss du das schon schreiben. Die habe ich bereits vor ca. 2 Jahren angetestet. Und da sie mir zu buggy ist (siehe auch Bewertungen) führe ich sie nur noch im deaktivierten Zustand mit.

> Meno, warum unterhalte ich mich überhaupt mit Dir, wenn Du von hinten bis vorne nicht weißt worum es überhaupt geht!?

Das frage ich mich auch schon die ganze Zeit. Wenn du über die Chrome Erweiterung fachsimpeln willst muss du dir in der Tat jemand anders suchen. Das gleiche erreiche ich mit einem kurzen Python Script, ohne dass Daten nach Lettland und zu Google abfließen.

supervisior · **supervisior** » 20.10.2019, 19:49 **Spider Software**

staticweb hat geschrieben: ↑20.10.2019, 14:05 > Wo Du nicht weißt, was das ist. Wüsstest Du es, würdest Du ganz anders argumentieren.

Aha.

> Schon wieder falsch. Nix Meta-Daten und auch nix danach verarbeiten.

Die kommen als nur zu Besuch und schauen dann ab und zu mal vorbei? Da frage ich mich zu was Google über ein Scraping Patent verfügt.

> Das ist kein ausschließlicher Online Dienst.

Wenn es dir nur um die Chrome Erweiterung geht muss du das schon schreiben. Die habe ich bereits vor ca. 2 Jahren angetestet. Und da sie mir zu buggy ist (siehe auch Bewertungen) führe ich sie nur noch im deaktivierten Zustand mit.

> Meno, warum unterhalte ich mich überhaupt mit Dir, wenn Du von hinten bis vorne nicht weißt worum es überhaupt geht!?

Das frage ich mich auch schon die ganze Zeit. Wenn du über die Chrome Erweiterung fachsimpeln willst muss du dir in der Tat jemand anders suchen. Das gleiche erreiche ich mit einem kurzen Python Script, ohne dass Daten nach Lettland und zu Google abfließen.

Sorry, und wenn ich es nochmal sagen muss, aber Du weißt immer noch nicht worum es geht. Vor allem weißt du immer noch nicht wie gut das Teil ist. Jeder, der das Plugin schlecht bewertet, kann damit nicht umgehen. Ich würds nicht sagen, wenns nicht anders wäre, wie Du darüber urteilst. Aber egal, ich steig hier aus, weil es keinen Sinn macht mit Dir darüber zu diskutieren.

HelgeSchneider · **HelgeSchneider** » 21.10.2019, 09:42 **Spider Software**

Das Thema driftet glaube etwas ab

. Hier noch meine persönliche Meinung:

Nicht jeder der Crawler schreibt tut damit Böses. Netterweise sollte man sich die robots.txt mal anschauen, bevor man crawlt. Und wo ich das tue habe ich meist vorher mit dem Anbieter Art und Crawl-Frequenz abgestimmt. Kommt immer darauf an, was man machen möchte.

Und ja, ich glaube es gibt keinen sinnvollen Schutz gegen crawling. Alles was man im Browser sehen kann, das kann man auch maschinell auslesen. Alles eine Frage des Aufwands. Das ist erst mal meine Behauptung

.

Und die meisten Seiten die ich bisher gesehen habe, haben überhaupt keinen Schutz gegen Crawler, bzw noch nie über das Thema nachgedacht. Super sind die neuen dynamischen Seiten, wo alles per JSON ans Frontend geliefert wird, da hat man die Daten gleich sauber aufgearbeitet verfügbar

Ich habe auch schon Crawler geschrieben wo man sehr seltsam verschachtelte User-Sessions aufbauen musste, um überhaupt an die Daten zu kommen. Da lernt man auch viel darüber wie (seltsam) manche Websiten umgesetzt sind.

supervisior · **supervisior** » 21.10.2019, 09:59 **Spider Software**

HelgeSchneider hat geschrieben: ↑21.10.2019, 09:42 Das Thema driftet glaube etwas ab . Hier noch meine persönliche Meinung:

Nicht jeder der Crawler schreibt tut damit Böses. Netterweise sollte man sich die robots.txt mal anschauen, bevor man crawlt. Und wo ich das tue habe ich meist vorher mit dem Anbieter Art und Crawl-Frequenz abgestimmt. Kommt immer darauf an, was man machen möchte.

Und ja, ich glaube es gibt keinen sinnvollen Schutz gegen crawling. Alles was man im Browser sehen kann, das kann man auch maschinell auslesen. Alles eine Frage des Aufwands. Das ist erst mal meine Behauptung .

Und die meisten Seiten die ich bisher gesehen habe, haben überhaupt keinen Schutz gegen Crawler, bzw noch nie über das Thema nachgedacht. Super sind die neuen dynamischen Seiten, wo alles per JSON ans Frontend geliefert wird, da hat man die Daten gleich sauber aufgearbeitet verfügbar

Ich habe auch schon Crawler geschrieben wo man sehr seltsam verschachtelte User-Sessions aufbauen musste, um überhaupt an die Daten zu kommen. Da lernt man auch viel darüber wie (seltsam) manche Websiten umgesetzt sind.

Du beklagst das Abdriften vom Thema und driftest doch selbst mit Deinem Thema vom TE Thema ab?! Crawler im allgemeinen Sinne ist doch überhaupt nicht das Thema, sondern um eine Technik/Software, die isolierten Content aus einer Seite saugt, bzw. scraped.

Dazu braucht es keinen für diesen Zweck primitiven Crawler, der den Content nach dem crawlen verarbeitet.