registrieren registriertes Mitglied


Anzeige

Anzeige

Spider Software

Alles zu Domain-Umzug, Weiterleitungen und Robots diskutiert Ihr hier.
staticweb
PostRank 9
PostRank 9
Beiträge: 2086
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 18.10.2019, 12:36 Spider Software

> Die Datenbank, bzw. die Erstellung muss aber mit einem hohen finanziellen wie personalintensivem Aufwand verbunden sein, damit man hier einen Anspruch auf Urheberrecht stellen kann.

Ich denke, da machst du es dir zu einfach. Hier ein Link mit einem Artikel der auf dieses Problem eingeht:

https://www.wbs-law.de/urheberrecht/ist ... gal-15081/

Anzeige von:

Personal Branding mit ABAKUS:
  • Höhere Glaubwürdigkeit
  • Hervorhebung Ihrer Kompetenz
  • Stärkung Ihrer Alleinstellungsmerkmale
  • Abhebung von Namensvettern
Profitieren Sie von unserer Erfahrung!
0511 / 300325-0

supervisior
PostRank 9
PostRank 9
Beiträge: 2240
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 18.10.2019, 13:25 Spider Software

staticweb hat geschrieben:
18.10.2019, 12:36
> Die Datenbank, bzw. die Erstellung muss aber mit einem hohen finanziellen wie personalintensivem Aufwand verbunden sein, damit man hier einen Anspruch auf Urheberrecht stellen kann.

Ich denke, da machst du es dir zu einfach. Hier ein Link mit einem Artikel der auf dieses Problem eingeht:

https://www.wbs-law.de/urheberrecht/ist ... gal-15081/
Ich machs mir nicht zu einfach. Ich zitiere nur das Urheberrecht, zumal der Artikel das bestätigt, was ich nur interpretiere

staticweb
PostRank 9
PostRank 9
Beiträge: 2086
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 18.10.2019, 14:09 Spider Software

> Und wenn ich Dir sage, dass es doch geht?

Dann sage ich dir, dass alles was deine User können, auch von Tools simuliert werden kann.

Allerdings gibt es natürlich Mechanismen die versuchen, dies zu erkennen. Das hat aber dann zur Folge, dass du auch SE-Bots blockierst.

supervisior
PostRank 9
PostRank 9
Beiträge: 2240
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 18.10.2019, 15:49 Spider Software

Du denkst viel zu kompliziert. Es hat aber eine zeitlang gedauert bis ich wusste, was und wie was zu tun ist. Ich wills mal knapp und einfach versuchen zu beschreiben. In 9 von 10 Fällen brauchst Du um eine gleiche Funktion zu erreichen, was webscraper.io an Daten liefert, einen herkömmlichen Client PC, bzw. einen Client der sich annähernd gleich verhält wie ein normaler User. Auch Dienste, die so was online anbieten, müssen einen herkömmlichen Client nachbilden, da sie ansonsten Gefahr laufen ein unerwünschter Bot zu sein und schon deswegen geblockt werden.

Nachdem das so ist, verwende ich Mittel, die vom Nutzer nicht beeinflussbar sind, aber keine IP Adressen oder ähnliches. Ich verwende die Session und schreibe in diese einen Zähler für jeden Seitenaufruf. Wenn also die Bedingung lautet nicht mehr als Anzahl X an Seiten in einem bestimmten Zeitraum, dann kann ich zu 99.999999999999999999% sagen, dass das kein normaler Seitenaufruf ist, sprich da will jemand Daten scrapen. Ist die Regel erfüllt, landet die IP Adresse temporär in der .htaccess. Bots muss ich nicht gesondert rausfiltern, weil die für gewöhnlich keine Session Cookies annehmen. Zur Absicherung habe ich aber trotzdem eine Liste, die aber nur aus 2 Einträgen besteht. Außer Google und Bing hat sowieso kein anderer eine Systemrelevanz.

staticweb
PostRank 9
PostRank 9
Beiträge: 2086
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 18.10.2019, 16:06 Spider Software

> ... brauchst Du ... , einen herkömmlichen Client PC, bzw. einen Client der sich annähernd gleich verhält wie ein normaler User.

Deswegen benutzt man dafür einen herkömmlichen Browser ohne GUI.

> ... verwende ich Mittel, die vom Nutzer nicht beeinflussbar sind.

Alle Anfragen sind manipulierbar. Und über den Client kann man maximal über Interaktionen eine Identifikation versuchen.

> Ich verwende die Session ...

"ist ein herkömmlichen Browser ohne GUI."

> ... nicht mehr als Anzahl X an Seiten in einem bestimmten Zeitraum, ...

Wie bereits geschrieben. Die Frequenz runter setzen und evtl. die IP wechseln (inkl. Cookie-Löschung).

> Bots muss ich nicht gesondert rausfiltern, weil die für gewöhnlich keine Session Cookies annehmen.

Das widerspricht sich dann aber und eine IP-Erkennung wäre notwendig.

Anzeige von: