registrieren registriertes Mitglied


Anzeige

Anzeige

Spider Software

Alles zu Domain-Umzug, Weiterleitungen und Robots diskutiert Ihr hier.
nerd
PostRank 10
PostRank 10
Beiträge: 4293
Registriert: 15.02.2005, 04:02

Beitrag nerd » 21.10.2019, 12:04 Spider Software

elmex hat geschrieben:
18.10.2019, 09:28
Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.
Den selector rauszubekommen ist ja relativ trivial. Allerdings muss der crawler ja auch paging und navigation beherrschen um mehr als eine seite abzuarbeiten. Und abgesehen davon wird der erzeugte datenstand ja auch nicht besonders hilfreich sein, da sich bei einer millione eintraegen bestimmt pro tag ~100 oder so aendern, wegfallen oder auf irgendwelchen unterseiten neue hinzukommen.

Anzeige von:

Personal Branding mit ABAKUS:
  • Höhere Glaubwürdigkeit
  • Hervorhebung Ihrer Kompetenz
  • Stärkung Ihrer Alleinstellungsmerkmale
  • Abhebung von Namensvettern
Profitieren Sie von unserer Erfahrung!
0511 / 300325-0

nerd
PostRank 10
PostRank 10
Beiträge: 4293
Registriert: 15.02.2005, 04:02

Beitrag nerd » 21.10.2019, 12:16 Spider Software

supervisior hat geschrieben:
18.10.2019, 15:49
Du denkst viel zu kompliziert. Es hat aber eine zeitlang gedauert bis ich wusste, was und wie was zu tun ist.
Richtige profis schauen mit javascript nach wie der mauszeiger mit der seite interagiert: gabe es ein :hover vor dem klick, aendert sich die mauspositionzwischen den klicks, wird mit maus, keyboard oder touch navigiert usw.

supervisior
PostRank 9
PostRank 9
Beiträge: 2718
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 21.10.2019, 14:05 Spider Software

nerd hat geschrieben:
21.10.2019, 12:16
supervisior hat geschrieben:
18.10.2019, 15:49
Du denkst viel zu kompliziert. Es hat aber eine zeitlang gedauert bis ich wusste, was und wie was zu tun ist.
Richtige profis schauen mit javascript nach wie der mauszeiger mit der seite interagiert: gabe es ein :hover vor dem klick, aendert sich die mauspositionzwischen den klicks, wird mit maus, keyboard oder touch navigiert usw.
Hey Du Profi.... :) Seit wann können Bots Javascript oder Session Cookies?

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 2146
Registriert: 26.09.2011, 23:31

Beitrag Hanzo2012 » 21.10.2019, 15:13 Spider Software

Kein Problem für Bots, die auf PhantomJS etc. basieren.

staticweb
PostRank 9
PostRank 9
Beiträge: 2289
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 21.10.2019, 15:19 Spider Software

> Seit wann können Bots Javascript oder Session Cookies?

Bot ist genau wie Spider nur ein Synonym für einen Webcrawler. Seit der Google Bot auf den aktuellen Chrome umgestiegen ist, wird auch das JS-Rendering vollständig unterstützt. Auch Cookies können gespeichert werden. Diese werden allerdings sofort wieder gelöscht.

Anzeige von:


hanneswobus
PostRank 10
PostRank 10
Beiträge: 6689
Registriert: 16.03.2008, 01:39
Kontaktdaten:

Beitrag hanneswobus » 04.12.2019, 14:05 Spider Software

elmex hat geschrieben:
18.10.2019, 09:28
Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.

Nur ist die Idee weder neu noch stösst sie auf Gegenliebe bei den Gelben Seiten & Co. Eben diese schützen sich gegen unzulässige Datennutzung schon länger, als es das Internet gibt. Denn das war schon bei den dicken gelben Telefonbüchern ein Thema. Also Finger von lassen, denn die haben ihre Tricks, Euch zu erwischen, wenn ihr diese Daten nutzt oder gar noch selber veröffentlicht!
Ich sehe hier keine nachbaubare Anleitung u. dann beobachte ich, dass dieser Vorschuss-Respekt nicht immer gerechtfertigt ist. Weiter: dass der Verkauf o. Republish solcher Daten irgendwie - OHA - dumm ist, müsste man dann schon wissen.

Ich denke, dass man bei diesen Diskussionen streng am Thema bleiben sollte.

hanneswobus
PostRank 10
PostRank 10
Beiträge: 6689
Registriert: 16.03.2008, 01:39
Kontaktdaten:

Beitrag hanneswobus » 04.12.2019, 14:06 Spider Software

nerd hat geschrieben:
21.10.2019, 12:04
elmex hat geschrieben:
18.10.2019, 09:28
Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.
Den selector rauszubekommen ist ja relativ trivial. Allerdings muss der crawler ja auch paging und navigation beherrschen um mehr als eine seite abzuarbeiten. Und abgesehen davon wird der erzeugte datenstand ja auch nicht besonders hilfreich sein, da sich bei einer millione eintraegen bestimmt pro tag ~100 oder so aendern, wegfallen oder auf irgendwelchen unterseiten neue hinzukommen.
Meistens sieht man das anhand von irgendeiner simplen Zahlenlogik. Wenn man das Muster verstanden hat, lässt sich der Käse automatisieren. Ich hatte da erst dieses Jahr sowas bei einem asiatischen SoMe-System in die Finger bekommen u. da ein paar GB abgeholt.

staticweb
PostRank 9
PostRank 9
Beiträge: 2289
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 04.12.2019, 14:15 Spider Software

> Meistens sieht man das anhand von irgendeiner simplen Zahlenlogik. Wenn man das Muster verstanden hat, lässt sich der Käse automatisieren.

Auf manchen Seiten geht es aber ohne JS nicht, weshalb dann ein nachfolgendes Rendering des HTML notwendig wird.

supervisior
PostRank 9
PostRank 9
Beiträge: 2718
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 05.12.2019, 05:55 Spider Software

staticweb hat geschrieben:
04.12.2019, 14:15
Auf manchen Seiten geht es aber ohne JS nicht, weshalb dann ein nachfolgendes Rendering des HTML notwendig wird.
Ohne Dich anfeinden zu wollen, aber Du hast Dich immer noch nicht ausreichend mit der Materie beschäftigt, sodass es schlichtweg immer noch Quatsch ist, was Du da erzählst. Hier muss nix und vor allem nicht nachfolgend gerendert werden. Es geht um die nackten Rohdaten, die genauso geparsed werden, wie wenn Du eine Seite im Browser aufrufst, nur eben ohne Quellcode. Wenn ich zwischewndurch mal Zeit habe, zeig ich Dir das mal an Hand des Abakus Forums.

staticweb
PostRank 9
PostRank 9
Beiträge: 2289
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 05.12.2019, 07:31 Spider Software

>> Hey Du Profi.... :) Seit wann können Bots Javascript oder Session Cookies?

> Ohne Dich anfeinden zu wollen, aber Du hast Dich immer noch nicht ausreichend mit der Materie beschäftigt, sodass es schlichtweg immer noch Quatsch ist, was Du da erzählst.

Mit dem Ego funktioniert es ja schon. Fachlich leider noch nicht. :-)

> Wenn ich zwischewndurch mal Zeit habe, zeig ich Dir das mal an Hand des Abakus Forums.

Das wäre ja das gleiche, wenn ich dir erkläre wie LiteSpeed funktioniert.

Und dann nimm bitte ein Beispiel, welches nur mit aktiviertem JS Inhalte ausliefert. Und keine 0815 Seite.

supervisior
PostRank 9
PostRank 9
Beiträge: 2718
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 05.12.2019, 07:45 Spider Software

Du und LiteSpeed? Never! ;)

Sag mir eine Webseite, mir egal welche.

staticweb
PostRank 9
PostRank 9
Beiträge: 2289
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 05.12.2019, 07:55 Spider Software

> Sag mir eine Webseite, mir egal welche.

Du musst mir nichts beweisen und ich werde dir bestimmt keinen "Auftrag" geben Daten abzuziehen. Das war deine Idee.

Such dir einfach ein Beispiel mit react, vue oder angular, welches kein SSR nutzt, wenn dir das so wichtig ist.

supervisior
PostRank 9
PostRank 9
Beiträge: 2718
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 05.12.2019, 08:00 Spider Software

Is mir Schnurz, ob und welches Framework verwendet wird. Solange sich die Seite mit dem Browser bedienen lässt, gibts keine Probleme. Ich will mich Dir aber nicht aufdrängen, sondern Dir lediglich helfen Dein Wissensdefizit endlich zu schließen bevor Du noch länger Quatsch erzählst. Das tut schön langsam weh..... ;)

staticweb
PostRank 9
PostRank 9
Beiträge: 2289
Registriert: 04.05.2016, 14:34

Beitrag staticweb » 05.12.2019, 08:04 Spider Software

>> Hey Du Profi.... :) Seit wann können Bots Javascript oder Session Cookies?

> Das tut schön langsam weh.....

Genau deshalb beende ich das auch an dieser Stelle. :-)

supervisior
PostRank 9
PostRank 9
Beiträge: 2718
Registriert: 26.06.2006, 09:11

Beitrag supervisior » 05.12.2019, 08:19 Spider Software

staticweb hat geschrieben:
05.12.2019, 08:04
Genau deshalb beende ich das auch an dieser Stelle. :-)
Na umso besser! :multi: :multi: :multi:

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag