Herzlich willkommen im SEO Forum der ABAKUS Internet Marketing GmbH
registrieren registriertes Mitglied
Warum nicht einfach selber machen?
Code: Alles auswählen
$("#gs_treffer article>div.table .h2 span").each(function(key,data){console.log($(data).text())});
Wollte es mir so einfach wie möglich machen, aber "selber machen" wäre sonst eine Alternative für mich. Danke für den Code, ich werde es mal ausprobieren.Warum nicht einfach selber machen?
Gelbe seiten auslesen in 4 einfachen schritten:
- https://www.gelbeseiten.de/Branchen/Imbiss/M%C3%BCnchen aufrufen
- Console oeffnen (F12)
- Code einfuegen:- In deine excel tabelle kopierenCode: Alles auswählen
$("#gs_treffer article>div.table .h2 span").each(function(key,data){console.log($(data).text())});
- fertig!
Das liest natuerlich nur die aktuelle seite aus; wenn die gelben seiten wollten das du dir ihren kompletten datensatz aneignest, wuerden sie dir natuerlich irgendwo einen praktischen download in verschiedenen formaten dafuer anbieten.
Wow, das hilft mir auch, danke fürs teilen.supervisior hat geschrieben: ↑07.09.2019, 07:46 Das Thema ist zwar schon älter, aber die Lösung gibts hier:
https://webscraper.io/
Aber Vorsicht damit. Das Teil ist zwar genial und man kann damit mehr rausholen als was darüber dokumentiert ist, aber Ihr könnt damit auch ganz schnell auf einer Bann-Liste stehen. Kommt auf die jeweilige Seite an. Bei mir hättet Ihr damit keine Chance was zu scrapen. Also nicht übertreiben!HelgeSchneider hat geschrieben: ↑17.10.2019, 20:24 Da ich viel in der Java Entwicklung unterwegs bin nutze ich gern in Crawlern jsoup für HTML, jackson für JSON und pdfbox um Informationen aus PDFs zu zutschen. Mit jsoup kann man auch jquery-vergleichbare select-statements basteln.
webscraper kannte ich noch nicht, das sieht auch auch echt gut aus ...
Du hast natürlich vollkommen recht, aber ohne es gutheißen zu wollen, verhält es sich dabei wie mit einer Schaufel. Ich kann damit ein Loch graben, aber damit auch jemanden auf den Kopf schlagen. So eine Software muss ja nicht zwangsläufig dazu dienen, um damit Böses zu tun. Dass das naheliegend ist, ergibt sich automatisch an der Fragestellung des Themenstarters. Hätte dieser den Bedarf anders formuliert, würds gleich anders aussehen. Nicht zuletzt an dem ins Auge stechenden Verwendungszweck habe ich zuletzt auch angemerkt, dass die besagten Content Anbieter nicht auf den Kopf gefallen sind und Vorkehrungen treffen, was dann aber doch nicht so einfach geht, um nicht den Falschen Unrecht anzutun.elmex hat geschrieben: ↑18.10.2019, 09:28 Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.
Nur ist die Idee weder neu noch stösst sie auf Gegenliebe bei den Gelben Seiten & Co. Eben diese schützen sich gegen unzulässige Datennutzung schon länger, als es das Internet gibt. Denn das war schon bei den dicken gelben Telefonbüchern ein Thema. Also Finger von lassen, denn die haben ihre Tricks, Euch zu erwischen, wenn ihr diese Daten nutzt oder gar noch selber veröffentlicht!
Ach nööö, das ist ja geradezu naiv, wie Du das darstellst. Da brauchts dann schon etwas mehr Grips.staticweb hat geschrieben: ↑18.10.2019, 08:59 > Kommt auf die jeweilige Seite an. Bei mir hättet Ihr damit keine Chance was zu scrapen. Also nicht übertreiben!
Stichwort: headless chrome | selenium
Wenn die Frequenz heruntergesetzt wird und ein IP-Wechsel stattfindet wirst auch du das nicht verhindern können.