Herzlich willkommen im SEO Forum der ABAKUS Internet Marketing GmbH
registrieren registriertes Mitglied
Das ginge schon, wenn Du bestimmte CMS im Fokus hast. Rufe noch eine "Tüte" voll mit Domains mit einer CMS spezifischen URL auf. Wenn Status 200, hast Du schon mal ziemlicher sicher um welches CMS es sich handelt. Und aufbauend darauf kann man noch weiter selektieren, bzw. die vorher beschriebene Vorgehensweise anwenden. Mit cURL alles kein Problem....
Zumindest Social Media ginge rel. gut, wenn man den Quellcode nach den gängigsten Host Namen für Fratzenbuch & Co durchsucht.
Mir schon.... Ich durchforste grade 18 Mio. Domänen, um herauszufinden, ob darüber eine ganz bestimmte Software läuft. Ist zwar zäh, weil ich nur grad mal 100.000 Domains/Stunde schaffe, aber genau ist das schon, wenn man weiß wonach man suchen muss. Es legt nur meine 200Mbit Leitung lahm, weil ich 200 Hosts gleichzeitig abfrage. Außerdem scheint es dem Router nicht zu bekommen und muss deswegen mehrfach täglich einen Reset machen.hanneswobus hat geschrieben: ↑15.02.2021, 17:28 @supervisior.
Naja. Ich übertreibe es gern, wenn ich Daten hole u. mir fällt wirklich WIRKLICH keine einzige praktikable Lösung ein, die in einem Aufwasch (12h) ~ 20 bis 60 Mio Domains da durchpfeffert u. zwar relativ (!) fehlerfrei. Eigentlich braucht man sowas auch nicht. ^^
Die Idee dahinter ist, dass solch ein Tool beim Suchen nach möglichen Kunden / Partnern helfen könnte, also potentiell meinen Akquise-Prozess verbessert.
Eine Liste mit 100 Projekten nach meinen Kriterien würde mir zu Beginn schon reichen.
Das ist kein Webcrawler, zumindest nicht so einer was Du darunter verstehen magst, weil der nicht dynamisch durch Webseiten crawled und nach Verlinkungen sucht. Das ist einfach nur PHP und cURL.
Diese aufgabenstellung ist gar nicht zu loesen.penet hat geschrieben: ↑15.02.2021, 08:42 Eine fiktive Beispiel-Suche könnte dann wie folgt aussehen: Ich möchte ausschließlich deutschsprachige Webprojekte zu einem bestimmten Thema finden, welche mehr als 500 Seiten haben aber noch kein Social Media verwenden.
Leider konnte ich keine Lösung finden und bin mir auch nicht wirklich sicher nach was ich wirklich googlen soll.
Für die Spracherkennung teste ich aktuell langdetect auf dem response content was vermutlich zuverlässiger funktioniert als nur den header auszulesen.
Hm; je nachdem um welches thema es geht und wie hoch der anteil der fachbegriffe ist, liegen solche schaetzungen gerne mal daneben.penet hat geschrieben: ↑22.02.2021, 13:07 Für die Spracherkennung teste ich aktuell langdetect auf dem response content was vermutlich zuverlässiger funktioniert als nur den header auszulesen.