Webseiten nach Kriterien finden

penet · **penet** » 15.02.2021, 08:42 **Webseiten nach Kriterien finden**

Hallo liebe Forenmitglieder,

kennt hier zufällig jemand eine Art Suchmaschine / Datenbank, die es mir erlaubt, Webprojekte nach bestimmten Kriterien zu finden?
Die Kriterien / Filter würden sich auf den Inhalt beziehen (Anzahl an Seiten, verwendete Sprachen, Anzahl Bilder oder Tabellen), das Design (hat Logo ja oder nein), die Technik (welches CMS wird verwendet soweit das festgestellt werden kann) oder die Verwendung von Social Media (hat Twitter, Facebook, Instagram Account etc).
Eine fiktive Beispiel-Suche könnte dann wie folgt aussehen: Ich möchte ausschließlich deutschsprachige Webprojekte zu einem bestimmten Thema finden, welche mehr als 500 Seiten haben aber noch kein Social Media verwenden.
Leider konnte ich keine Lösung finden und bin mir auch nicht wirklich sicher nach was ich wirklich googlen soll.

supervisior · **supervisior** » 15.02.2021, 11:44 **Webseiten nach Kriterien finden**

Rein technisch ist das schon möglich, weil ich so was grad mache. Allerdings braucht es dafür immer gleichbleibende Kriterien, die sich auf allen Seiten/Domains finden lassen müssten. Nachdem es so was aber nicht gibt, wirst Du da noch bis zum Sankt Nimmerleinstag suchen und wirst so was nicht finden, weil nicht möglich.

Was aber z.B. geht und das auch sehr schnell, ist jede Domain nach der Existenz eines bestimmten Response Headers abzufragen. 1 Million Domains in 24 Std. abfragen ist da kein Problem. Weitaus länger dauert es, wenn man z.B. den Content untersuchen will, also z.B. die Startseite abfragen, ob ein Wort oder eine Phrase im Quellcode enthalten ist. So was dauert zigfach länger.

hanneswobus · **hanneswobus** » 15.02.2021, 13:03 **Webseiten nach Kriterien finden**

Mh.
Ja. Das geht, aber die Datenerhebung ist nicht trivial, allein wenn ich an die SoMe-Metriken denken ... uihui.
Also ich lasse derzeit eine wirklich große Datenerhebung auf Twitter laufen u. es kommen pro Tag um die 10 bis 36GB zusammen. Da befinden sich selbstverständlich Spuren zu Domains, zu Links über die Tweets u. Profilangaben, aber ich hätte jetzt keine Idee, wie man daraus was basteln kann, was bspw. auf die CMS-Technologie zielt.

@penet
Befasse Dich mit den API-Endpoints der Plattformen u. sauge Dir da was zusammen u. je nach Bedarfslage kannst Du daraus ja einen Service komponieren. Viel Erfolg

supervisior · **supervisior** » 15.02.2021, 13:45 **Webseiten nach Kriterien finden**

Vielleicht etwas fehlertolerant, aber nimm eine "Tüte" voll Domains und saug Dir die sitemap.xml, sofern die denn so heißt, parse die sitemap.xml und hole dir alle URLs aus der sitemap.xml. Zumindest technisch mit simplexml_load_string() kein Problem. Geht zwar flott, braucht aber ordentlich Bums auf die Menge gerechnet.

supervisior · **supervisior** » 15.02.2021, 13:49 **Webseiten nach Kriterien finden**

hanneswobus hat geschrieben: 15.02.2021, 13:03 was bspw. auf die CMS-Technologie zielt.

Das ginge schon, wenn Du bestimmte CMS im Fokus hast. Rufe noch eine "Tüte" voll mit Domains mit einer CMS spezifischen URL auf. Wenn Status 200, hast Du schon mal ziemlicher sicher um welches CMS es sich handelt. Und aufbauend darauf kann man noch weiter selektieren, bzw. die vorher beschriebene Vorgehensweise anwenden. Mit cURL alles kein Problem....

staticweb · **staticweb** » 15.02.2021, 17:01 **Webseiten nach Kriterien finden**

Für alle Website, weltweit? Nein, gibt es nicht und wird es in diesem Umfang auch nie geben.

Was soll das überhaupt für einen Nutzen bringen?

hanneswobus · **hanneswobus** » 15.02.2021, 17:28 **Webseiten nach Kriterien finden**

@supervisior.
Naja. Ich übertreibe es gern, wenn ich Daten hole u. mir fällt wirklich WIRKLICH keine einzige praktikable Lösung ein, die in einem Aufwasch (12h) ~ 20 bis 60 Mio Domains da durchpfeffert u. zwar relativ (!) fehlerfrei. Eigentlich braucht man sowas auch nicht. ^^

@Staticweb
Keinen Nutzen.
Aber die Denksportaufgabe ist natürlich sexy.

top · **top** » 15.02.2021, 17:34 **Webseiten nach Kriterien finden**

Ich frage mich, ob man Suchkriterien wie "hat Logo" oder "kein Social Media verwendet" halbwegs zuverlässig automatisiert erfassen kann.

supervisior · **supervisior** » 15.02.2021, 19:47 **Webseiten nach Kriterien finden**

top hat geschrieben: 15.02.2021, 17:34 Ich frage mich, ob man Suchkriterien wie "hat Logo" oder "kein Social Media verwendet" halbwegs zuverlässig automatisiert erfassen kann.

Zumindest Social Media ginge rel. gut, wenn man den Quellcode nach den gängigsten Host Namen für Fratzenbuch & Co durchsucht.

supervisior · **supervisior** » 15.02.2021, 19:53 **Webseiten nach Kriterien finden**

hanneswobus hat geschrieben: 15.02.2021, 17:28 @supervisior.
Naja. Ich übertreibe es gern, wenn ich Daten hole u. mir fällt wirklich WIRKLICH keine einzige praktikable Lösung ein, die in einem Aufwasch (12h) ~ 20 bis 60 Mio Domains da durchpfeffert u. zwar relativ (!) fehlerfrei. Eigentlich braucht man sowas auch nicht. ^^

Mir schon.... Ich durchforste grade 18 Mio. Domänen, um herauszufinden, ob darüber eine ganz bestimmte Software läuft. Ist zwar zäh, weil ich nur grad mal 100.000 Domains/Stunde schaffe, aber genau ist das schon, wenn man weiß wonach man suchen muss. Es legt nur meine 200Mbit Leitung lahm, weil ich 200 Hosts gleichzeitig abfrage. Außerdem scheint es dem Router nicht zu bekommen und muss deswegen mehrfach täglich einen Reset machen.

penet · **penet** » 16.02.2021, 12:25 **Webseiten nach Kriterien finden**

Vielen Dank für die Rückmeldungen.

staticweb hat geschrieben: 15.02.2021, 17:01 Was soll das überhaupt für einen Nutzen bringen?

Die Idee dahinter ist, dass solch ein Tool beim Suchen nach möglichen Kunden / Partnern helfen könnte, also potentiell meinen Akquise-Prozess verbessert.

staticweb hat geschrieben: 15.02.2021, 17:01Für alle Website, weltweit? Nein, gibt es nicht und wird es in diesem Umfang auch nie geben.

Eine Liste mit 100 Projekten nach meinen Kriterien würde mir zu Beginn schon reichen.

Danke auch für die Hinweise Richtung Implementierung (cURL, simplexml_load_string, API etc.) - werde mich mit dem Thema Webcrawler näher beschäftigen.

supervisior · **supervisior** » 16.02.2021, 12:42 **Webseiten nach Kriterien finden**

penet hat geschrieben: 16.02.2021, 12:25 Danke auch für die Hinweise Richtung Implementierung (cURL, simplexml_load_string, API etc.) - werde mich mit dem Thema Webcrawler näher beschäftigen.

Das ist kein Webcrawler, zumindest nicht so einer was Du darunter verstehen magst, weil der nicht dynamisch durch Webseiten crawled und nach Verlinkungen sucht. Das ist einfach nur PHP und cURL.

nerd · **nerd** » 18.02.2021, 02:07 **Webseiten nach Kriterien finden**

penet hat geschrieben: 15.02.2021, 08:42 Eine fiktive Beispiel-Suche könnte dann wie folgt aussehen: Ich möchte ausschließlich deutschsprachige Webprojekte zu einem bestimmten Thema finden, welche mehr als 500 Seiten haben aber noch kein Social Media verwenden.
Leider konnte ich keine Lösung finden und bin mir auch nicht wirklich sicher nach was ich wirklich googlen soll.

Diese aufgabenstellung ist gar nicht zu loesen.

Die seitenanzahl kannst du nie genau bestimmen, denn was ist mit seiten die per robots.txt ausgeschlossen wurden, oder ein bestimmtes verfallsdatum haben (weihnachtskatalog_2005.html), oder nur angemeldeten mitgliedern (foren!) zugaenglich sind.

Und wie definierst du social media? Woher soll ein programm wissen ob der twitter link im footer zu deiner seite gehoert, oder dem ersteller des wordpress themes der damit seine marke bekannt machen will. Dafuer gibt es zwar meta tags, aber die werden auch nicht von allen seiten eingesetzt.

Sprache zu erkennen ist ebenfalls nicht trivial, und nicht jede seite setzt die richtigen header um mal schnell "de", "en" oder so auszulesen. Seiten in der schweiz werden wahrscheinlich den selben inhalt in 3 verschieden sprachen anbieten; was dann wahrscheinlich wieder ein problem mit der seitenzahl weiter oben ergibt.

penet · **penet** » 22.02.2021, 13:07 **Webseiten nach Kriterien finden**

Inzwischen konnte ich mit Hilfe von Python (requests, Beautiful Soup, selenium und reppy) einen Prototyp erstellen, der eigentlich ganz ok funktioniert. Mir ist auch klar geworden, dass es nicht unbedingt mit 100% Genauigkeit geht, aber damit kann ich leben. Selbst wenn die vorselektierte Liste noch einge false positives enthält, ist es für mich deutlich effizienter als alles manuell zu prüfen.

nerd hat geschrieben: 18.02.2021, 02:07 Sprache zu erkennen ist ebenfalls nicht trivial

Für die Spracherkennung teste ich aktuell langdetect auf dem response content was vermutlich zuverlässiger funktioniert als nur den header auszulesen.

nerd · **nerd** » 23.02.2021, 05:00 **Webseiten nach Kriterien finden**

penet hat geschrieben: 22.02.2021, 13:07 Für die Spracherkennung teste ich aktuell langdetect auf dem response content was vermutlich zuverlässiger funktioniert als nur den header auszulesen.

Hm; je nachdem um welches thema es geht und wie hoch der anteil der fachbegriffe ist, liegen solche schaetzungen gerne mal daneben.
Bei computerthemen meint google oefters mal dass das eine seite in englisch ist, bei einer seite zum thema fachmedizin wurde mir auch schonmal "latein uebersetzen" vorgeschlagen