Zunächst habe ich nach img tags mit *logo* oder ähnlichem gesucht, was aber nicht sonderlich gut funktioniert hat (weniger als 50% Genauigkeit auf meinen Testdaten). Jetzt nehme ich mit selenium einen Screenshot von der Seite auf und versuche einen Logo-Detektor auf den Screenshots zu trainieren, was hoffentlich zu einer besseren Genauigkeit führen wird.
Falls jemand einen ähnlichen Anwendungsfall hat (Suche nach Webprojekten gemäß bestimmten Kritieren) - bitte gerne per PN melden, vielleicht kann man sich ja zusammenschließen.