registrieren registriertes Mitglied


Anzeige

Anzeige

Email harvester und unerwünschte Bots mit .htaccess sperren

Alles zu Domain-Umzug, Weiterleitungen und Robots diskutiert Ihr hier.
Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57

Beitrag bull » 22.10.2004, 15:11 Email harvester und unerwünschte Bots mit .htaccess sperren

Im Prinzip schon, man sollte allerdings vorsichtig damit umgehen und u.U. Ausnahmen definieren. Eine generelle Sperre von "mail" verhindert z.B. auch den Zugriff eines Internet Explorer, der mit irgendeinem Zusatz namens "i-mail" unterwegs ist, der sich freilich im User-agent verewigt. Daß man die Liste eindampfen kann wurde ja bereits erwähnt.

Anzeige von:

Personal Branding mit ABAKUS:
  • Höhere Glaubwürdigkeit
  • Hervorhebung Ihrer Kompetenz
  • Stärkung Ihrer Alleinstellungsmerkmale
  • Abhebung von Namensvettern
Profitieren Sie von unserer Erfahrung!
0511 / 300325-0

Lightmaster-AH
PostRank 2
PostRank 2
Beiträge: 55
Registriert: 16.02.2004, 23:46
Wohnort: Schalksmühle / Sauerland

Beitrag Lightmaster-AH » 22.10.2004, 15:22 Email harvester und unerwünschte Bots mit .htaccess sperren

Daß man die Liste eindampfen kann wurde ja bereits erwähnt.
Das habe ich glatt überlesen, besser gesagt ich find es garnicht (leichte Postingleseblindheit :D )

@bull:
Hast du denn eine Liste, die man einsetzen kann? Lust diese dann einmal komplett zu posten, oder per PN zu schicken?

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 22.10.2004, 15:28 Email harvester und unerwünschte Bots mit .htaccess sperren

Ohne Gewähr - es ist durchaus möglich, daß man sie noch etwas eindampfen kann (Microsoft...), aber sie ist halt gewachsen mit der Zeit.
Generell rate ich sowieso bei .htaccess vom sklavischen Kopieren ab.

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} Aleksika [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^AnswerBus [OR]
RewriteCond %{HTTP_USER_AGENT} aspseek [NC,OR]
RewriteCond %{HTTP_USER_AGENT} cerberian [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlackMask [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Cache [OR]
RewriteCond %{HTTP_USER_AGENT} ^CFNetwork [OR]
RewriteCond %{HTTP_USER_AGENT} CipinetBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CIS\ TE [OR]
RewriteCond %{HTTP_USER_AGENT} ^ClariaBot [OR]
RewriteCond %{HTTP_USER_AGENT} Clustered\-Search\-Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CoolBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^CydralSpider [OR]
RewriteCond %{HTTP_USER_AGENT} Deepnet\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^DiaGem [OR]
RewriteCond %{HTTP_USER_AGENT} EasyWebPromotion [OR]
RewriteCond %{HTTP_USER_AGENT} efp@gmx [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Ekko\ Client [OR]
RewriteCond %{HTTP_USER_AGENT} eventax [OR]
RewriteCond %{HTTP_USER_AGENT} Exotic\ Crawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Faxobot [OR]
RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Find [OR]
RewriteCond %{HTTP_USER_AGENT} GeorgeTheTouristBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^GoForIt [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister [OR]
RewriteCond %{HTTP_USER_AGENT} HTML2JPG [OR]
RewriteCond %{HTTP_USER_AGENT} HTTPClient [OR]
RewriteCond %{HTTP_USER_AGENT} ^IEXPLORE\.EXE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Explorer\ 5\.5 [OR]
RewriteCond %{HTTP_USER_AGENT} ^IE\ 5\.5\ Compatible\ Browser [OR]
RewriteCond %{HTTP_USER_AGENT} ^J.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^K.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^L.+ [OR]
RewriteCond %{HTTP_USER_AGENT} \ oBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^oBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} \.\.\.\.\.\/1\. [OR]
RewriteCond %{HTTP_USER_AGENT} MarcoPolo [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MetaSpider [OR]
RewriteCond %{HTTP_USER_AGENT} MITLL [OR]
RewriteCond %{HTTP_USER_AGENT} MMCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mnogosearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/[0-9]\.[0-9]{1,2}$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/3\.0\ \(Compatible;Viking/ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\(IE\ Compatible\) [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ \(Windows\ XP\ 5\.1\) [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Moozilla [OR]
RewriteCond %{HTTP_USER_AGENT} Myzilla [OR]
RewriteCond %{HTTP_USER_AGENT} MSIECrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MSProxy [OR]
RewriteCond %{HTTP_USER_AGENT} NetNoseCrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Nutscrape [OR]
RewriteCond %{HTTP_USER_AGENT} IconSurf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ocelli [OR]
RewriteCond %{HTTP_USER_AGENT} ^Netscape$ [OR]
RewriteCond %{HTTP_USER_AGENT} Omni\-Explorer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Szukacz [OR]
RewriteCond %{HTTP_USER_AGENT} SKIZZLE [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Dumbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^TREX [OR]
RewriteCond %{HTTP_USER_AGENT} ^TECOMAC [OR]
RewriteCond %{HTTP_USER_AGENT} ^THTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Willow\ Internet\ Crawler [OR]
RewriteCond %{HTTP_USER_AGENT} Rainbow [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Teradex [OR]
RewriteCond %{HTTP_USER_AGENT} ^Tcl\ http\ client\ package [OR]
RewriteCond %{HTTP_USER_AGENT} ^T\-Online\ Browser [OR]
RewriteCond %{HTTP_USER_AGENT} ^CosmixCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Haste [OR]
RewriteCond %{HTTP_USER_AGENT} ^FLPro [OR]
RewriteCond %{HTTP_USER_AGENT} sygol [OR]
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} ^PlantyNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^DIIbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Homerbot [OR]
RewriteCond %{HTTP_USER_AGENT} UrlDispatcher [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^UTSE [OR]
RewriteCond %{HTTP_USER_AGENT} ^River [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^TulipChain [OR]
RewriteCond %{HTTP_USER_AGENT} InternetSeer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NY\ Internet\ Srvcs [OR]
RewriteCond %{HTTP_USER_AGENT} ^[0-9] [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison [OR]
RewriteCond %{HTTP_USER_AGENT} ^BrainySearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Search [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^AsiaNetBot [OR]
RewriteCond %{HTTP_USER_AGENT} Indy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MSIE\ 6\.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ (compatible;\ MSIE\ 6\.0;\ Win32) [OR]
RewriteCond %{HTTP_USER_AGENT} MSIE\ 6\.0b [OR]
RewriteCond %{HTTP_USER_AGENT} compatible\ ;\ MSIE [OR]
RewriteCond %{HTTP_USER_AGENT} Intelliseek [NC,OR]
RewriteCond %{HTTP_USER_AGENT} molbsy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} phpdig [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^IM4U [OR]
RewriteCond %{HTTP_USER_AGENT} WinHttp [OR]
RewriteCond %{HTTP_USER_AGENT} NPT\ 0\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Nutch [OR]
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft [OR]
RewriteCond %{HTTP_USER_AGENT} MiniRedir [OR]
RewriteCond %{HTTP_USER_AGENT} FrontPage [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Python [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^PHP [OR]
RewriteCond %{HTTP_USER_AGENT} SuperGet [OR]
RewriteCond %{HTTP_USER_AGENT} WorQmada [OR]
RewriteCond %{HTTP_USER_AGENT} TAMU_CS_IRL_CRAWLER [OR]
RewriteCond %{HTTP_USER_AGENT} TrueRobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Tutorial [OR]
RewriteCond %{HTTP_USER_AGENT} ^Url\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Vakes [OR]
RewriteCond %{HTTP_USER_AGENT} Watchfire [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Wildsoft [OR]
RewriteCond %[HTTP_USER_AGENT} ^WTA [OR]
RewriteCond %{HTTP_USER_AGENT} ^WMWWebBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWeasel [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^PortalBSpider
RewriteRule !err403\.htm|robots\.txt - [F]
Spambots etc:

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} mail [NC]
RewriteCond %{HTTP_USER_AGENT} !i\-MailBook [NC]
RewriteCond %{HTTP_USER_AGENT} !mailto [NC]
RewriteRule !err403\.htm|robots\.txt - [F]

RewriteCond %{HTTP_USER_AGENT} ^HLoader [OR]
RewriteCond %{HTTP_USER_AGENT} Lite\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Demo\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Production\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ \(compatible\) [OR]
RewriteCond %{HTTP_USER_AGENT} research [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Full\ Web\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Franklin [OR]
RewriteCond %{HTTP_USER_AGENT} Extract [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MFC\ Foundation\ Class\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} DTS\ Agent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Industry\ Program [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mac\ Finder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} locator [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]Surf [OR]
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]Browse [OR]
RewriteCond %{HTTP_USER_AGENT} ^WEP\ Search [OR]
RewriteCond %{HTTP_USER_AGENT} ^Missouri\ College [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTPLib [OR]
RewriteCond %{HTTP_USER_AGENT} Wavepluz [OR]
RewriteCond %{HTTP_USER_AGENT} ^Educate\ Search
RewriteRule !err403\.htm|robots\.txt - [F]

#offline browsers etc
RewriteCond %{HTTP_USER_AGENT} download [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/6 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget
RewriteRule !err403\.htm|robots\.txt err/offlinebrowsers\.htm [L]

#rest
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^EasyDL [OR]
RewriteCond %{HTTP_USER_AGENT} attach [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^UtilMind [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} ^UdmSearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider
RewriteRule !err403\.htm|robots\.txt - [F]
Zuletzt geändert von bull am 22.10.2004, 17:55, insgesamt 1-mal geändert.

marc75
PostRank 9
PostRank 9
Beiträge: 1916
Registriert: 06.10.2004, 10:36

Beitrag marc75 » 22.10.2004, 17:17 Email harvester und unerwünschte Bots mit .htaccess sperren

mhh,

hab mal folgendes probiert,

Code: Alles auswählen

 
RewriteEngine on 
RewriteCond %{HTTP_USER_AGENT} MSIE
RewriteRule ^/errors/error403.htm$ - [F]
Jetzt müssten doch alle IE Browser ausgespeert sein oder nicht?
Funktioniert nur nicht, jedenfalls bei dem IE hier bei mir.

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57

Beitrag bull » 22.10.2004, 18:01 Email harvester und unerwünschte Bots mit .htaccess sperren

Weil Du nur für errors/error403.htm aussperrst. Wenn Du MSIE generell sperren willst, dann

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} MSIE
RewriteRule ^.*$ - [F]
und wenn Du MSIE für alles außer z.B. robots.txt sperren willst dann

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} MSIE
RewriteRule !robots\.txt - [F]
Den führenden Slash in der Rule weglassen, dies kann je nach Anbieter und oder Server nicht funktionieren. Siehe hier

Anzeige von: