registrieren registriertes Mitglied


Anzeige

Anzeige

Email harvester und unerwünschte Bots mit .htaccess sperren

Alles zu Domain-Umzug, Weiterleitungen und Robots diskutiert Ihr hier.
Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57

Beitrag bull » 22.10.2004, 15:11 Email harvester und unerwünschte Bots mit .htaccess sperren

Im Prinzip schon, man sollte allerdings vorsichtig damit umgehen und u.U. Ausnahmen definieren. Eine generelle Sperre von "mail" verhindert z.B. auch den Zugriff eines Internet Explorer, der mit irgendeinem Zusatz namens "i-mail" unterwegs ist, der sich freilich im User-agent verewigt. Daß man die Liste eindampfen kann wurde ja bereits erwähnt.

Anzeige von:

Personal Branding mit ABAKUS:
  • Höhere Glaubwürdigkeit
  • Hervorhebung Ihrer Kompetenz
  • Stärkung Ihrer Alleinstellungsmerkmale
  • Abhebung von Namensvettern
Profitieren Sie von unserer Erfahrung!
0511 / 300325-0

Lightmaster-AH
PostRank 2
PostRank 2
Beiträge: 55
Registriert: 16.02.2004, 23:46
Wohnort: Schalksmühle / Sauerland

Beitrag Lightmaster-AH » 22.10.2004, 15:22 Email harvester und unerwünschte Bots mit .htaccess sperren

Daß man die Liste eindampfen kann wurde ja bereits erwähnt.
Das habe ich glatt überlesen, besser gesagt ich find es garnicht (leichte Postingleseblindheit :D )

@bull:
Hast du denn eine Liste, die man einsetzen kann? Lust diese dann einmal komplett zu posten, oder per PN zu schicken?

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 22.10.2004, 15:28 Email harvester und unerwünschte Bots mit .htaccess sperren

Ohne Gewähr - es ist durchaus möglich, daß man sie noch etwas eindampfen kann (Microsoft...), aber sie ist halt gewachsen mit der Zeit.
Generell rate ich sowieso bei .htaccess vom sklavischen Kopieren ab.

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} Aleksika [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^AnswerBus [OR]
RewriteCond %{HTTP_USER_AGENT} aspseek [NC,OR]
RewriteCond %{HTTP_USER_AGENT} cerberian [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlackMask [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Cache [OR]
RewriteCond %{HTTP_USER_AGENT} ^CFNetwork [OR]
RewriteCond %{HTTP_USER_AGENT} CipinetBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CIS\ TE [OR]
RewriteCond %{HTTP_USER_AGENT} ^ClariaBot [OR]
RewriteCond %{HTTP_USER_AGENT} Clustered\-Search\-Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CoolBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^CydralSpider [OR]
RewriteCond %{HTTP_USER_AGENT} Deepnet\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^DiaGem [OR]
RewriteCond %{HTTP_USER_AGENT} EasyWebPromotion [OR]
RewriteCond %{HTTP_USER_AGENT} efp@gmx [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Ekko\ Client [OR]
RewriteCond %{HTTP_USER_AGENT} eventax [OR]
RewriteCond %{HTTP_USER_AGENT} Exotic\ Crawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Faxobot [OR]
RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Find [OR]
RewriteCond %{HTTP_USER_AGENT} GeorgeTheTouristBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^GoForIt [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister [OR]
RewriteCond %{HTTP_USER_AGENT} HTML2JPG [OR]
RewriteCond %{HTTP_USER_AGENT} HTTPClient [OR]
RewriteCond %{HTTP_USER_AGENT} ^IEXPLORE\.EXE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Explorer\ 5\.5 [OR]
RewriteCond %{HTTP_USER_AGENT} ^IE\ 5\.5\ Compatible\ Browser [OR]
RewriteCond %{HTTP_USER_AGENT} ^J.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^K.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^L.+ [OR]
RewriteCond %{HTTP_USER_AGENT} \ oBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^oBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} \.\.\.\.\.\/1\. [OR]
RewriteCond %{HTTP_USER_AGENT} MarcoPolo [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MetaSpider [OR]
RewriteCond %{HTTP_USER_AGENT} MITLL [OR]
RewriteCond %{HTTP_USER_AGENT} MMCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mnogosearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/[0-9]\.[0-9]{1,2}$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/3\.0\ \(Compatible;Viking/ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\(IE\ Compatible\) [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ \(Windows\ XP\ 5\.1\) [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Moozilla [OR]
RewriteCond %{HTTP_USER_AGENT} Myzilla [OR]
RewriteCond %{HTTP_USER_AGENT} MSIECrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MSProxy [OR]
RewriteCond %{HTTP_USER_AGENT} NetNoseCrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Nutscrape [OR]
RewriteCond %{HTTP_USER_AGENT} IconSurf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ocelli [OR]
RewriteCond %{HTTP_USER_AGENT} ^Netscape$ [OR]
RewriteCond %{HTTP_USER_AGENT} Omni\-Explorer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Szukacz [OR]
RewriteCond %{HTTP_USER_AGENT} SKIZZLE [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Dumbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^TREX [OR]
RewriteCond %{HTTP_USER_AGENT} ^TECOMAC [OR]
RewriteCond %{HTTP_USER_AGENT} ^THTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Willow\ Internet\ Crawler [OR]
RewriteCond %{HTTP_USER_AGENT} Rainbow [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Teradex [OR]
RewriteCond %{HTTP_USER_AGENT} ^Tcl\ http\ client\ package [OR]
RewriteCond %{HTTP_USER_AGENT} ^T\-Online\ Browser [OR]
RewriteCond %{HTTP_USER_AGENT} ^CosmixCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Haste [OR]
RewriteCond %{HTTP_USER_AGENT} ^FLPro [OR]
RewriteCond %{HTTP_USER_AGENT} sygol [OR]
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} ^PlantyNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^DIIbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Homerbot [OR]
RewriteCond %{HTTP_USER_AGENT} UrlDispatcher [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^UTSE [OR]
RewriteCond %{HTTP_USER_AGENT} ^River [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^TulipChain [OR]
RewriteCond %{HTTP_USER_AGENT} InternetSeer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NY\ Internet\ Srvcs [OR]
RewriteCond %{HTTP_USER_AGENT} ^[0-9] [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison [OR]
RewriteCond %{HTTP_USER_AGENT} ^BrainySearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Search [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^AsiaNetBot [OR]
RewriteCond %{HTTP_USER_AGENT} Indy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MSIE\ 6\.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ (compatible;\ MSIE\ 6\.0;\ Win32) [OR]
RewriteCond %{HTTP_USER_AGENT} MSIE\ 6\.0b [OR]
RewriteCond %{HTTP_USER_AGENT} compatible\ ;\ MSIE [OR]
RewriteCond %{HTTP_USER_AGENT} Intelliseek [NC,OR]
RewriteCond %{HTTP_USER_AGENT} molbsy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} phpdig [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^IM4U [OR]
RewriteCond %{HTTP_USER_AGENT} WinHttp [OR]
RewriteCond %{HTTP_USER_AGENT} NPT\ 0\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Nutch [OR]
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft [OR]
RewriteCond %{HTTP_USER_AGENT} MiniRedir [OR]
RewriteCond %{HTTP_USER_AGENT} FrontPage [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Python [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^PHP [OR]
RewriteCond %{HTTP_USER_AGENT} SuperGet [OR]
RewriteCond %{HTTP_USER_AGENT} WorQmada [OR]
RewriteCond %{HTTP_USER_AGENT} TAMU_CS_IRL_CRAWLER [OR]
RewriteCond %{HTTP_USER_AGENT} TrueRobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Tutorial [OR]
RewriteCond %{HTTP_USER_AGENT} ^Url\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Vakes [OR]
RewriteCond %{HTTP_USER_AGENT} Watchfire [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Wildsoft [OR]
RewriteCond %[HTTP_USER_AGENT} ^WTA [OR]
RewriteCond %{HTTP_USER_AGENT} ^WMWWebBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWeasel [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^PortalBSpider
RewriteRule !err403\.htm|robots\.txt - [F]
Spambots etc:

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} mail [NC]
RewriteCond %{HTTP_USER_AGENT} !i\-MailBook [NC]
RewriteCond %{HTTP_USER_AGENT} !mailto [NC]
RewriteRule !err403\.htm|robots\.txt - [F]

RewriteCond %{HTTP_USER_AGENT} ^HLoader [OR]
RewriteCond %{HTTP_USER_AGENT} Lite\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Demo\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Production\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ \(compatible\) [OR]
RewriteCond %{HTTP_USER_AGENT} research [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Full\ Web\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Franklin [OR]
RewriteCond %{HTTP_USER_AGENT} Extract [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MFC\ Foundation\ Class\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} DTS\ Agent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Industry\ Program [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mac\ Finder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} locator [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]Surf [OR]
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]Browse [OR]
RewriteCond %{HTTP_USER_AGENT} ^WEP\ Search [OR]
RewriteCond %{HTTP_USER_AGENT} ^Missouri\ College [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTPLib [OR]
RewriteCond %{HTTP_USER_AGENT} Wavepluz [OR]
RewriteCond %{HTTP_USER_AGENT} ^Educate\ Search
RewriteRule !err403\.htm|robots\.txt - [F]

#offline browsers etc
RewriteCond %{HTTP_USER_AGENT} download [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/6 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget
RewriteRule !err403\.htm|robots\.txt err/offlinebrowsers\.htm [L]

#rest
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^EasyDL [OR]
RewriteCond %{HTTP_USER_AGENT} attach [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^UtilMind [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} ^UdmSearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider
RewriteRule !err403\.htm|robots\.txt - [F]
Zuletzt geändert von bull am 22.10.2004, 17:55, insgesamt 1-mal geändert.

marc75
PostRank 9
PostRank 9
Beiträge: 1916
Registriert: 06.10.2004, 10:36

Beitrag marc75 » 22.10.2004, 17:17 Email harvester und unerwünschte Bots mit .htaccess sperren

mhh,

hab mal folgendes probiert,

Code: Alles auswählen

 
RewriteEngine on 
RewriteCond %{HTTP_USER_AGENT} MSIE
RewriteRule ^/errors/error403.htm$ - [F]
Jetzt müssten doch alle IE Browser ausgespeert sein oder nicht?
Funktioniert nur nicht, jedenfalls bei dem IE hier bei mir.

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57

Beitrag bull » 22.10.2004, 18:01 Email harvester und unerwünschte Bots mit .htaccess sperren

Weil Du nur für errors/error403.htm aussperrst. Wenn Du MSIE generell sperren willst, dann

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} MSIE
RewriteRule ^.*$ - [F]
und wenn Du MSIE für alles außer z.B. robots.txt sperren willst dann

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} MSIE
RewriteRule !robots\.txt - [F]
Den führenden Slash in der Rule weglassen, dies kann je nach Anbieter und oder Server nicht funktionieren. Siehe hier

Anzeige von:


Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 31.10.2004, 09:58 Email harvester und unerwünschte Bots mit .htaccess sperren

Es empfiehlt sich dringend, in der htaccess

Code: Alles auswählen

deny from 195.166.237.

einzufügen. Es handelt sich um einen nigerianischen Provider. Viele von uns kennen ja die afrikanischen Bettelbriefe in der elektronischen Post.
195.166.237.40 trat früher mit dem User-agent "Green Research, Inc." auf. Jetzt ist es "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)". Es handelt sich offenbar um automatische Suma-Anfragen, die nicht korrekt geparst werden.

195.166.237.40 - - [31/Oct/2004:09:17:07 +0100] "GET /datei.htm&prev=/search%3Fq%3Dsuchwort%26start%3D70%26hl%3Dde%26lr%3D%26sa%3DN HTTP/1.1" 404 920 - "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)" "-"

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 13:12

Beitrag fool » 31.10.2004, 14:01 Email harvester und unerwünschte Bots mit .htaccess sperren

Hi bull,
würde das auch so gehen?

RewriteCond %{REMOTE_ADDR} ^195.166.237. [OR]

um es bei der rewritecondition einzufügen?

fragt sich
fool

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 31.10.2004, 14:03 Email harvester und unerwünschte Bots mit .htaccess sperren

Die Punkte mußt Du "escapen" - und das OR freilich nur, wenn dann noch andere Bedingungen folgen

RewriteCond %{REMOTE_ADDR} ^195\.166\.237\. [OR]

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 13:12

Beitrag fool » 31.10.2004, 14:30 Email harvester und unerwünschte Bots mit .htaccess sperren

Besten Dank bull,
habe ich gleich geändert.

Muß mann Punkte generell immer escapen?

Ich habe in meiner htaccess noch eine rewriteCond für den Cyveillance spybot so stehen

RewriteCond %{REMOTE_ADDR} ^63.148.99.2(2[4-9]|[3-4][0-9]|5[0-5])$ [OR] # Cyveillance spybot

und den eigentlich auch nicht mehr gesehen in meinen Logs.

Schönen Sonntag
fool

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 31.10.2004, 14:49 Email harvester und unerwünschte Bots mit .htaccess sperren

Muß mann Punkte generell immer escapen?
Was HTTP_HOST und REMOTE_ADDR in RewriteCond betrifft, so ist dies wenigstens bei Apache 1.3.x nicht zwingend notwendig. Man sollte es sich m.E. dennoch angewöhnen, wird man doch, wie ich aus eigener Erfahrung weiß, hier schnell nachlässig, und Fehlersuche in .htaccess gehört durchaus zu den weniger angenehmen Dingen.

Grüße
jan

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 13:12

Beitrag fool » 01.12.2004, 17:40 Email harvester und unerwünschte Bots mit .htaccess sperren

@ bull,
noch mal eine Frage zu der Kleinbuchstabensperre auf Seite 4 dieses Threads.
Wenn man mehr als einen Bot erlaubt,
brauch man in diesem besonderen Fall,
zur Abwechslung mal kein [OR]
dahinter?

habe neben dem msnbot jetzt noch appie erlaubt:

RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+
RewriteCond %{HTTP_USER_AGENT} !^msnbot
RewriteCond %{HTTP_USER_AGENT} !^appie
RewriteRule ^.*$ - [F]

Wäre das dann so richtig?
fragt sich
fool

Besten Dank schon mal für die Antwort.

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 01.12.2004, 19:14 Email harvester und unerwünschte Bots mit .htaccess sperren

Ja, da es ja hier um ein logisches "UND" geht (welches angenommen wird, wenn kein OR angegeben wird), also heißt der genannten Codeabschnitt hier Kleinbuchstaben UND NICHT msnbot UND NICHT appie.

roland
PostRank 1
PostRank 1
Beiträge: 17
Registriert: 28.02.2005, 13:07

Beitrag roland » 28.02.2005, 13:30 Email harvester und unerwünschte Bots mit .htaccess sperren

bull hat geschrieben:Ohne Gewähr - es ist durchaus möglich, daß man sie noch etwas eindampfen kann (Microsoft...), aber sie ist halt gewachsen mit der Zeit.
Generell rate ich sowieso bei .htaccess vom sklavischen Kopieren ab.

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} Aleksika [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^AnswerBus [OR]
. . .

RewriteRule !err403\.htm|robots\.txt - [F]
Hallo bull, hallo all,

ich bin neu hier im Forum und hoffe hier an der richtigen Stelle zu sein.

Ich habe die letzte Zeit unsere Apache-Log Datei einmal etwas genauer angeschaut. Grund ist der hohe Traffik.

Dort taucht z.B. ein useragent mit "-" auf.
Der kommt jeden Tag und verursacht verdammt viel Trafik.
Ein kleiner Auszug aus dem Log:

Code: Alles auswählen

195.xxx.xx.xxx - - [18/Feb/2005:14:32:39 +0100] "HEAD /klausuren/dateixyz.htm HTTP/1.0" 200 0 "-" "-"

xx.xx.xxx.xx - - [24/Feb/2005:16:22:22 +0100] "HEAD / HTTP/1.0" 200 0 "-" "-"
oder:
xx.xxx.xxx.xxx - - [24/Feb/2005:17:51:18 +0100] "HEAD /dateixy.html HTTP/1.1" 200 0 "-" "-"

Im Vergleich z.B. zu gooleboot sieht das so aus:
xx.xxx.xx.xx - - [18/Feb/2004:05:47:53 +0100] "GET /dateixy.html HTTP/1.0" 200 12417 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"

Kann mir jemand sagen, wie ich diesen Typen (evtl. per htaccess) los werden kann.

Besten Dank schon einmal und freundliche Grüße
Roland

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 28.02.2005, 13:46 Email harvester und unerwünschte Bots mit .htaccess sperren

Hallo,

Du bist hier richtig. :)
Was ist denn die volle IP-Adresse von dem 195.xxx.xx.xxx ? (IP kann man hier schon posten)
Vielleicht ist es in diesem Falle https://www.abakus-internet-marketing.de ... ight-.html Punkt 16, scheint mir auch wegen dem HEAD plausibel zu sein, also AOL proxies, die (vermutlich) prüfen, ob sich was an den Dateien geändert hat.
Da aber leere User-agents auch von bösen Buben gebraucht werden (tatsächlich handelt es sich um wirklich leere User-agents und keinen "-", dieser taucht nur in den Logs auf), könnte folgende Lösung helfen:

Code: Alles auswählen

RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteCond %{THE_REQUEST} ^GET [OR]
RewriteCond %{THE_REQUEST} ^POST
RewriteRule !err403\.htm|robots\.txt|favicon\.ico - [F] 
Beschreibung: HEAD von AOL wird durchgelassen, da nur GET und POST-Requests von dem Code betroffen sind. Manche Browser lesen das Fav-Icon mit leerem User-agent, daher gilt die Regel für dieses nicht wie auch nicht für robots.txt und eine eventuelle eigene Fehlerseite.
Bedenke aber, daß manche Firewall-Software auch den User-agent und den Referer unterdrücken. Der Anteil bewegt sich aber im Promillebereich.

roland
PostRank 1
PostRank 1
Beiträge: 17
Registriert: 28.02.2005, 13:07

Beitrag roland » 01.03.2005, 11:29 Email harvester und unerwünschte Bots mit .htaccess sperren

Hallo bull,

vielen Dank für Deine schnelle und ausführliche Antwort.
bull hat geschrieben:Hallo,

Du bist hier richtig. :)
Was ist denn die volle IP-Adresse von dem 195.xxx.xx.xxx ? (IP kann man hier schon posten)
Vielleicht ist es in diesem Falle https://www.abakus-internet-marketing.de ... ight-.html Punkt 16, . . .
Die 195. . . . kommt sehr oft daher.
Es ist 1000te Mal eine 195. 93.60. (die letzten 2-3 Ziffern immer andere). Die melden sich auch immer mit einer Browserkennung.
Jene mit "-" "-" haben dann als letzte Ziffern z.B. die 13 , 15, 80 , 111 oder auch die 137.
bull hat geschrieben:
Da aber leere User-agents auch von bösen Buben gebraucht werden (tatsächlich handelt es sich um wirklich leere User-agents und keinen "-", dieser taucht nur in den Logs auf), könnte folgende Lösung helfen:

Code: Alles auswählen

RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteCond %{THE_REQUEST} ^GET [OR]
RewriteCond %{THE_REQUEST} ^POST
RewriteRule !err403\.htm|robots\.txt|favicon\.ico - [F] 
. . . .
Zunächst einmal meine jetzige Liste:

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^Alligator [OR]
RewriteCond %{HTTP_USER_AGENT} ^AnswerBus [OR]
RewriteCond %{HTTP_USER_AGENT} ^asterias [OR] 
RewriteCond %{HTTP_USER_AGENT} aspseek [OR]
RewriteCond %{HTTP_USER_AGENT} ^Atomz [OR]
.
.
.
RewriteCond %{HTTP_USER_AGENT} ^dloader [OR]
RewriteCond %{HTTP_USER_AGENT} dloader(NaverRobot) [OR]
RewriteCond %{HTTP_USER_AGENT} ^DIIbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Wonder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download [OR]
RewriteCond %{HTTP_USER_AGENT} ^Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Drip [OR]
RewriteCond %{HTTP_USER_AGENT} ^Dumbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^FrontPage [OR]
RewriteCond %{HTTP_USER_AGENT} ^Full\ Web\ Bot [OR]
.
.
.

RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^vspider* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Xenu_Link_Sleuth* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg
#
RewriteRule ^.* - [F,L]


Dies meine bisherige Liste.
Vieleicht seit Ihr einmal so nett, einen Blick darauf zu werfen, ob die Regel überhaut so richtig ist.
Der "Xenu" wird jedenfalls abgehalten/gestoppt.


Nun bin ich mir nicht ganz klar, wie ich die genannte Regel *genau* einbinden kann.
Bitte seit nicht böse, aber ich habe davon wenig Ahnung :(
Wenn ich das richtig verstehe, einfach so:

Code: Alles auswählen

 .
.
.
.
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^vspider* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Xenu_Link_Sleuth* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg
# in obiger Zeile muß natürlich noch ein [OR] stehen, also so und nicht wie in obiger Zeile:
#
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg  [OR]
RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteCond %{THE_REQUEST} ^GET [OR]
RewriteCond %{THE_REQUEST} ^POST 
Nun muss ich am Schluß evtl. folgende Zeile austauschen:

Code: Alles auswählen

RewriteRule ^.* - [F,L] 
gegen diese:

Code: Alles auswählen

RewriteRule !err403\.htm|robots\.txt|favicon\.ico - [F] 
Muss ich dann noch eine error403-Datei erstellen?
Wenn ja, wo muss die liegen? Ich denke dort wo "favicon.ico" und "robots.txt" bereits liegen, im Hauptverzeichniss des Webs?


Schon einmal vielen Dank für eure Antworten und einen schönen Tag
wünscht Roland

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag