registrieren registriertes Mitglied


Anzeige

Anzeige

Email harvester und unerwünschte Bots mit .htaccess sperren

Alles zu Domain-Umzug, Weiterleitungen und Robots diskutiert Ihr hier.
Benutzeravatar
mario
PostRank 10
PostRank 10
Beiträge: 3112
Registriert: 15.08.2003, 06:46

Beitrag mario » 26.09.2004, 15:52 Email harvester und unerwünschte Bots mit .htaccess sperren

...dann gehört diese Adresse wohl nicht in die email-hervester-Kategorie... aber ich denke, dass der Archiver für die wenigsten sehr wichtig ist... trotzdem vielen Dank, Jörg

Anzeige von:

Personal Branding mit ABAKUS:
  • Höhere Glaubwürdigkeit
  • Hervorhebung Ihrer Kompetenz
  • Stärkung Ihrer Alleinstellungsmerkmale
  • Abhebung von Namensvettern
Profitieren Sie von unserer Erfahrung!
0511 / 300325-0

Benutzeravatar
luminatus
PostRank 4
PostRank 4
Beiträge: 125
Registriert: 22.10.2002, 13:29
Wohnort: Hannover
Kontaktdaten:

Beitrag luminatus » 28.09.2004, 11:30 Email harvester und unerwünschte Bots mit .htaccess sperren

bei mir hat die version von web4free auch nicht funktioniert, die von viggen schon.
da ich aber echt genervt bin von den spam bots, hab ich per hand zeile fuer zeile
der mir fragwuerdig erscheinenden spider in viggens version uebernommen.

zum glueck hab ich hinten angefangen. nachdem die zeile
RewriteCond %{HTTP_USER_AGENT} ^Web Sucker [OR]
drin war, bekam ich auch den internal server errror.

welche anderen zeilen noch fuer den fehler sorgen, weiss ich nicht. ich
kann nur sagen, dass es nicht die einzige zeile ist, die probleme macht.

gruesse
luminatus
••• www.j-pop.de - Japan Pop, Anime •••

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 28.09.2004, 17:05 Email harvester und unerwünschte Bots mit .htaccess sperren

welche anderen zeilen noch fuer den fehler sorgen, weiss ich nicht.
Es wurde doch schon darauf hingewiesen, daß bestimmte Zeichen, darunter Leerzeichen und Punkte, "escaped" werden müssen. Dann muß man sich halt die Zeit nehmen und jede Zeile durchgehen.

Bevor hier 14 User-agents à la Web Sucker gepostet werden, ist es durchaus sinnvoller,

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^Web [OR]
zu verwenden.
Weiterhin kommen hinzu (Überschneidungen mit bereits erwähnten sind möglich) :

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^HLoader [OR]
RewriteCond %{HTTP_USER_AGENT} Lite\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Demo\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Production\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/3\.0\ \(compatible\) [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ \(compatible\) [OR]
RewriteCond %{HTTP_USER_AGENT} research [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Full\ Web\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Franklin [OR]
RewriteCond %{HTTP_USER_AGENT} Extract [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MFC\ Foundation\ Class\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} DTS\ Agent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Industry\ Program [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mac\ Finder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} locator [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]Surf [OR]
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]Browse [OR]
RewriteCond %{HTTP_USER_AGENT} ^WEP\ Search [OR]
RewriteCond %{HTTP_USER_AGENT} ^Missouri\ College [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTPLib [OR]
RewriteCond %{HTTP_USER_AGENT} Wavepluz [OR]
RewriteCond %{HTTP_USER_AGENT} ^Educate\ Search [OR]
Weiterhin erscheint es sinnvoll, User-agents, welche mit Kleinbuchstaben oder Zahlen beginnen, auszuschließen, einige wie msnbot hingegen nicht. Es gab letzthin immer wieder zufällige User-agents, welche mit Kleinbuchstaben begannen.

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+
RewriteCond %{HTTP_USER_AGENT} !^msnbot
RewriteCond %{HTTP_USER_AGENT} !^contype
RewriteCond %{HTTP_USER_AGENT} !^wwwster
RewriteCond %{HTTP_USER_AGENT} !^ia_archiver
RewriteCond %{HTTP_USER_AGENT} !^arianna\.libero
Heute war hier ein gewisser Faxobot von faxo.com - Nach Besichtigung der Seite habe ich ihn gleich mit in die Liste aufgenommen.

edit: gerade frisch
218.217.200.111 - - [28/Sep/2004:22:16:39 +0200] "GET / HTTP/1.1" 403 1286 - "-" "dsdl0" "-"
hat gleich das passende bekommen. Kann also das Antikleinbuchstabenskript nur empfehlen.

edit2: noch ein Kollege, der automatisch geblockt wurde
216.55.190.25 - - [29/Sep/2004:05:53:06 +0200] "GET /verzeichnis/ HTTP/1.0" 403 1286 - "-" "booch_1.0.7 tankvit@e-mail.ru" "-"

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 13:12

Beitrag fool » 09.10.2004, 21:41 Email harvester und unerwünschte Bots mit .htaccess sperren

Hallo Bull,
ich finde die Idee mit der Kleinbuchstabensperre ganz gut, habe sie auch in meine htaccess eingebaut und sehe seitdem auch keine spider/robots mit Kleinbuchstaben am Anfang mehr. Allerdings sehe ich auch den msnbot nicht mehr.
Irgendwas habe ich da wohl falsch gemacht.

So sieht das bei mir am Ende der RewriteGeschichte jetzt aus:

RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9] +
RewriteCond %{HTTP_USER_AGENT} !^msnbot
RewriteRule ^.*$ - [F]

Was ist falsch

fragt sich
fool

Beste Grüße

Caterham
PostRank 5
PostRank 5
Beiträge: 329
Registriert: 20.09.2004, 20:12

Beitrag Caterham » 10.10.2004, 21:56 Email harvester und unerwünschte Bots mit .htaccess sperren

Was ist falsch
Du kannst ja mal versuchen, das umzudrehen

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} !^msnbot 
RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+ 
RewriteRule ^.*$ - [F] 
Du postest hier zw. "9] +" ein Leerzeichen, dort darf jedoch keins gesetzt werden.

Gruß
Robert

Anzeige von:


Content Erstellung von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 13:12

Beitrag fool » 11.10.2004, 14:39 Email harvester und unerwünschte Bots mit .htaccess sperren

@ caterham,
hast natürlich recht mit dem Leerzeichen. Wenn man es drin hat funktioniert die ganze Seite nicht.

Aber irgendwas stimmt mit dem ganzen doch noch nicht. Der msnbot ist zwar nicht wieder aufgetaucht (was ja eigentlich unbeabsichtig ist)
- aber so ein Logfileeintrag sollte ja eigentlich auch nicht mehr sein, oder:

61.135.131.207 - - [10/Oct/2004:22:14:19 +0200] "GET / HTTP/1.1" 200 10196 "-" "sohu-search"
61.135.131.207 - - [10/Oct/2004:22:14:20 +0200] "GET //robots.txt HTTP/1.1" 200 5841 "-" "sohu-search"
61.135.130.74 - - [10/Oct/2004:23:46:57 +0200] "GET / HTTP/1.1" 200 10196 "-" "sohu-search"

Fängt doch auch klein an!

Kapier ich nicht.

Gruß
fool

Caterham
PostRank 5
PostRank 5
Beiträge: 329
Registriert: 20.09.2004, 20:12

Beitrag Caterham » 12.10.2004, 15:06 Email harvester und unerwünschte Bots mit .htaccess sperren

Hi,

ich habe (da ich derzeit mir mehr oder minder die Grippe gefangen habe...) noch nicht getestet, wie mod_rewrite da vorgeht:

Zur Verdeutlichung:
^[a-z0-9]+ "matched" sohu-search bzw. msnbot/0.3 (+https://search.msn.com/msnbot.htm) sollte eigentlich zutreffen, da der Pattern / search-string sich ja nicht bis zum Ende der Zeichenkette (durch $ markiert) durchzeihen muss. Interessant wäre herauszufinden, was sohusearch, also ohne - verursachen würde.

Hast du in deiner .htaccess-Datei noch mehr Regeln zu stehen, die evtl. etwas beeinflussen könnten?

Werde das, wenn ich wieder gesund bin, mal testen.

Gruß
Robert

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 13:12

Beitrag fool » 12.10.2004, 16:51 Email harvester und unerwünschte Bots mit .htaccess sperren

Hallo Robert,

das mit dem - Bindestrich habe ich mir nach dem posten meines letzen Beitrags auch schon gedacht. Aber besten Dank für die Verdeutlichung.

Fakt ist aber, dass ich den msnbot immer noch nicht wieder auf meinen Seiten gesehen habe seit ich das eingebaut habe.

Zu der Frage: meine htaccess hat vorneweg so ziemlich ein Aussehen wie das von der, die HULOT auf Seite 3 dieses Threads gepostet hat:
lauter Aussperrungen von nervigen bots, spidern und ein paar IP-Nummern/Ranges (vor allem aus China oder NP-Bot).

Wenn du noch eine Idee hast, laß sie mich wissen.
Vor allem aber - Gute Besserung!

Gruß
fool

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 13:12

Beitrag fool » 13.10.2004, 13:03 Email harvester und unerwünschte Bots mit .htaccess sperren

Ein Nachtrag zum gestrigen Post von mir:

ratet mal was heute morgen passiert ist - ohne dass ich bislang etwas in der htaccess geändert habe - steht also immer noch so drin wie

RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+
RewriteCond %{HTTP_USER_AGENT} !^msnbot
RewriteRule ^.*$ - [F]

--- der msnbot war wieder da. Offensichtlich funktioniert der Eintrag so wie er ist.
Absolut seltsam war allerdings, dass ausgerechnet nach der Änderung der msnbot für 3-4 Tage nicht mehr vorbeigekommen ist. Sonst ist der ja so aktiv - ohne Sinn und Nutzen - dass ich überlegt hatte ihn zu bannen.

Wahrscheinlich hat der Urlaub gemacht.

Viele Grüße
fool

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 13.10.2004, 13:43 Email harvester und unerwünschte Bots mit .htaccess sperren

Absolut seltsam war allerdings, dass ausgerechnet nach der Änderung der msnbot für 3-4 Tage nicht mehr vorbeigekommen ist.
Kann rein technisch nichts damit zutun haben.

Benutzeravatar
Sunbringer
PostRank 5
PostRank 5
Beiträge: 220
Registriert: 07.09.2004, 14:19

Beitrag Sunbringer » 13.10.2004, 15:50 Email harvester und unerwünschte Bots mit .htaccess sperren

Ich bin nun nicht so fit mit den htaccess - Rules .. wenn ich dei Liste von web4Free reinsetze, bekomme ich nun immer einen 500er Server error ... woran kannd as denn liegen?

modrewrite etc funzt super, aber die liste crasht alles...

fool
PostRank 5
PostRank 5
Beiträge: 200
Registriert: 28.03.2004, 13:12

Beitrag fool » 13.10.2004, 23:08 Email harvester und unerwünschte Bots mit .htaccess sperren

Hallo Sunbringer,

das Problem hatten doch einige in diesem Thread mit der htaccess von web4free.

Guck mal die Beiträge an und Versuch mal die von viggen oder die von hulot und bau drauf auf.

Manchmal ist es nur ein Leerzeichen oder eine # zuviel - oft in der letzten Zeile vor der rewrite rule. Und manchmal sind es die Serverrechte.

Gruß
fool

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 21.10.2004, 09:35 Email harvester und unerwünschte Bots mit .htaccess sperren

Liste von web4Free
Zeichen wie / oder . oder $ oder Leerzeichen müssen "escaped" werden, also \/ und \. und \$ . Bei der Liste ist nochmals auf das Einsparpotential nahezu identischer aufeinanderfolgender Zeilen hinzuweisen (z.B. Mister Pix)

Benutzeravatar
bull
PostRank 9
PostRank 9
Beiträge: 2166
Registriert: 20.09.2003, 21:57
Wohnort: Vèneto

Beitrag bull » 22.10.2004, 08:15 Email harvester und unerwünschte Bots mit .htaccess sperren

Das Kleinzeichenskript hat eben wieder zugeschlagen:

66.205.208.3 - - [22/Oct/2004:07:33:01 +0200] "GET /tiefdrinundimodp/ HTTP/1.0" 403 1654 - "-" "sna-0.0.1 mikeelliott@hotmail.com" "-"

Mittlerweile gehe ich allerdings sogar dazu über, neben Kleinbuchstaben bestimmte Anfangsbuchstaben zu sperren und bewege mich mehr oder weniger auf eine Positivliste zu.

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^A.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^C.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^D.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^E.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^H.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^I.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^J.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^K.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^L.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^N.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Q.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^T.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^U.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^V.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^X.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Y.+
usw.

Lightmaster-AH
PostRank 2
PostRank 2
Beiträge: 55
Registriert: 16.02.2004, 23:46
Wohnort: Schalksmühle / Sauerland

Beitrag Lightmaster-AH » 22.10.2004, 15:08 Email harvester und unerwünschte Bots mit .htaccess sperren

Hallo zusammen,

ich habe soeben folgende Mitteilung vom support meines Hosters erhalten:
Zudem rate ich davon ab, bei der Bot-Kennung mit führenden "^" zu
arbeiten. Dadurch greift die Regel nur, wenn die Agent-Kennung auch
wirklich mit z.B. "Zeus" _beginnt_. Steht dort jedoch "Mozilla 4.0 -
Zeus" oder ähnliches, so greift der Filter nicht, weil vor dem "Zeus"
noch etwas anderes steht.
Ist das so machbar? Dadurch würde die Liste ja um einiges kleiner ausfallen können.

lichtvolle Grüße: Lightmaster-AH

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag