Spider Trap - SEO Tool gegen autom. Website Content Klau

#0
21.01.2006, 21:47
Member
Avatar Laserpointa

Beiträge: 2160
#1 Hi,

viele Webmaster kennen das Problem, "böse Spider" besuchen die eigene Website und kopieren den gesamten Inhalt automatisiert, und veröffentlichen ihn mit viel Werbung vermischt woanders im Internet.

hierfür gibt es nun ein nettes kleines Schutztool ;)
>> http://www.spider-trap.de

ich zitiere einfach mal, weil ich es nicht besser könnte:

Zitat

Thomas Zeithaml ein nettes Tool gebastelt auf das wohl viele Webmaster schon lange gewartet haben, gerade wohl auch diejnigen die aufgrund von Duplicate Content durch Spambots verursacht ihre Seiten nur noch auf den hinteren Rängen wiederfinden.

Spidertrap ist eine Falle für genau diese bösen Bots / Spambots, die Installation und Anwendung ist denkbar einfach. Man installiert spider-trap auf dem Server und setzt einen Link von der Seite, z.B. in Form einer Grafik wie hier oben rechts zu sehen, mit einer 1px Grafik, oder mit einem normalen Textlink oder …

Dieser Link verweist nun in das Verzeichnis /spider-trap/ auf dem Server, jetzt verbietet man mithilfe der robots.txt den entsprechenden Bots den Link zu folgen, also z.B.

Code

User-agent: *
Disallow: /spider-trap
Also in diesem Fall hat kein Bot diesen Link zu verfolgen, gute Bots halten sich an die robots.txt, böse Bots halten sich meist nicht an die robots.txt und werden diesen Link verfolgen und landen im Verzeichnis /spider-trap/, sind also in die Falle getappt. Ist der Bot in die Falle gegangen, schreibt Spider Trap ein deny from in die .htaccess und der Bot ist für die komplette Seite gesperrt. Um dort wieder rauszukommen müsste er ein Wort auf der spider-trap/index.php eingeben, bei uns wäre das Wort mensch. Klickt also ein Besucher auf den Link, kann er seinen deny from durch Eingabe des vogegebenen Wortes entfernen und hat somit wieder vollen Zugriff auf die Seite, ein Bot kann dieses natürlich nicht und bleibt somit gesperrt.

Auch Google hält sich ja manchmal nicht an die robots.txt, um den Googlebot nicht ausversehen einzufangen, gibt es eine Whitelist in der man über den Useragent definieren kann wer nie eingefangen werden darf, also Googlebot, slurp usw. Über die Whitelist könnte man auch nur die gewünschten Bots zulassen und alle anderen komplett in die Falle tappen lassen. Will man z.B. nur den Googlebot zulassen, könnte man das so machen.

robots.txt:

Code

User-agent: *
Disallow:
also alle “dürfen” in die Falle

und Whitelist mit dem Eintrag: Googlebot, das wäre dann die ganz harte Nummer :-) Hier gibt es noch wesentlich mehr möglichkeiten, welche auf Spider Trap genauer beschrieben werden.

Wir haben das die letzten Tage mal ausgiebig getestet, so sind z.B. auf no-nofollow.de nach nur kurzer Zeit knapp 20 böse Bots in die Falle gegangen, die Kollegen kamen aus allen Ländern. China, Korea, Rußland, USA usw. und hatten sicherlich nichts gutes vor. Wenn man möchte kann man sich auch automatisch per mail informieren lassen wenn jemand in die Falle geht.

Fazit: Ein Super Tool, einfach zu installieren, kostenlos!

Mehr dazu, wie Download, Installationsanleitung, Funktionsweise sowie eine Möglichkeit böse Bots zu melden und bereits gemeldete in einer Übersicht zu sehen gibts direkt auf Spider Trap

Viel Spaß beim Spambot fangen :-)

Wer es mal ausprobieren möchte, der klicke hier:
http://www.spider-trap.de/spider-trap/forbid.php

Quelle: content.shoppic.de/blog/index.php/archives/2006/01/13/spider-trap-die-falle-fuer-boese-bots/
ich hoffe das Tool wird noch weiter entwickelt, meine Verbesserungsvorschläge wären:
- noch ein bisschen dynamischer von den Grafik-, Ordner und Dateinamen her
- einen besseren Captcha, weil dieser mit wirklich jeder OCR Software gelesen werden kann!
- Dateien und Datenbanken wie blacklist.txt mit einer htaccess -> deny all schützen!

Greetz Lp

Dieser Beitrag wurde am 22.01.2007 um 21:28 Uhr von Laserpointa editiert.
Seitenanfang Seitenende
21.01.2006, 22:02
Member
Themenstarter
Avatar Laserpointa

Beiträge: 2160
#2 um mal die andere Seite zu zeigen:

im Internet kursieren diverse Content-Klau Programme/Scripte die sogenannte Doorway Seiten erstellen und damit z.B. die Suchergebnisse bei Google vollspammen.

ich habe Euch mal die Programmbeschreibung eines solchen "Spider Tools" angehängt - bitte nicht erschrecken, aber so professionell sind die Spammer von heute leider ;)

Greetz Lp

Dieser Beitrag wurde am 21.01.2006 um 22:10 Uhr von Laserpointa editiert.
Seitenanfang Seitenende
06.02.2006, 20:56
Member

Beiträge: 54
#3 ein interessantes Projekt!

interessant das folgende Files öffentlich zugänglich sind:
http://www.spider-trap.de/whitelist.txt
http://www.spider-trap.de/blacklist.txt

da die Blacklist ja irgendwie auch als Log fungiert würde ich es schön finden, wenn dort mehr Daten zu finden sind und diese eventuell in HTML Form übersichtlicher aufgebaut ist und ganz wichtig die IP's aufgelöst werden: ( gethostbyaddr($ip); ) damit man gleich sieht welcher Firma die IP's zuzuordnen sind!

die ursprüngliche Idee habe ich zum ersten mal übrigens hier gesehen:
http://www.webmasterworld.com/forum88/4242.htm

ob der Entwickler hier auch mitliest?
__________
Antivirus Security Online Shop
Seitenanfang Seitenende
01.07.2006, 15:45
Administrator
Avatar Lukas

Beiträge: 1734
#4 schade, im Augenblick wird an dem Script nicht weitergewerkelt, obwohl es nahezu perfekt ist.

Zitat

Quanti postete
interessant das folgende Files öffentlich zugänglich sind:
http://www.spider-trap.de/whitelist.txt
http://www.spider-trap.de/blacklist.txt
1.) sollte man in einen Ordner zusammen mit einer .htaccess Datei mit folgendem Inhalt packen.

Code

<Files *.txt>
  Deny from all
</Files>
oder zumindest vor öffentlichem Zugriff sperren.

2.) die Googlebot auf eine globale Whitelist zu setzen ist risky, weil gerade sehr viele Content Klau Bots sich als Googlebot ausgeben. - eine IP Whitelist wäre hier besser!

interessantes alternatives Projekt ist übrigens: http://www.bot-trap.de/blog/ (Links oben in der Navigation)

3.) eine weitere Infosseite http://board.protecus.de/t29502.htm
__________
Gruß Lukas :yo
Seitenanfang Seitenende
22.01.2007, 16:47
...neu hier

Beiträge: 5
#5 Hallo,

Zitat

ob der Entwickler hier auch mitliest?
ja aber natürlich ;-)

Zitat

schade, im Augenblick wird an dem Script nicht weitergewerkelt, obwohl es nahezu perfekt ist.
danke Lukas :-) ich habe jetzt eine neue Version rausgebracht und habe versucht alle Wünsche einfliessen zu lassen. Kritik ist natürlich willkommen !

Gruß Thomas
Seitenanfang Seitenende
22.01.2007, 21:27
Member
Themenstarter
Avatar Laserpointa

Beiträge: 2160
#6 ^^Cool - gute Arbeit!

Verbesserungsvorschläge
* ich habe bisher nur die Version auf der Website getestet und finde den Captcha leider immer noch etwas schwierig! - hier ist ein sehr guter: http://board.protecus.de/t26698.htm
* bei Eingabe des Captcha Weiterleitung auf die "gewünschte" Seite (also in der URL mitgeben)
* ich hätte gerne eine "just-log" Option mit der man das automatische sperren vorrübergehend deaktiviert und erstmal nur loggt ;)

ansonsten Super!

Greetz Lp
Seitenanfang Seitenende
24.01.2007, 09:15
...neu hier

Beiträge: 5
#7 danke lp -
das sind sehr interessante punkte die ich auch aufnehmen werde

Mit dem Captcha werde ich mir auch überlegen - ist halt schwierig da was von anderen zu nehmen, da sich die Spider Trap zig Leute nur wegen des Captchas ziehen ;-) und da ist es schwierig mit Nutzung, Weitergabe von Code usw.

Deinen zweiten Punkt hab ich nicht ganz verstanden.

Die Log Funktion wird auch sicher kommen - genauso wie eine funktion die z.B. nach allen 4 Stunden die Einträge wieder raushaut. Hab bloß noch keine Lösung ohne Cronjob gefunden und das hat ja nicht jeder.

Gruß Thomas
Seitenanfang Seitenende
24.01.2007, 11:45
Member
Avatar Xeper

Beiträge: 5051
#8 Ganz interessant, evntl. werde ich mich mal einen PHP-only version machen da lighttpd keine .htaccess kennt (noch nicht).
Das mit den logs könnte man auch ohne crontab lösen zb. das bei jedem Aufruf eines bestimmten codes halt die Zeit und die Einträge gecheckt werden.
__________
Email/XMPP: therion at ninth-art dot de
IRC: megatherion @ Freenode
Seitenanfang Seitenende
29.03.2007, 12:27
Member
Themenstarter
Avatar Laserpointa

Beiträge: 2160
#9 1. ) eventuell auch ganz interessant für die nächste Version ein verstecktes Formular (irgendwie mit CSS verstecken) - was von vielen Spambots ausgefüllt und abgesendet wird.

2.) das ganze im englischen Markt mehr promoten ;)

Greetz Lp
Seitenanfang Seitenende
30.03.2007, 01:03
...neu hier

Beiträge: 5
#10 Ich kann die folgende Seite auch sehr empfehlen!
Hat mir sehr geholfen im Bezug zu Webwarper und Gizliweb

http://www.art2digital.com/new-media/suchmaschinen-marketing/problem-duplicate-content.html

Greetz
Mike
Seitenanfang Seitenende
05.06.2007, 13:43
Member
Themenstarter
Avatar Laserpointa

Beiträge: 2160
#11 bei Spider-Trap gibt's News und eine neue Version:
http://www.spider-trap.de/blog/spider-trap-11/

schade das das:
* ich hätte gerne eine "just-log" Option mit der man das automatische sperren vorrübergehend deaktiviert und erstmal nur loggt
noch nicht berücksichtigt wurde?

Greetz Lp
Seitenanfang Seitenende
21.06.2007, 09:31
...neu hier

Beiträge: 5
#12 Hallo LP,
ich arbeite daran :-) Sorry hat es in die 1-1 Version nicht mehr geschafft - aber mir war es jetzt erstmal wichtig da ne englische bzw multilingual Version rauszubringen.
Seitenanfang Seitenende
24.08.2007, 16:00
Administrator
Avatar Lukas

Beiträge: 1734
#13 • ich würde gerne die Alert Mails von Spider Trap um die Funktion: IP auflösen + Referrer erweitern! (siehe: // NEU!!!

in der functions.php
in Zeile 360

PHP Code


<?php
if ($spider_conf['email_on_ban'] != &amp;&amp$ip_added == 1) {
        
// Email to Webmaster
        
$subject 'spider-trap : ' $ST_LANG["email_new_bot"] . ' - '.$_SERVER['HTTP_HOST'];
        
$msg $ST_LANG["email_new_bot"] . ": $req_uri $datum \n";
        
$msg .= "Host: ".$_SERVER['HTTP_HOST']." \n";
        
$msg .= "IP: $ip - ".gethostbyaddr($ip)."\n";                                                    // NEU!!!
        
$msg .= "User-Agent: $http_user_agent\n";
        
$msg .= "Referrer: ".$_SERVER['HTTP_REFERER']."\n\n";                                            // NEU!!!
        
$msg .= 'WHOIS: http://whois.domaintools.com/'.$ip;
        
mail ($spider_conf['alert_email'], $subject$msg'From: '.$spider_conf['alert_email']);
    }
?>

• des weiteren wünsche ich mir einen schönere Captcha:
z.B. diesen hier -> http://board.protecus.de/t26698.htm#251577
• BUG: der Cron löscht zwar zuverlässig die Daten aus der Blacklist, nicht jedoch aus der .htaccess
• eine kurze Beschreibung über den Kategorien wäre noch interessant:
User Agents bearbeiten < sind das geblack- oder whitelisted User Agents!
(ich hoffe nicht White - da ich meinen "bösen" Spider sonst sofort in einen der White Spider umbennen würde.)
Whitelist Format: kann man da IP's und UserAgents eintragen? Useragents besser nicht eintragen (da diese gefälscht werden können)

ansonsten vielen Dank für das super Tool!
__________
Gruß Lukas :yo
Seitenanfang Seitenende
27.08.2007, 12:20
...neu hier

Beiträge: 5
#14

Zitat

Lukas postete
• ich würde gerne die Alert Mails von Spider Trap um die Funktion: IP auflösen + Referrer erweitern! (siehe: // NEU!!!

in der functions.php
in Zeile 360

PHP Code


<?php
if ($spider_conf['email_on_ban'] != &amp;&amp$ip_added == 1) {
        
// Email to Webmaster
        
$subject 'spider-trap : ' $ST_LANG["email_new_bot"] . ' - '.$_SERVER['HTTP_HOST'];
        
$msg $ST_LANG["email_new_bot"] . ": $req_uri $datum \n";
        
$msg .= "Host: ".$_SERVER['HTTP_HOST']." \n";
        
$msg .= "IP: $ip - ".gethostbyaddr($ip)."\n";                                                    // NEU!!!
        
$msg .= "User-Agent: $http_user_agent\n";
        
$msg .= "Referrer: ".$_SERVER['HTTP_REFERER']."\n\n";                                            // NEU!!!
        
$msg .= 'WHOIS: http://whois.domaintools.com/'.$ip;
        
mail ($spider_conf['alert_email'], $subject$msg'From: '.$spider_conf['alert_email']);
    }
?>

ja werde ich aufnehmen

Zitat

• des weiteren wünsche ich mir einen schönere Captcha:
z.B. diesen hier -> http://board.protecus.de/t26698.htm#251577
ja am Captcha gehört was gemacht. Muss ich mir aber überlegen - ich wollte eigentlich keine third-party Sachen da mit reinnehmen. Wenn dann kommt auch sowas in Frage: http://recaptcha.net/captcha.html

Zitat

• BUG: der Cron löscht zwar zuverlässig die Daten aus der Blacklist, nicht jedoch aus der .htaccess
das hab ich noch nicht ganz fertig geschafft. Aber es ging schon mal ;-) Aber danke für den Bug

Zitat

• eine kurze Beschreibung über den Kategorien wäre noch interessant:
ja hast du Recht - sollte auch mit rein

Zitat

User Agents bearbeiten < sind das geblack- oder whitelisted User Agents!
(ich hoffe nicht White - da ich meinen "bösen" Spider sonst sofort in einen der White Spider umbennen würde.)
ne sind Blacklist User Agents

Zitat

Whitelist Format: kann man da IP's und UserAgents eintragen? Useragents besser nicht eintragen (da diese gefälscht werden können)
ja kann man beides eintragen. Und UserAgents sind schon sinnvoll wenn man z.b wie ich selber programmierte Sitemap Genatoren einsetzt die ja immer unterschiedliche IPs haben - da webservices und nicht die robots beachten.

Auf jeden Fall danke für die Vorschläge. Ich habe momentan zwar wenig Zeit aber deine Punkte werde ich alle für die nächste Version berücksichtigen.....

Gruß Thomas
Seitenanfang Seitenende
02.09.2007, 14:48
Administrator
Avatar Lukas

Beiträge: 1734
#15 Hi Thomas,

vielen Dank für Dein Feedback!
noch eine Kleinigkeit:

# cool wäre es, wenn man Referrer auch whitelisten könnte
# Whitelistet Bots nicht zur Startseite weitergeleitet werden sondern auf die zuletzt besuchte Seite!
# freu mich wenn Du wieder Zeit findest! ;)
__________
Gruß Lukas :yo
Seitenanfang Seitenende