Spider Trap - SEO Tool gegen autom. Website Content Klau |
||
---|---|---|
#0
| ||
21.01.2006, 21:47
Member
Beiträge: 2176 |
||
|
||
21.01.2006, 22:02
Member
Themenstarter Beiträge: 2176 |
#2
um mal die andere Seite zu zeigen:
im Internet kursieren diverse Content-Klau Programme/Scripte die sogenannte Doorway Seiten erstellen und damit z.B. die Suchergebnisse bei Google vollspammen. ich habe Euch mal die Programmbeschreibung eines solchen "Spider Tools" angehängt - bitte nicht erschrecken, aber so professionell sind die Spammer von heute leider Greetz Lp Anhang: Active-Doorway-Network.rar Dieser Beitrag wurde am 21.01.2006 um 22:10 Uhr von Laserpointa editiert.
|
|
|
||
06.02.2006, 20:56
Member
Beiträge: 54 |
#3
ein interessantes Projekt!
interessant das folgende Files öffentlich zugänglich sind: http://www.spider-trap.de/whitelist.txt http://www.spider-trap.de/blacklist.txt da die Blacklist ja irgendwie auch als Log fungiert würde ich es schön finden, wenn dort mehr Daten zu finden sind und diese eventuell in HTML Form übersichtlicher aufgebaut ist und ganz wichtig die IP's aufgelöst werden: ( gethostbyaddr($ip); ) damit man gleich sieht welcher Firma die IP's zuzuordnen sind! die ursprüngliche Idee habe ich zum ersten mal übrigens hier gesehen: http://www.webmasterworld.com/forum88/4242.htm ob der Entwickler hier auch mitliest? __________ Antivirus Security Online Shop |
|
|
||
01.07.2006, 15:45
Administrator
Beiträge: 1743 |
#4
schade, im Augenblick wird an dem Script nicht weitergewerkelt, obwohl es nahezu perfekt ist.
Zitat Quanti postete1.) sollte man in einen Ordner zusammen mit einer .htaccess Datei mit folgendem Inhalt packen. Code <Files *.txt>oder zumindest vor öffentlichem Zugriff sperren. 2.) die Googlebot auf eine globale Whitelist zu setzen ist risky, weil gerade sehr viele Content Klau Bots sich als Googlebot ausgeben. - eine IP Whitelist wäre hier besser! interessantes alternatives Projekt ist übrigens: http://www.bot-trap.de/blog/ (Links oben in der Navigation) 3.) eine weitere Infosseite http://board.protecus.de/t29502.htm __________ Gruß Lukas |
|
|
||
22.01.2007, 16:47
...neu hier
Beiträge: 5 |
#5
Hallo,
Zitat ob der Entwickler hier auch mitliest?ja aber natürlich ;-) Zitat schade, im Augenblick wird an dem Script nicht weitergewerkelt, obwohl es nahezu perfekt ist.danke Lukas :-) ich habe jetzt eine neue Version rausgebracht und habe versucht alle Wünsche einfliessen zu lassen. Kritik ist natürlich willkommen ! Gruß Thomas |
|
|
||
22.01.2007, 21:27
Member
Themenstarter Beiträge: 2176 |
#6
^^Cool - gute Arbeit!
Verbesserungsvorschläge * ich habe bisher nur die Version auf der Website getestet und finde den Captcha leider immer noch etwas schwierig! - hier ist ein sehr guter: http://board.protecus.de/t26698.htm * bei Eingabe des Captcha Weiterleitung auf die "gewünschte" Seite (also in der URL mitgeben) * ich hätte gerne eine "just-log" Option mit der man das automatische sperren vorrübergehend deaktiviert und erstmal nur loggt ansonsten Super! Greetz Lp |
|
|
||
24.01.2007, 09:15
...neu hier
Beiträge: 5 |
#7
danke lp -
das sind sehr interessante punkte die ich auch aufnehmen werde Mit dem Captcha werde ich mir auch überlegen - ist halt schwierig da was von anderen zu nehmen, da sich die Spider Trap zig Leute nur wegen des Captchas ziehen ;-) und da ist es schwierig mit Nutzung, Weitergabe von Code usw. Deinen zweiten Punkt hab ich nicht ganz verstanden. Die Log Funktion wird auch sicher kommen - genauso wie eine funktion die z.B. nach allen 4 Stunden die Einträge wieder raushaut. Hab bloß noch keine Lösung ohne Cronjob gefunden und das hat ja nicht jeder. Gruß Thomas |
|
|
||
24.01.2007, 11:45
Member
Beiträge: 5291 |
#8
Ganz interessant, evntl. werde ich mich mal einen PHP-only version machen da lighttpd keine .htaccess kennt (noch nicht).
Das mit den logs könnte man auch ohne crontab lösen zb. das bei jedem Aufruf eines bestimmten codes halt die Zeit und die Einträge gecheckt werden. __________ E-Mail: therion at ninth-art dot de IRC: megatherion @ Freenode |
|
|
||
29.03.2007, 12:27
Member
Themenstarter Beiträge: 2176 |
#9
1. ) eventuell auch ganz interessant für die nächste Version ein verstecktes Formular (irgendwie mit CSS verstecken) - was von vielen Spambots ausgefüllt und abgesendet wird.
2.) das ganze im englischen Markt mehr promoten Greetz Lp |
|
|
||
30.03.2007, 01:03
...neu hier
Beiträge: 5 |
#10
Ich kann die folgende Seite auch sehr empfehlen!
Hat mir sehr geholfen im Bezug zu Webwarper und Gizliweb http://www.art2digital.com/new-media/suchmaschinen-marketing/problem-duplicate-content.html Greetz Mike |
|
|
||
05.06.2007, 13:43
Member
Themenstarter Beiträge: 2176 |
#11
bei Spider-Trap gibt's News und eine neue Version:
http://www.spider-trap.de/blog/spider-trap-11/ schade das das: * ich hätte gerne eine "just-log" Option mit der man das automatische sperren vorrübergehend deaktiviert und erstmal nur loggt noch nicht berücksichtigt wurde? Greetz Lp |
|
|
||
21.06.2007, 09:31
...neu hier
Beiträge: 5 |
#12
Hallo LP,
ich arbeite daran :-) Sorry hat es in die 1-1 Version nicht mehr geschafft - aber mir war es jetzt erstmal wichtig da ne englische bzw multilingual Version rauszubringen. |
|
|
||
24.08.2007, 16:00
Administrator
Beiträge: 1743 |
#13
• ich würde gerne die Alert Mails von Spider Trap um die Funktion: IP auflösen + Referrer erweitern! (siehe: // NEU!!!
in der functions.php in Zeile 360 PHP Code • des weiteren wünsche ich mir einen schönere Captcha:z.B. diesen hier -> http://board.protecus.de/t26698.htm#251577 • BUG: der Cron löscht zwar zuverlässig die Daten aus der Blacklist, nicht jedoch aus der .htaccess • eine kurze Beschreibung über den Kategorien wäre noch interessant: User Agents bearbeiten < sind das geblack- oder whitelisted User Agents! (ich hoffe nicht White - da ich meinen "bösen" Spider sonst sofort in einen der White Spider umbennen würde.) Whitelist Format: kann man da IP's und UserAgents eintragen? Useragents besser nicht eintragen (da diese gefälscht werden können) ansonsten vielen Dank für das super Tool! __________ Gruß Lukas |
|
|
||
27.08.2007, 12:20
...neu hier
Beiträge: 5 |
#14
Zitat Lukas posteteja werde ich aufnehmen Zitat • des weiteren wünsche ich mir einen schönere Captcha:ja am Captcha gehört was gemacht. Muss ich mir aber überlegen - ich wollte eigentlich keine third-party Sachen da mit reinnehmen. Wenn dann kommt auch sowas in Frage: http://recaptcha.net/captcha.html Zitat • BUG: der Cron löscht zwar zuverlässig die Daten aus der Blacklist, nicht jedoch aus der .htaccessdas hab ich noch nicht ganz fertig geschafft. Aber es ging schon mal ;-) Aber danke für den Bug Zitat • eine kurze Beschreibung über den Kategorien wäre noch interessant:ja hast du Recht - sollte auch mit rein Zitat User Agents bearbeiten < sind das geblack- oder whitelisted User Agents!ne sind Blacklist User Agents Zitat Whitelist Format: kann man da IP's und UserAgents eintragen? Useragents besser nicht eintragen (da diese gefälscht werden können)ja kann man beides eintragen. Und UserAgents sind schon sinnvoll wenn man z.b wie ich selber programmierte Sitemap Genatoren einsetzt die ja immer unterschiedliche IPs haben - da webservices und nicht die robots beachten. Auf jeden Fall danke für die Vorschläge. Ich habe momentan zwar wenig Zeit aber deine Punkte werde ich alle für die nächste Version berücksichtigen..... Gruß Thomas |
|
|
||
02.09.2007, 14:48
Administrator
Beiträge: 1743 |
#15
Hi Thomas,
vielen Dank für Dein Feedback! noch eine Kleinigkeit: # cool wäre es, wenn man Referrer auch whitelisten könnte # Whitelistet Bots nicht zur Startseite weitergeleitet werden sondern auf die zuletzt besuchte Seite! # freu mich wenn Du wieder Zeit findest! __________ Gruß Lukas |
|
|
||
viele Webmaster kennen das Problem, "böse Spider" besuchen die eigene Website und kopieren den gesamten Inhalt automatisiert, und veröffentlichen ihn mit viel Werbung vermischt woanders im Internet.
hierfür gibt es nun ein nettes kleines Schutztool
>> http://www.spider-trap.de
ich zitiere einfach mal, weil ich es nicht besser könnte:
Zitat
ich hoffe das Tool wird noch weiter entwickelt, meine Verbesserungsvorschläge wären:- noch ein bisschen dynamischer von den Grafik-, Ordner und Dateinamen her
- einen besseren Captcha, weil dieser mit wirklich jeder OCR Software gelesen werden kann!
- Dateien und Datenbanken wie blacklist.txt mit einer htaccess -> deny all schützen!
Greetz Lp