Logfiles richtig lesen: Google-Desktop, Crawler und merkwürdige Zusammenhänge

#0
07.08.2007, 16:51
Member

Beiträge: 13
#1 Hallöchen,

weiter unten zeige ich einen kleinen Ausschnitt aus meinen Logfiles. So ähnlich taucht diese Kombination mehrmals am Tag in den Logfiles auf. Allerdings nur in den Original-Logfiles meines Providers und nicht in meiner Counter-Statistik.

Ich habe nicht so viel Ahnung von der Materie wie Ihr, bemühe mich aber immer, den Dingen auf den Grund zu gehen, einfach weil es mich interessiert. (Meine Google-Recherchen führten zu keinem abschließenden, sicheren Fazit meinerseits.)

Sicherlich würde ich Euch mit diesem Kram auch nicht langweilen wollen, wenn diese "Auffälligkeiten" tatsächlich nicht jeden Tag mehrmals auftauchen würden.

Vorab meine Fragen:

1. Frage
Sehe ich das richtig, dass meine Webseite vom Telekom-Besucher durch Google-Desktop anscheinend offline aufgerufen wird? (Weil die IPs in der Counter-Statistik nicht auftauchen.)

2. Frage
Sehe ich das richtig, dass dieser Telekom-Besucher mir diese Crawler sozusagen irgendwie anschleppt? Oder liegen die Besuchszeiten zwischen den Suchmaschinen und dem Telekom-Besucher nur zufälligerweise so nah beieinander?
Falls kein Zufall im Spiel ist, würde mich interessieren, was der Besucher davon hat.

3. Frage
Dann würde mich noch interessieren, wie das technisch gesehen (grob erklärt) angehen kann, dass Webseiten, die per Google-Desktop aufgerufen werden, nicht in den Counter-Statistiken (ich habe 3 unterschiedliche Anbieter) aufgeführt werden.
Um das nachzuvollziehen, hatte ich mir Google-Desktop herunter geladen, aber als ich dann sah, was das Ding alles indiziert, habe ich schnell abgebrochen. So ein Ding will ich nicht auf meiner Festplatte haben.

Zitat

Meine Bemerkungen = blau dargestellt:

74.6.17.154 - - [05/Aug/2007:22:21:10 +0200] "GET /xxx.html HTTP/1.0" 200 12597 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)" "www.meineseite.de"

Telekom-IP - - [05/Aug/2007:22:22:27 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "meineseite.de"

Telekom-IP - - [05/Aug/2007:22:26:08 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "meineseite.de"

Telekom-IP - - [05/Aug/2007:22:31:36 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "meineseite.de"

Telekom-IP - - [05/Aug/2007:22:35:38 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "meineseite.de"

74.6.18.103 - - [05/Aug/2007:22:36:33 +0200] "GET /xxx.html HTTP/1.0" 200 2612 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)" "www.meineseite.de"

Telekom-IP - - [05/Aug/2007:22:39:39 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "meineseite.de"

Telekom-IP - - [05/Aug/2007:22:44:20 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "meineseite.de"

Telekom-IP - - [05/Aug/2007:22:46:21 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "meineseite.de"

Telekom-IP - - [05/Aug/2007:22:49:04 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "meineseite.de"

74.6.24.164 - - [05/Aug/2007:22:51:31 +0200] "GET /xxx.html HTTP/1.0" 200 2548 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)" "www.meineseite.de"

66.249.72.36 - - [05/Aug/2007:22:51:42 +0200] "GET /robots.txt HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "meineseite.de"

66.249.72.36 - - [05/Aug/2007:22:51:42 +0200] "GET /xxx.html HTTP/1.1" 200 12907 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "meineseite.de"

74.6.71.176 - - [05/Aug/2007:22:54:08 +0200] "GET /xxx.html HTTP/1.0" 304 - "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
"www.meineseite.de"

Hier hat sich meiner Meinung nach der Telekom-Besucher in einen Tor-Besucher verwandelt. Eildieweil erstmal die zeitliche Nähe da ist und zweitens er sich mit Google-Desktop verraten hat:

Tor-Besucher - - [05/Aug/2007:22:57:35 +0200] "GET / HTTP/1.1" 200 6482 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.6) Gecko/20070725 (CK-PC-WELT) Firefox/2.0.0.6" "www.meineseite.de"

Tor-Besucher - - [05/Aug/2007:22:57:35 +0200] "GET /screen.css HTTP/1.1" 200 4842 "http://www.meineseite.de/" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.6) Gecko/20070725 (CK-PC-WELT) Firefox/2.0.0.6" "www.meineseite.de"

Tor-Besucher - - [05/Aug/2007:22:57:35 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "www.meineseite.de"

Tor-Besucher - - [05/Aug/2007:22:57:36 +0200] "GET /bg.jpg HTTP/1.1" 200 77372 "http://www.meineseite.de/" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.6) Gecko/20070725 (CK-PC-WELT) Firefox/2.0.0.6" ""www.meineseite.de""

Tor-Besucher - - [05/Aug/2007:22:57:37 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.6) Gecko/20070725 (CK-PC-WELT) Firefox/2.0.0.6" "www.meineseite.de"

Tor-Besucher - - [05/Aug/2007:22:57:38 +0200] "GET / HTTP/1.1" 304 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.6) Gecko/20070725 (CK-PC-WELT) Firefox/2.0.0.6" "www.meineseite.de"

Tor-Besucher - - [05/Aug/2007:22:57:38 +0200] "GET /screen.css HTTP/1.1" 304 - "http://www.meineseite.de/" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.6) Gecko/20070725 (CK-PC-WELT) Firefox/2.0.0.6" "www.meineseite.de"

Tor-Besucher - - [05/Aug/2007:22:57:38 +0200] "GET /bg.jpg HTTP/1.1" 304 - "http://www.meineseite.de/" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.8.1.6) Gecko/20070725 (CK-PC-WELT) Firefox/2.0.0.6" "www.meineseite.de"

Tor-Besucher - - [05/Aug/2007:22:57:38 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "www.meineseite.de"

Schwupps, hier verwandelt sich der Tor-Besucher wieder in den Telekom-Besucher:

Telekom-IP - - [05/Aug/2007:23:02:33 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "meineseite.de"
Telekom-IP - - [05/Aug/2007:23:06:26 +0200] "GET /favicon.ico HTTP/1.1" 404 - "-" "Mozilla/5.0 (compatible; Google Desktop)" "meineseite.de"
4. Frage
Sicherlich war die temporäre Verwandlung Telekom --> Tor so nicht gewollt. Mich würde hier mal interessieren, was da technisch vor sich gegangen ... schief gelaufen ist.
Interessehalber habe ich mir dann auch Tor und Privoxy herunter geladen, um das nachzuvollziehen.
Passiert sowas, wenn ein Tor-Server überlastet ist oder gar ganz ausfällt? Das würde bedeuten, dass Tor-surfen gar nicht sooo anonym ist, dass die Wahrheit tatsächlich in den Original-Logfiles ans Tageslicht kommt? Mir ist auch aufgefallen, dass wenn ich mit dem Opera-Browser ein Tor-Surfer bin, meine IP noch zu sehen ist.

Tut mir Leid, ist sehr lang geworden. Ich hätte auch gerne erstmal auf einen Button "Vorschau" geklickt, ehe ich das hier abschicke. Hernach sieht das hier zu wüst aus ...

Über Antworten und Erklärungen würde ich mich sehr freuen.
Seitenanfang Seitenende
07.08.2007, 22:36
Member

Beiträge: 647
#2

Zitat

Erin Solos postete
1. Frage
Sehe ich das richtig, dass meine Webseite vom Telekom-Besucher durch Google-Desktop anscheinend offline aufgerufen wird? (Weil die IPs in der Counter-Statistik nicht auftauchen.)
Nein, das logfile deines Providers kann natürlich nur Zugriffe loggen die Online erfolgen. Wird deine Seite auf irgendeinen PC geladen und dann dort offline angezeigt, erscheint das logischerweise nirgendwo. Das diesde Einträge nicht in deiner Counterstatistik auftauchen kann mehrere Ursachen haben, angefangen von einem fehlerhaften Counter, oder das gleiche Header/Adressen nur einmalig gezählt werden etc. pp. Müsstest du dich mal um die Konfiguration dieses Counters kümmern.

Zitat

2. Frage
Sehe ich das richtig, dass dieser Telekom-Besucher mir diese Crawler sozusagen irgendwie anschleppt? Oder liegen die Besuchszeiten zwischen den Suchmaschinen und dem Telekom-Besucher nur zufälligerweise so nah beieinander?
Falls kein Zufall im Spiel ist, würde mich interessieren, was der Besucher davon hat.
meinst die Yahooeinträge in deinem logfile? Dürften normale spider sein, hat nix mit den anderen Einträgen zu tun.

Zitat

3. Frage
Dann würde mich noch interessieren, wie das technisch gesehen (grob erklärt) angehen kann, dass Webseiten, die per Google-Desktop aufgerufen werden, nicht in den Counter-Statistiken (ich habe 3 unterschiedliche Anbieter) aufgeführt werden.
Um das nachzuvollziehen, hatte ich mir Google-Desktop herunter geladen, aber als ich dann sah, was das Ding alles indiziert, habe ich schnell abgebrochen. So ein Ding will ich nicht auf meiner Festplatte haben.
Siehe meine Erklärung oben...


Zitat

4. Frage
Sicherlich war die temporäre Verwandlung Telekom --> Tor so nicht gewollt. Mich würde hier mal interessieren, was da technisch vor sich gegangen ... schief gelaufen ist.
Interessehalber habe ich mir dann auch Tor und Privoxy herunter geladen, um das nachzuvollziehen.
Passiert sowas, wenn ein Tor-Server überlastet ist oder gar ganz ausfällt? Das würde bedeuten, dass Tor-surfen gar nicht sooo anonym ist, dass die Wahrheit tatsächlich in den Original-Logfiles ans Tageslicht kommt? Mir ist auch aufgefallen, dass wenn ich mit dem Opera-Browser ein Tor-Surfer bin, meine IP noch zu sehen ist.
Nein man ist schon anonym, sollte deine Seite allerdings vorher, wo der Benutzer noch nicht anonym war, Cookies mit Session-IDs gesetzt haben, dann kann man den Benutzer tatsächlich noch identifizieren, bis das Cookie abgelaufen ist. Ist aber kein fehler von TOR, sondern Dummheit des users. Glaube aber nicht das deine Seite das macht, ist zumindest nicht aus den logs ersichtlich. Daher kannst du auch nicht sicher sein ob das wirklich ein und derselbe ist...

PS: Dein favicon ist defekt, korrigier das mal ;)

Zitat

Tut mir Leid, ist sehr lang geworden. Ich hätte auch gerne erstmal auf einen Button "Vorschau" geklickt, ehe ich das hier abschicke. Hernach sieht das hier zu wüst aus ...

Über Antworten und Erklärungen würde ich mich sehr freuen.
Wer nicht fragt der nicht lernt - übrigens hast du deine fragestellung schön übersichtlich gegliedert, da macht es spaß zu antworten.
__________
Es ist nicht wenig Zeit, die wir haben, sondern viel Zeit, die wir nicht nutzen...
Seitenanfang Seitenende
08.08.2007, 06:58
Member

Themenstarter

Beiträge: 13
#3 Hi heptamer666

Zitat

heptamer666 postete
Nein, das logfile deines Providers kann natürlich nur Zugriffe loggen die Online erfolgen. Wird deine Seite auf irgendeinen PC geladen und dann dort offline angezeigt, erscheint das logischerweise nirgendwo. Das diesde Einträge nicht in deiner Counterstatistik auftauchen kann mehrere Ursachen haben, angefangen von einem fehlerhaften Counter, o

Zitat

der das gleiche Header/Adressen nur einmalig gezählt werden etc. pp. Müsstest du dich mal um die Konfiguration dieses Counters kümmern.
Klingt einleuchtend und so wird es wohl auch sein.
Trotzdem denke ich, da stimmt was nicht.
- Ich habe keinen Einfluss auf die Counter (Gratis-Anbieter).
- Die Counter zählen sonst jeden Pieps mit.
- Durch Uhrzeit-Vergleiche weiß ich, dass dieser Telekom-Besucher noch nicht mal 1 x über die Counter mitgeloggt werden.

Zitat

meinst die Yahooeinträge in deinem logfile? Dürften normale spider sein, hat nix mit den anderen Einträgen zu tun.
Ja, ich meinte alle Spider, die zeitlich gesehen so mittendrin in den Telekombesuchen liegen. Kommen die Suchmaschinen tatsächlich mehrmals täglich vorbei? Ich dachte aufgrund meiner Meta-Tag-Angaben kämen die nur alle 7 Tage. Anscheinend machen die, was sie wollen.

Zitat

Nein man ist schon anonym, sollte deine Seite allerdings vorher, wo der Benutzer noch nicht anonym war, Cookies mit Session-IDs gesetzt haben, dann kann man den Benutzer tatsächlich noch identifizieren, bis das Cookie abgelaufen ist. Ist aber kein fehler von TOR, sondern Dummheit des users. Glaube aber nicht das deine Seite das macht, ist zumindest nicht aus den logs ersichtlich. Daher kannst du auch nicht sicher sein ob das wirklich ein und derselbe ist...
Hm, schade, dass meine Seite das nicht macht, respektive ich mir nicht sicher sein kann.

Zitat

PS: Dein favicon ist defekt, korrigier das mal
Danke, ich sollte wirklich mal eins anlegen ...

Zitat

Wer nicht fragt der nicht lernt - übrigens hast du deine fragestellung schön übersichtlich gegliedert, da macht es spaß zu antworten.
Wenigstens das war Absicht von mir. *g* Aber durch deine Antwort fühle ich mich nicht mehr ganz so paranoid. Danke nochmal ...

==========================================================

(Och, man kann gar nicht auf seinen eigenen Beitrag antworten.)
Darf ich noch eine Frage nachschieben, damit auch ja keine Wissenslücke respektive Verständnislücke offen bleibt?


In den Logfiles taucht immer wieder folgende Zeile auf:
127.0.0.1 - - [01/Aug/2007:00:24:28+0100] "HEAD / HTTP/1.1" 200 - "-" "HostEurope Default Entry"

1. Frage
127.0.0.1 ist doch mein localhost, oder?

2. Frage
Was macht der denn da mitten in der Nacht?
Dieser Beitrag wurde am 09.08.2007 um 11:56 Uhr von Erin Solos editiert.
Seitenanfang Seitenende