Mit tcpdump HTTP-Pakete in Plaintext auslesen?

#0
19.08.2007, 23:59
Member

Beiträge: 14
#1 Ich habe folgendes Problem:

Ein bestimmtes Programm ruft eine html-Seite von einem Server ab. Ich möchte den Inhalt dieser Seite auslesen und speichern können.

Das habe ich mit tcpdump versucht, aber leider gab es ausser dem http-header keine lesbaren Texte. Nach einigem Probieren glaube ich den Grund gefunden zu haben, die Seite wird gzipped versendet und anscheinend entpackt Wireshark dies automatisch, aber tcpdump nicht.

Meine Frage ist, gibt es eine Möglichkeit (mit tcpdump oder anderen Programmen) den HTML-Code den eine Seite sendet als Reintext auszulesen? Und zwar muss die Ausgabe so erfolgen, dass ich sie in einem Skript weiterverarbeiten kann.
Seitenanfang Seitenende
20.08.2007, 00:37
Moderator
Avatar hevtig

Beiträge: 2307
#2 was hast du GENAU vor? Was soll das Skript machen?
__________
Woher soll ich wissen was ich denke, bevor ich höre was ich sage??
Sag NEIN zu HD+/CI+ - boykottiert die Etablierung von HD+/CI+!
Seitenanfang Seitenende
20.08.2007, 01:04
Member
Avatar Xeper

Beiträge: 5289
#3

Zitat

Meine Frage ist, gibt es eine Möglichkeit (mit tcpdump oder anderen Programmen) den HTML-Code den eine Seite sendet als Reintext auszulesen? Und zwar muss die Ausgabe so erfolgen, dass ich sie in einem Skript weiterverarbeiten kann.
Die gibt es mit Sicherheit.
HTML ist ASCII und somit "Reintext".
Warum programmierst du nicht so ein Programm auch noch das dann Teil deines Scripts werden kann?
Deine Anforderung scheinen ja sehr Speziell zu sein wenn du eine ganz bestimmte Ausgabe benötigst.
Ansonsten habe ich die selbe Frage wie HeVTiG.
__________
E-Mail: therion at ninth-art dot de
IRC: megatherion @ Freenode
Seitenanfang Seitenende
20.08.2007, 16:40
Member

Themenstarter

Beiträge: 14
#4 Konkret geht es um ein Programm dass eine Internetseite aufruft, aus dieser einen Link ausliest und ihn weiterverwendet. Der Link wird dabei vorm User verborgen.

D.h. die Seite wird "versteckt" an meinen Computer gesendet, ich möchte das Paket dass den HTML-Code enthält mittels Sniffer abfangen und die enthaltene URL extrahieren.

Im Prinzip dachte ich an etwas wie:

tcpdump -A -l >> grep '/files/' >> sed <bearbeitet weiter> (das /files/ ist Teil der gesuchten URL)


Wie gesagt scheitert das aber daran (vermute ich) dass die betreffende Seite die Inhalte gzipped überträgt wie wohl fast immer. Und somit enthalten die Pakete natürlich keinen lesbaren Text mehr, was meine obige Lösung so nicht funktionieren lässt.

Selber programmieren kann ich leider nicht soweit, dass ich den Inhalt der Pakete selber entpacken könnte. Und da bspw Wireshark ja die Inahlte von Paketen unzipped anzeigt, dachte ich dass tcpdump das vielleicht auch kann.
Seitenanfang Seitenende
20.08.2007, 18:43
Member
Avatar Xeper

Beiträge: 5289
#5

Zitat

Wie gesagt scheitert das aber daran (vermute ich) dass die betreffende Seite die Inhalte gzipped überträgt wie wohl fast immer. Und somit enthalten die Pakete natürlich keinen lesbaren Text mehr, was meine obige Lösung so nicht funktionieren lässt.
Gut dann schaltest du also gzcat dazwischen.
Sollte das dann nicht funktionieren?
__________
E-Mail: therion at ninth-art dot de
IRC: megatherion @ Freenode
Seitenanfang Seitenende
Um auf dieses Thema zu ANTWORTEN
bitte erst » hier kostenlos registrieren!!

Folgende Themen könnten Dich auch interessieren: