Mit tcpdump HTTP-Pakete in Plaintext auslesen? |
||
---|---|---|
#0
| ||
19.08.2007, 23:59
Member
Beiträge: 14 |
||
|
||
20.08.2007, 00:37
Moderator
Beiträge: 2312 |
#2
was hast du GENAU vor? Was soll das Skript machen?
__________ Woher soll ich wissen was ich denke, bevor ich höre was ich sage?? Sag NEIN zu HD+/CI+ - boykottiert die Etablierung von HD+/CI+! |
|
|
||
20.08.2007, 01:04
Member
Beiträge: 5291 |
#3
Zitat Meine Frage ist, gibt es eine Möglichkeit (mit tcpdump oder anderen Programmen) den HTML-Code den eine Seite sendet als Reintext auszulesen? Und zwar muss die Ausgabe so erfolgen, dass ich sie in einem Skript weiterverarbeiten kann.Die gibt es mit Sicherheit. HTML ist ASCII und somit "Reintext". Warum programmierst du nicht so ein Programm auch noch das dann Teil deines Scripts werden kann? Deine Anforderung scheinen ja sehr Speziell zu sein wenn du eine ganz bestimmte Ausgabe benötigst. Ansonsten habe ich die selbe Frage wie HeVTiG. __________ E-Mail: therion at ninth-art dot de IRC: megatherion @ Freenode |
|
|
||
20.08.2007, 16:40
Member
Themenstarter Beiträge: 14 |
#4
Konkret geht es um ein Programm dass eine Internetseite aufruft, aus dieser einen Link ausliest und ihn weiterverwendet. Der Link wird dabei vorm User verborgen.
D.h. die Seite wird "versteckt" an meinen Computer gesendet, ich möchte das Paket dass den HTML-Code enthält mittels Sniffer abfangen und die enthaltene URL extrahieren. Im Prinzip dachte ich an etwas wie: tcpdump -A -l >> grep '/files/' >> sed <bearbeitet weiter> (das /files/ ist Teil der gesuchten URL) Wie gesagt scheitert das aber daran (vermute ich) dass die betreffende Seite die Inhalte gzipped überträgt wie wohl fast immer. Und somit enthalten die Pakete natürlich keinen lesbaren Text mehr, was meine obige Lösung so nicht funktionieren lässt. Selber programmieren kann ich leider nicht soweit, dass ich den Inhalt der Pakete selber entpacken könnte. Und da bspw Wireshark ja die Inahlte von Paketen unzipped anzeigt, dachte ich dass tcpdump das vielleicht auch kann. |
|
|
||
20.08.2007, 18:43
Member
Beiträge: 5291 |
#5
Zitat Wie gesagt scheitert das aber daran (vermute ich) dass die betreffende Seite die Inhalte gzipped überträgt wie wohl fast immer. Und somit enthalten die Pakete natürlich keinen lesbaren Text mehr, was meine obige Lösung so nicht funktionieren lässt.Gut dann schaltest du also gzcat dazwischen. Sollte das dann nicht funktionieren? __________ E-Mail: therion at ninth-art dot de IRC: megatherion @ Freenode |
|
|
||
Ein bestimmtes Programm ruft eine html-Seite von einem Server ab. Ich möchte den Inhalt dieser Seite auslesen und speichern können.
Das habe ich mit tcpdump versucht, aber leider gab es ausser dem http-header keine lesbaren Texte. Nach einigem Probieren glaube ich den Grund gefunden zu haben, die Seite wird gzipped versendet und anscheinend entpackt Wireshark dies automatisch, aber tcpdump nicht.
Meine Frage ist, gibt es eine Möglichkeit (mit tcpdump oder anderen Programmen) den HTML-Code den eine Seite sendet als Reintext auszulesen? Und zwar muss die Ausgabe so erfolgen, dass ich sie in einem Skript weiterverarbeiten kann.