HTML parsen - womit?

Herakles

Profifragensteller
Moin!

Ich möchte Daten von einer Webseite extrahieren, das Ganze bitte automatisch. Es geht um große Seiten mit vielen Zahlen drauf. Außerdem will ich gewissen Knöpfe drücken und Scrolldown-Felder auswählen.

Ich bin mir sehr sicher, dass ich vor vier oder fünf Jahren mal mit sowas herumgespielt habe und da gab es auch eine tolle Programmiersprache für, die genau das gemacht hat. Aber - es fällt mir verflixt nochmal nicht ein, wie das hieß.

Wenn Ihr sowas machen müsstest, womit wäre das dann? Vielleicht ist der Name dessen, was ich mal genutzt habe, ja in den 1000 Antworten von Euch dabei ;)

Viele Grüße
Herakles
 
So, ich habe mich nun ein wenig in Python eingefuchst. Gar nicht mal so doof, so hatte ich endlich einen Grund, diese Sprache zu lernen.

Eine Frage hab' ich aber noch an darktrym: Wieso hast Du etwas aus mechanize UND beautifulsoup gebastelt?

Wenn ich die Sache(bisher) richtig verstehe, dann kann doch mechanize schon, was man wollen würde - nämlich html parsen...!?

Wozu noch beautifulsoup?

Grüße
Herakles
 
Ich hab' ein Crawler(Aufruf der Seite, Parsen, Downloadllink bauen, Download, Nächste Seite).
Für die meisten Fälle sind beide Pakete interessant, fürs parsen alleine brauchst du nur beautilfulsoap, das ist richtig.
 
Zuletzt bearbeitet:
Zurück
Oben