HTML parsen - womit?

Herakles · 16 Dezember 2011

Moin!

Ich möchte Daten von einer Webseite extrahieren, das Ganze bitte automatisch. Es geht um große Seiten mit vielen Zahlen drauf. Außerdem will ich gewissen Knöpfe drücken und Scrolldown-Felder auswählen.

Ich bin mir sehr sicher, dass ich vor vier oder fünf Jahren mal mit sowas herumgespielt habe und da gab es auch eine tolle Programmiersprache für, die genau das gemacht hat. Aber - es fällt mir verflixt nochmal nicht ein, wie das hieß.

Wenn Ihr sowas machen müsstest, womit wäre das dann? Vielleicht ist der Name dessen, was ich mal genutzt habe, ja in den 1000 Antworten von Euch dabei

Viele Grüße
Herakles

Herakles · 16 Dezember 2011

Und schon fällt mir die Antwort ein: cURL.

Naja, dennoch - womit würdet Ihr das machen?

darktrym · 16 Dezember 2011

Ich hab' ein Crawler mit Python und mechanize + beautifulsoap gebastelt. Sehr intuitiv das ganze.

Nukama · 16 Dezember 2011

Vielleicht hilft ja auch https://scraperwiki.com.

Abakus · 16 Dezember 2011

Ich würde ja ruby mit http://mechanize.rubyforge.org/GUIDE_rdoc.html nehmen ;-)

lme · 20 Dezember 2011

Perl und www-mechanize

Herakles · 1 März 2012

So, ich habe mich nun ein wenig in Python eingefuchst. Gar nicht mal so doof, so hatte ich endlich einen Grund, diese Sprache zu lernen.

Eine Frage hab' ich aber noch an darktrym: Wieso hast Du etwas aus mechanize UND beautifulsoup gebastelt?

Wenn ich die Sache(bisher) richtig verstehe, dann kann doch mechanize schon, was man wollen würde - nämlich html parsen...!?

Wozu noch beautifulsoup?

Grüße
Herakles

darktrym · 1 März 2012

Ich hab' ein Crawler(Aufruf der Seite, Parsen, Downloadllink bauen, Download, Nächste Seite).
Für die meisten Fälle sind beide Pakete interessant, fürs parsen alleine brauchst du nur beautilfulsoap, das ist richtig.

Herakles · 1 März 2012

Ah! python mit mechanize lädt es herunter und BeautifulSoup parsed es dann!

Verstanden!

HTML parsen - womit?

Herakles

Profifragensteller

Herakles

Profifragensteller

darktrym

Fahnenträger

Nukama

Well-Known Member

Abakus

Well-Known Member

lme

FreeBSD Committer

Herakles

Profifragensteller

darktrym

Fahnenträger

Herakles

Profifragensteller

Wir schützen deine Privatsphäre