Bestimmte Links aus HTML Dateien extrahieren

horrorhorst · 24.11.2010

Moin

Wir (mein Programmier-Partner und ich) sollen ein Skript schreiben, welches Links aus einer lokalen HTML Datei extrahiert,filtert und ausgibt.

Hier eine Beispiel HTML Datei von Wikipedia über Bäume ^^
http://filestore.to/?d=FR97JOUAXY
hätte den code auch so gepostet aber dann würd ich zu viele Zeichen brauchen als hier im Forum zulässig sind

Code:

grep -o 'http://[^"]*' $C | grep -w '$A'

Dies ist ein Teil des skriptes um die Links aus der HTML zu kriegen und hier liegt unser Problem!
$C = Die lokale HTML Datei
$A = Einer der Filter für z.b. für wiki oder de.wiki damit man nur die Wiki bzw. die deutschen Wiki Links hat

aufgerufen wird das skript wie folgt

./grabber.sh SUCHWORT --(http/https/ftp) [--Filter ....]

und unser Problem ist das Filtern der Links nach dem Suchwort sprich wenn man "Baum" als Suchwort hat und de.wiki als Filter sollen nur die deutschen Baum Links aus der HTML extrahiert werden doch hier kommen wir einfach nicht weiter :oldman

Ticha · 24.11.2010

Aha

Ihr wollt also einen Spider bauen

So so ...

horrorhorst · 25.11.2010

kA ist bei uns an der FH ne Aufgabe für das Fach Unix

oiermann · 07.12.2010

Wie wärs mit ".... | grep http | grep -i suchwort" ?

//edit sorry, seh grad dass das höchstwahrscheinlich schon vorbei ist...

Bestimmte Links aus HTML Dateien extrahieren

horrorhorst

Grünschnabel

Ticha

Linux Missionar

horrorhorst

Grünschnabel

oiermann

besserwisser

Ähnliche Themen

Verzeichnis mit 1200 Dateien auf Verweise in Textdateien checken

CentOS 5.8 –SQL Abfrage– HTML wird generiert und daraus müssen mehrere Mails versendet werden

Links aus HTML-Seite extrahieren

NagiosGrapher 1.7.1 funktioniert nicht

Links aus HTML- Datei extrahieren

Neueste Beiträge

Neueste Themen