Links aus HTML-Seite extrahieren

Sylexx · 17.11.2010

Hallo,

ich möchte aus einer lokalen HTML-Datei bestimmte Links extrahieren. Die Vorgehensweise ist durch Aufgabenstellung vorgeschrieben:
1. alle Zeilenumbrüche "\n" durch Leerzeichen ersetzen (sodass alles in einer Zeile)
2. Dann beim relevanten <TAG> (in diesem fall "a") ein Zeilenumbruch einfügen
3 Grep anwenden

Punkt 1 ist schnell durch >> tr "\n" " " << erledigt, beim 2. Punkt weiss ich noch nicht so ganz weiter...vor allem wo und wie ich dann dieses Leerzeichen einfuegen soll (hinter </a>?)
Grep (Punkt 3) sollte mir eigentlich keine Schwierigkeiten bereiten.

Hat jemand eine Idee? Wäre echt dankbar!!!

rikola · 17.11.2010

Damit Du mit grep ein brauchbares Ergebnis erziehlst, musst Du ja '<a ...> ... </a>' separat in einer Zeile stehen haben. Damit muesstest Du Dir doch ueberlegen koennen, wo die Zeilenumbrueche hinsollen, oder nicht?

Sylexx · 17.11.2010

rikola schrieb:
Damit Du mit grep ein brauchbares Ergebnis erziehlst, musst Du ja '<a ...> ... </a>' separat in einer Zeile stehen haben. Damit muesstest Du Dir doch ueberlegen koennen, wo die Zeilenumbrueche hinsollen, oder nicht?

Ich denke mal hinter dem </a>...
Kann man das auch mit tr umsetzen?

rikola · 17.11.2010

Sylexx schrieb:
Ich denke mal hinter dem </a>...

Stimmt, aber Du benoetigst noch einen zweiten Zeilenumbruch an einer weiteren Stelle!

Sylexx schrieb:
Kann man das auch mit tr umsetzen?

Ich denke, sed ist dazu besser geeignet. tr bezieht sich auf einzelne Zeichen, waehrend sed mit Zeichenketten umgehen kann.

Aqualung · 17.11.2010

Code:

wget http://sed.sourceforge.net/grabbag/scripts/list_urls.sed
chmod +x list_urls.sed
./list_urls.sed <foo.html>

Sylexx · 17.11.2010

Leider sollen wir das ganze ohne sed realsieren...

Sinnig wäre es doch dann, vor dem "href" einen weiteren Umbruch zu machen.

Aqualung · 18.11.2010

Sylexx schrieb:
Leider sollen wir das ganze ohne sed realsieren...

Dann solltest Du den zugelassenen Wekzeugkasten genauer eingrenzen,

rikola · 18.11.2010

Ohne es ausprobiert zu haben, koennte Dir die Option '-o' von grep weiterhelfen. Dann kannst Du sogar den 2. Punkt der Anweisung ueberspringen.

Sylexx · 18.11.2010

Ich habe mittlerweile in jeder Zeile einen Link stehen, in der Form
href="http://Link" target="" etc.

So, nun möchte ich egrep anwenden, doch das bereitet mir noch erhebliche Schwierigkeiten.
egrep soll praktisch nur das http://www.name.de heraussuchen. Der Rest soll weg.
Zudem soll noch gefiltert werden, ob es sich um http:// , https:// oder ftp handelt, also der Anfang des Links.

Bräuchte echt ein Rat...

Links aus HTML-Seite extrahieren

Sylexx

Grünschnabel

rikola

Foren Gott

Sylexx

Grünschnabel

rikola

Foren Gott

Aqualung

Routinier

Sylexx

Grünschnabel

Aqualung

Routinier

rikola

Foren Gott

Sylexx

Grünschnabel

Ähnliche Themen

Problem mit HSPA+ Modem Huawei E353 - Installation unmöglich?

Bestimmte Links aus HTML Dateien extrahieren

Links aus HTML- Datei extrahieren

html: link in <ol>

Prozess aus eigenem Init script wird gekillt

Neueste Beiträge

Neueste Themen