• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

[solved] HTML-Datei für wget vorbereiten

Hallo,

ich habe hier eine Link-Sammlung als HTML-Datei liegen und möchte nun die Links aus der Datei an wget übergeben.

Dazu müsste ich alles, was nicht zu Link gehört entfernen.

<a href="http://www.bla.de/index12.html">bla bla bla</a>

<a href=" und ">bla bla bla</a> müssen weg damit wget diesen Link lesen kann.

Mein erster ansatz war :

Code:
cat index12.html | grep "http://"

nun komme ich nicht weiter.
 
wie schaut denn die link datei aus? aber vielleicht meinst du's so
Code:
grep "http://" index12.html | while read zeile; do link=${zeile%\">*};echo ${link#*=\"} ;done
 
oder mit sed, also
sei die Datei input.txt:

Code:
<a href="http://www.example.org/eins.html">bla bla bla</a>
<a href="http://www.exampe.org/zwei.html">bla bla bla</a>
<a href="http://www.example.org/drei.html">bla bla bla</a>
<a href="http://www.example.org/vier.html">bla bla bla</a>

dann können die relevanten Teile mit sed rausgelesen werden:
Code:
sed -e 's/[^"]*"\([^"]*\)".*/\1/' input.txt > urls.txt
alternativ (wenn input.txt überschrieben werden kann auch mit
Code:
sed -i -e 's/[^"]*"\([^"]*\)".*/\1/' input.txt
die können dann problemlos mit wget -i urls.txt geholt werden.

etwas kürzer gehts es so:

Code:
wget $(sed -e 's/[^"]*"\([^"]*\)".*/\1/' input.txt)
dabei wird dynamisch aus der Datei eine Liste der URLs generiert und an wget verfüttert.
 
hallo da mich das perönl. auch interessiert mal ne frage
geht das auch mit *.php datein?

und kann ich alles rauswerfen also "echo" und was nicht alles?

oder muss ich die datei schon so zusammenbasteln?
 
Oben