wget : un utilitaire shell pour aspirer des sites web
Wget est un utilitaire qui permet de télécharger ce que vous lui demanderez. Sa particularité : il ne se pilote qu’en ligne de commande, ce qui en fait l’outil idéal pour créer des shell scripts.
Présentation de wget
Wget est un logiciel GNU. Donc, il est gratuit et open source (vous pouvez le modifier, améliorer vous même si vous avez des connaissances de programmeur).
Initialement un outil du monde Unix/Linux, wget est disponible sur de nombreuses plateformes.
Télécharger wget pour Windows (choisir un fichier finissant par b pour avoir le binaire executable, ou s si se sont les sources qui vous interessent pour le modifier et le compiler vous même).
Exemple : téléchargement d’un site web
Télécharge en local, tout le site des MetaCités en une seule ligne :
wget -rkpE http://www.metacites.net/
Explication des options :
-r : récursif
-k : corrige les chemins pour que les liens en local ne soient pas cassés (très utile pour moi qui commence toujours mes liens par un / pour recevnir à la racine du site)
-p : page : se débrouille pour télécharger un max de trucs qui font que la page html sera correctement visible. (j’ai pas tout compris mais ça semble aider à avoir un bon mirroir local)
-E : rajoute .html à la fin de tout ce qui est téléchargé avec un type text/html mais dont le nom ne termine pas par .html. C’est formidable, car cela permet qu’un site tel que le miens, dont les pages n’affichent pas leur extentions, soient consultables off-line, depuis un disque dur.
Voila, en une seule instruction, vous avez téléchargé un site entier.
Si le site que l'on veut télécharger se trouve dans un dossier, il peut être important de vouloir ne pas en sortir :wget -rkpE -np -nc http://www.u-blog.net/stephane/
-np : no-parent : reste à l’intérieur du répertoire donné et n’en déborde pas.
Autres fonctionnalités
wget est vraiment bien foutu car il :
comprends ssl et peut donc naviger sur les sites sécurisés
comprends les cookies
accepte les login/pwd pour se connecter à des sites privés
accepte les proxies
accepte le time stamping
Liens pour en savoir plus
Home page de wget
Interface graphique développée pour wget - windows
Exemples de shell scripts utilisant wget
Wget sur MacOS X
Tags : shell Linux Mac Windows
Ecrire votre commentaire
Vous devez vous connecter pour pouvoir ajouter un commentaire.