les MetaCités - logo

wget : un utilitaire shell pour aspirer des sites web

Wget est un utilitaire qui permet de télécharger ce que vous lui demanderez. Sa particularité : il ne se pilote qu’en ligne de commande, ce qui en fait l’outil idéal pour créer des shell scripts.

Présentation de wget

Wget est un logiciel GNU. Donc, il est gratuit et open source (vous pouvez le modifier, améliorer vous même si vous avez des connaissances de programmeur).

Initialement un outil du monde Unix/Linux, wget est disponible sur de nombreuses plateformes.

Télécharger wget pour Windows (choisir un fichier finissant par b pour avoir le binaire executable, ou s si se sont les sources qui vous interessent pour le modifier et le compiler vous même).

Wget sur MacOS X

Exemple : téléchargement d’un site web

Télécharge en local, tout le site des MetaCités en une seule ligne :

wget -rkpE http://www.metacites.net/

Explication des options :

-r : récursif

-k : corrige les chemins pour que les liens en local ne soient pas cassés (très utile pour moi qui commence toujours mes liens par un / pour recevnir à la racine du site)

-p : page : se débrouille pour télécharger un max de trucs qui font que la page html sera correctement visible. (j’ai pas tout compris mais ça semble aider à avoir un bon mirroir local)

-E : rajoute .html à la fin de tout ce qui est téléchargé avec un type text/html mais dont le nom ne termine pas par .html. C’est formidable, car cela permet qu’un site tel que le miens, dont les pages n’affichent pas leur extentions, soient consultables off-line, depuis un disque dur.

Voila, en une seule instruction, vous avez téléchargé un site entier.

Si le site que l'on veut télécharger se trouve dans un dossier, il peut être important de vouloir ne pas en sortir :

wget -rkpE -np -nc http://www.u-blog.net/stephane/

-np : no-parent : reste à l’intérieur du répertoire donné et n’en déborde pas.

-nc : permet, lors d'un téléchargement récursif, de ne pas télécharger plusieurs fois le même fichier. 

Autres fonctionnalités

wget est vraiment bien foutu car il :
-  comprends ssl et peut donc naviger sur les sites sécurisés
-  comprends les cookies
-  accepte les login/pwd pour se connecter à des sites privés
-  accepte les proxies
-  accepte le time stamping

Liens pour en savoir plus

-  Home page de wget
-  Interface graphique développée pour wget - windows
-  Exemples de shell scripts utilisant wget
-  Wget sur MacOS X

Tags : shell Linux Mac Windows

Ecrire votre commentaire

Vous devez vous connecter pour pouvoir ajouter un commentaire.

MetaCités blog wiki changements pages se connecter

Projets en cours

MetaWiki KarmaOS Bookorati

Metadata

dernière modif :
2007-10-22 13h47
par : stef

Outils

diff. historique editer admin

Tags

javascript [18]
gratuit [16]
php [15]
Mac [14]
Mac OS X [13]
webware [8]
mysql [8]
logiciel [8]
open-source [8]
css [7]
rss [6]
linux [6]
HTML [5]
weblog [5]
graphisme [4]
DHTML [4]
OVH [4]
python [4]
Apple [4]
wiki [4]
tous les tags
MetaWiki : hébergement de wikis, wiki hosting.