Usar wget para descargar sitios y archivos de internet

Vamos a aprender a usar un poco el comando wget. Su uso basico es para bajar algo de internet, por ejemplo podriamos bajar un arhivo asi:

wget http://sitioweb.com/archivo.zip

con eso descargariamos el archivo.zip, pero podemos usarlo tambien con muchisimos parametros, vamos a tratar de ver todos los que tal vez tengan alguna utilidad para nosotros. Si hacemos:

wget -r http://sitioweb.com

Estaremos diciendole que baje recursivamente todos los archivos del sitio web, esto bajara imagenes, archivos html, etc. Pero si lo usan asi seguro que el sitio les bloquea la ip, por estar enviando tantas peticiones seguidas y descangando todo, para evitar esto podriamos usar algo asi:

wget --random-wait --limit-rate=20k -r http://sitioweb.com

--random-wait significa que entre un archivo y otro espere un periodo de tiempo aleatorio, asi el sitio de donde estamos bajando los archivos no se dara cuenta de nada

--limit-rate=20k indica que estamos limitando las descargas de los archivos a una tranferencia maxima de 20k, esto tambien es para evitar que nos baneen la IP mientras estamos bajando.

O podrian hacer asi:

wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://sitioweb.com

--wait=20 hace una pausa de 20 entre archivo y archivo, aunque considero que seria mejor usar --random-wait

-p indica que descargue los archivos para ser visualizados correctamente como html, es decir veras las paginas en tu disco tal cual como si estuvieras viendolas en internet

-U mozilla hara creer a la pagina que estamos usando algun navegador de la familia de Mozilla para hacer las descargas

Otra manera de usarlo:

wget -r -l 4 http://sitioweb.com

-r ya saben que es para que baje recursivamente, pero si usamos tambien -l # solo bajara esa cantidad de niveles, en el ejemplo baja solo 4 niveles sobre la pagina que le hemos dado.

Y una mas, a pedido de mi amigo Surate…descargar solo un tipo de archivo de un sitio web o pagina, por ejemplo descargar todas las imagenes de un sitio, o descargar todos los videos, etc etc, se hace asi:

wget -r -A=.jpg,.png http://sitioweb.com

Con ese comando estariamos bajando todos los archivos .jpg y .png de el sitio. Si quisieramos bajar todos los mp3 de un sitio usariamos -A=.mp3

Seguramente se preguntan si hay una interface grafica para wget….pues obvio! Se llama Gwget y pueden encontrarla en los repositorios, no voy a explicar como funciona porque es muy intuitiva.

Saludos y espero que les haya servido.

Fuente: dacostabalboa, albertux.

Info del articulo
Comentarios
  • http://latingeeks.net perro

    Pues no, lo que se bajara es un html en vez del php

  • http://cosasvariadas.com.ar engelus

    muy buena data, desconocía la variedad de filtros que le podías poner al wget y gracias por la aclaración final, a la tarde lo pruebo y te comento que onda

  • http://latingeeks.net perro

    Si, muy util y es increible la cantidad de herramientas que linux trae por defecto y lo poderosa que son y que muchas veces desconocemos.

  • dinpel

    Hola, buenas y si quisiera descargar una web, por ejemplo wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://paraisolinux.com.ar, y unos días mas tarde quiero actualizar la web y que solo me descargue lo que se haya actualizado en la web ? Un saludo.

  • Max

    y donde te guarda los archivos?

    • http://blogjapon.com.ar perro

      En la carpeta que en la que estes ejecutando el comando

  • Pingback: Convertir wordpress a un sitio estatico - Paraiso Linux

  • Pingback: Manual de WGET per descargar arxius i webs | Projecte Bloc