Usar wget para descargar sitios y archivos de internet

Vamos a aprender a usar un poco el comando wget. Su uso basico es para bajar algo de internet, por ejemplo podriamos bajar un arhivo asi:

wget http://sitioweb.com/archivo.zip

con eso descargariamos el archivo.zip, pero podemos usarlo tambien con muchisimos parametros, vamos a tratar de ver todos los que tal vez tengan alguna utilidad para nosotros. Si hacemos:

wget -r http://sitioweb.com

Estaremos diciendole que baje recursivamente todos los archivos del sitio web, esto bajara imagenes, archivos html, etc. Pero si lo usan asi seguro que el sitio les bloquea la ip, por estar enviando tantas peticiones seguidas y descangando todo, para evitar esto podriamos usar algo asi:

wget --random-wait --limit-rate=20k -r http://sitioweb.com

--random-wait significa que entre un archivo y otro espere un periodo de tiempo aleatorio, asi el sitio de donde estamos bajando los archivos no se dara cuenta de nada

--limit-rate=20k indica que estamos limitando las descargas de los archivos a una tranferencia maxima de 20k, esto tambien es para evitar que nos baneen la IP mientras estamos bajando.

O podrian hacer asi:

wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://sitioweb.com

--wait=20 hace una pausa de 20 entre archivo y archivo, aunque considero que seria mejor usar --random-wait

-p indica que descargue los archivos para ser visualizados correctamente como html, es decir veras las paginas en tu disco tal cual como si estuvieras viendolas en internet

-U mozilla hara creer a la pagina que estamos usando algun navegador de la familia de Mozilla para hacer las descargas

Otra manera de usarlo:

wget -r -l 4 http://sitioweb.com

-r ya saben que es para que baje recursivamente, pero si usamos tambien -l # solo bajara esa cantidad de niveles, en el ejemplo baja solo 4 niveles sobre la pagina que le hemos dado.

Y una mas, a pedido de mi amigo Surate...descargar solo un tipo de archivo de un sitio web o pagina, por ejemplo descargar todas las imagenes de un sitio, o descargar todos los videos, etc etc, se hace asi:

wget -r -A=.jpg,.png http://sitioweb.com

Con ese comando estariamos bajando todos los archivos .jpg y .png de el sitio. Si quisieramos bajar todos los mp3 de un sitio usariamos -A=.mp3

Seguramente se preguntan si hay una interface grafica para wget....pues obvio! Se llama Gwget y pueden encontrarla en los repositorios, no voy a explicar como funciona porque es muy intuitiva.

Saludos y espero que les haya servido.

Fuente: dacostabalboa, albertux.

Se bueno y comparte!
Publicado el Categorías Tutoriales

Acerca de Perro

Ingeniero en Informática. Programador en PHP y Angular. Lo que mas adoro en el mundo es el conocimiento. Y el anime....y Japón...y el running...y bloguear claro y algunas otras cientos de cosas. Sigo buscando la manera de hacer mi primer millón.

Comenta!

8 Comentarios activo "Usar wget para descargar sitios y archivos de internet"

avatar
Ordenar por:   Nuevos | Viejos
engelus

muy buena data, desconocía la variedad de filtros que le podías poner al wget :D y gracias por la aclaración final, a la tarde lo pruebo y te comento que onda :D

dinpel
dinpel

Hola, buenas y si quisiera descargar una web, por ejemplo wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://paraisolinux.com.ar, y unos días mas tarde quiero actualizar la web y que solo me descargue lo que se haya actualizado en la web ? Un saludo.

Max
Max

y donde te guarda los archivos?

trackback

[...] solucion fue usar wget, ya habiamos visto antes como usar wget para bajar sitios completos, el problema era que el sitio se bajaba con los enlaces intactos, para poder transformar esos [...]

trackback

[...] Font 1 i font 2 [...]

wpDiscuz