Se que en varios sitios se pueden encontrar instrucciones para copiar sitios web completos usando wget, pero estos parámetros son los que mejor me han funcionado y escribo este mini-artículo para que nos se me olvide y volver a encontrarlo rápidamente.

wget -m -F -p -np -k -erobots=off -U mozilla --limit-rate=100K --wait=2 --html-extension http://www.loquequierasdescargar.com
-m: Activa el modo espejo. Esto significa quewgetintentará descargar todo el sitio web, manteniendo la estructura de directorios.-F: Este parámetro se utiliza para seguir enlaces a archivos de tipo “frame”. Sin embargo, es menos común y puede no ser necesario en todos los casos.-p: Descarga todos los archivos necesarios para mostrar la página HTML correctamente, como imágenes y hojas de estilo.-np: Significa “no parent”. Esto evita quewgetsuba a directorios superiores al directorio del enlace que estás descargando. Es útil para limitar la descarga a un subdirectorio específico.-k: Convierte los enlaces en los archivos descargados para que sean locales. Esto permite que los archivos funcionen correctamente cuando se visualizan sin conexión.-erobots=off: Ignora el archivorobots.txt, que es un estándar que indica a los bots web qué partes de un sitio pueden o no pueden ser accedidas. Usar este parámetro puede ser útil si deseas descargar contenido que normalmente estaría bloqueado.-U mozilla: Establece el “User-Agent” a “mozilla”, lo que puede ayudar a simular que la solicitud proviene de un navegador web, en lugar de un script.--limit-rate=100K: Limita la velocidad de descarga a 100 kilobytes por segundo. Esto puede ser útil para no saturar la conexión a Internet.--wait=2: Hace quewgetespere 2 segundos entre cada solicitud. Esto puede ayudar a reducir la carga en el servidor y evitar ser bloqueado por hacer demasiadas solicitudes en poco tiempo.--html-extension: Guarda los archivos HTML con la extensión.html, lo que puede ser útil para asegurarte de que los archivos se abran correctamente en un navegador.http://www.loquequierasdescargar.com: Es la URL del sitio web que deseas descargar.
En resumen, este comando está diseñado para descargar un sitio web completo, manteniendo su estructura y asegurando que todos los recursos necesarios se descarguen y funcionen correctamente sin conexión, mientras se limita la velocidad de descarga y se espera entre las solicitudes.
Evitar descargar nuevamente archivos ya descargados.
Es muy común que no se alcancé a descargar todo en una sola sesión.
Entonces para evitar descargar nuevamente archivos que ya han están en la unidad de almacenamiento se puede agregar el parámetro -nc
Si tienen dudas sobre el uso de este o cualquier otro parámetro de wget pueden consultar la documentación oficial de wget .
Espero que a ustedes también les sea útil.
