скачивание_сайта_целиком

Скачивание сайта целиком

Есть свободная графическая программа HTTrack Website Copier (https://www.httrack.com/)

Можно использовать wget

wget -r -k -l 7 -p -E -nc --no-check-certificate http://site.com/

После выполнения данной команды в директорию site.com будет загружена локальная копия сайта site.com. Чтобы открыть главную страницу сайта нужно открыть файл index.html. Рассмотрим используемые параметры:

-r — указывает на то, что нужно рекурсивно переходить по ссылкам на сайте, чтобы скачивать страницы.

-k — используется для того, чтобы wget преобразовал все ссылки в скаченных файлах таким образом, чтобы по ним можно было переходить на локальном компьютере (в автономном режиме).

-p — указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.).

-l — определяет максимальную глубину вложенности страниц, которые wget должен скачать (по умолчанию значение равно 5, в примере мы установили 7). В большинстве случаев сайты имеют страницы с большой степенью вложенности и wget может просто «закопаться», скачивая новые страницы. Чтобы этого не произошло можно использовать параметр -l.

-E — добавлять к загруженным файлам расширение .html.

-nc — при использовании данного параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз.

–no-check-certificate — в случае https не проверять сертификат, так как у нас все равно его проверить нечем.

wget делает корректировку ссылок после скачивания всех файлов, а HTTrack - в процессе.

скачивание_сайта_целиком.txt · Last modified: 2023/01/06 13:09 by mariaf