wget — это утилита, которая предназначена для загрузки файлов по сети (из интернета). Я расскажу, как использовать wget, чтобы скачивать сайты из интернета целиком и затем просматривать их в автономном режиме.
С помощью wget можно скачивать сайты, включая картинки, всего лишь указав адрес сайта и определенные параметры. wget будет автоматически переходить по ссылкам на сайте и скачивать страницу за страницей. Рассмотрим несколько примеров от простых к более сложным использования wget для скачивания сайтов.
Чтобы скачать сайт целиком с помощью wget нужно выполнить команду:wget -r -k -l 7 -p -E -nc http://site.com/
После выполнения данной команды в директорию site.com будет загружена локальная копия сайта http://site.com. Чтобы открыть главную страницу сайта нужно открыть файл index.html.
Рассмотрим используемые параметры:-r | — | указывает на то, что нужно рекурсивно переходить по ссылкам на сайте, чтобы скачивать страницы. |
-k | — | используется для того, чтобы wget преобразовал все ссылки в скаченных файлах таким образом, чтобы по ним можно было переходить на локальном компьютере (в автономном режиме). |
-p | — | указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.). |
-l | — | определяет максимальную глубину вложенности страниц, которые wget должен скачать (по умолчанию значение равно 5, в примере мы установили 7). В большинстве случаев сайты имеют страницы с большой степенью вложенности и wget может просто «закопаться», скачивая новые страницы. Чтобы этого не произошло можно использовать параметр -l. |
-E | — | добавлять к загруженным файлам расширение .html. |
-nc | — | при использовании данного параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз. |
Мы рассмотрели лишь одно из возможных применений утилиты wget. На самом деле область применения wget значительно шире и wget обладает большим числом дополнительных параметров. За более подробной информацией обращайтесь к руководству, выполнив в командной строке: man wget.
Комментарии
11:53
Скачаю htmlbook.ru ;)
11:58
12:59
11:44
08:32
17:44
http://www.httrack.com/page/2/en/index.html
f за wget спасибо... как-то не вникал в такую глубино его возможностей ☺
06:07
07:23
-i используется, чтобы указать URL (который мы хотим скачать) в файле с именем file (т.е. мы не в командной строке вводим URL, а URL'ы записаны в файле file).
Вместо имени файла можно поставить дефис "-" и тогда после ввода команды вы должны будете ввести URL (по одному на строку) прямо в командной строке. Чтобы закончить ввод, нажмите Ctrl+d.
Т.е. выполняем: "wget -i -", затем вводим URL по одному на строку и нажимает Ctrl+d.
18:19
10:06
15:19
07:01
10:02
06:56
19:15
Чтобы скачать сайт в определенную директорию можно или сначала перейти в эту директорию командной cd, например:
cd /media/disk1
wget .....
Или использовать параметр -P, после которого указывает путь до директории, в которую вы хотите сохранить файлы:
wget ... -P /media/disk1 ...
11:29
12:28
wget -A.mp3 (скачать только mp3 файлы)
или
wget -A '.jpg,.jpeg' (скачать файлы с расширением jpg и jpeg)
14:17
23:37
14:29
--2011-04-03 20:28:06-- http://mail.ru/
Преобразование адреса mail.ru... 94.100.191.203, 94.100.191.204, 94.100.191.202, ...
Устанавливается соединение с mail.ru|94.100.191.203|:80... соединились.
Запрос HTTP послан, ожидание ответа... 200 OK
Длина: 118150 (115K) [text/html]
Saving to: «index.html»
Вот пример почему-то index качает?? и так со всемы сайтами
15:43
(С параметром -p)
18:44
05:53
18:09
11:45
17:45
Например wait:
-w seconds
--wait=seconds
Пауза в секундах между несколькими загрузками. Чтобы указать значение в минутах, используйте "m".
19:28
06:27
10:31
А если я с помощью простого браузера буду распространять порнушку по сети, то это значит, что браузер тоже нелегальный? Выходит, что так.
Кстати, воровать чужой контент можно и при помощи браузера, и при помощи FTP, и SSH клиента. Так что, ты не прав. Утилита очень даже легальная.
20:21
wget -rp -np -nc --wait=45 -Q200m http://dls-mebli.com.ua/
11:28
18:18
JOSM http://josm.openstreetmap.de/
14:35
06:20
Как в этом случае будет выглядеть команда?
17:28
03:41
18:42
13:03
11:45
Теперь под рукой есть документация к compass.))
19:43
02:33
видео хранится также на этом же сайте
можете подсказать параметры ввода если wget такое умеет?
благодарю.
18:02
открываю file:///C:/Downloads/78679.com/index.html
далее по ссылкам переходит в file:///wiki/например
а должен в file:///C:/Downloads/78679.com/wiki/например
как исправить?
12:18
22:49
09:56
16:21
14:35
Испробовал несколько вариантов, ничего не помогает
Использую ВДС, Центос.
16:11
Как скачать сайт, только после каждой скаченной страницы, чтобы можно было её модифицировать, через тем, как скачать следующую.
Поясню, если скачать сайт, то форма поиска не будет работать локально. Я бы хотел залезть в .html удалить по регулярному выражению форму и тогда пусть приступает к скачиванию другой страницы.
PS: Вариант, отредактировать всё уже после скачивания - вариант, однако спросил, можно ли делать всё сразу.
09:58
14:45
это?')
16:12
21:56
wget -r -k -l 7 -p -E -nc http://www.codeprogress.com/
и без www
wget -r -k -l 7 -p -E -nc http://codeprogress.com/
:(
07:31
15:50
22:39
А если такой случай.Сайт с видео файлами,автор сайта дает возможность скачать ролики,но открыв каждый ролик.Как скачать все ролики разом?
Спасибо большое,с уважением,Давид
12:45
20:18
09:51
07:07
06:23
12:45
12:56
07:12
19:04
13:20
15:48
09:26
06:24
20:22
17:53
19:23
Ключ вида:
wget -k -x -P -U -o -nv -e robots=off
и
wget -r -k -l 7 -p -E -nc
не работают
Может кто-то подскажет?
08:55
12:48
23:31
07:09
-l depth
--level=depth
Максимальная глубина рекурсивной загрузки depth. По умолчанию ее значение равно 5.
Сайт это набор папок и файлов, параметр depth указывает на сколько уровней вниз скачивать.
14:13
15:28
06:53
wget --no-check-certificate -r -k -l 7 -p -E -nc http : // название сайта
Должно получиться
18:42
Ну в общем даже с вашими подсказками сходу не получилось . Буду пробовать другие программы.
06:31
Нужно скачать сайт но он в поддомене поддомен.сайт.ru
Напишите правильную команду которая скачает весь этот сайт!
Заранее всем спасибо!
11:08
21:41
19:11
17:12
y -ProxyCredential -ProxyUseDefaultCredentials -PassThru -PipelineVariable.
строка:1 знак:17
+ wget -r -k -l 7 -p -E -nc сайт.ру
+ ~~
+ CategoryInfo : InvalidArgument: (:) [Invoke-WebRequest], ParameterBindingException
+ FullyQualifiedErrorId : AmbiguousParameter,Microsoft.PowerShell.Commands.InvokeWebRequestCommand
05:09