wget — это утилита, которая предназначена для загрузки файлов по сети (из интернета). Я расскажу, как использовать wget, чтобы скачивать сайты из интернета целиком и затем просматривать их в автономном режиме.
С помощью wget можно скачивать сайты, включая картинки, всего лишь указав адрес сайта и определенные параметры. wget будет автоматически переходить по ссылкам на сайте и скачивать страницу за страницей. Рассмотрим несколько примеров от простых к более сложным использования wget для скачивания сайтов.
Чтобы скачать сайт целиком с помощью wget нужно выполнить команду:wget -r -k -l 7 -p -E -nc http://site.com/
После выполнения данной команды в директорию site.com будет загружена локальная копия сайта http://site.com. Чтобы открыть главную страницу сайта нужно открыть файл index.html.
Рассмотрим используемые параметры:-r | — | указывает на то, что нужно рекурсивно переходить по ссылкам на сайте, чтобы скачивать страницы. |
-k | — | используется для того, чтобы wget преобразовал все ссылки в скаченных файлах таким образом, чтобы по ним можно было переходить на локальном компьютере (в автономном режиме). |
-p | — | указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.). |
-l | — | определяет максимальную глубину вложенности страниц, которые wget должен скачать (по умолчанию значение равно 5, в примере мы установили 7). В большинстве случаев сайты имеют страницы с большой степенью вложенности и wget может просто «закопаться», скачивая новые страницы. Чтобы этого не произошло можно использовать параметр -l. |
-E | — | добавлять к загруженным файлам расширение .html. |
-nc | — | при использовании данного параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз. |
Мы рассмотрели лишь одно из возможных применений утилиты wget. На самом деле область применения wget значительно шире и wget обладает большим числом дополнительных параметров. За более подробной информацией обращайтесь к руководству, выполнив в командной строке: man wget.
Комментарии
14:53
Скачаю htmlbook.ru ;)
14:58
15:59
14:44
12:47
11:32
20:44
http://www.httrack.com/page/2/en/index.html
f за wget спасибо... как-то не вникал в такую глубино его возможностей ☺
09:07
10:23
-i используется, чтобы указать URL (который мы хотим скачать) в файле с именем file (т.е. мы не в командной строке вводим URL, а URL'ы записаны в файле file).
Вместо имени файла можно поставить дефис "-" и тогда после ввода команды вы должны будете ввести URL (по одному на строку) прямо в командной строке. Чтобы закончить ввод, нажмите Ctrl+d.
Т.е. выполняем: "wget -i -", затем вводим URL по одному на строку и нажимает Ctrl+d.
21:19
14:06
19:19
10:01
13:02
09:56
22:15
Чтобы скачать сайт в определенную директорию можно или сначала перейти в эту директорию командной cd, например:
cd /media/disk1
wget .....
Или использовать параметр -P, после которого указывает путь до директории, в которую вы хотите сохранить файлы:
wget ... -P /media/disk1 ...
15:29
16:28
wget -A.mp3 (скачать только mp3 файлы)
или
wget -A '.jpg,.jpeg' (скачать файлы с расширением jpg и jpeg)
18:17
02:37
18:29
--2011-04-03 20:28:06-- http://mail.ru/
Преобразование адреса mail.ru... 94.100.191.203, 94.100.191.204, 94.100.191.202, ...
Устанавливается соединение с mail.ru|94.100.191.203|:80... соединились.
Запрос HTTP послан, ожидание ответа... 200 OK
Длина: 118150 (115K) [text/html]
Saving to: «index.html»
Вот пример почему-то index качает?? и так со всемы сайтами
19:43
(С параметром -p)
22:44
09:53
22:09
15:45
21:45
Например wait:
-w seconds
--wait=seconds
Пауза в секундах между несколькими загрузками. Чтобы указать значение в минутах, используйте "m".
23:28
10:27
14:31
А если я с помощью простого браузера буду распространять порнушку по сети, то это значит, что браузер тоже нелегальный? Выходит, что так.
Кстати, воровать чужой контент можно и при помощи браузера, и при помощи FTP, и SSH клиента. Так что, ты не прав. Утилита очень даже легальная.
00:21
wget -rp -np -nc --wait=45 -Q200m http://dls-mebli.com.ua/
15:28
22:18
JOSM http://josm.openstreetmap.de/
18:35
10:20
Как в этом случае будет выглядеть команда?
21:28
06:41
22:42
17:03
15:45
Теперь под рукой есть документация к compass.))
23:43
06:33
видео хранится также на этом же сайте
можете подсказать параметры ввода если wget такое умеет?
благодарю.
22:02
открываю file:///C:/Downloads/78679.com/index.html
далее по ссылкам переходит в file:///wiki/например
а должен в file:///C:/Downloads/78679.com/wiki/например
как исправить?
16:18
02:49
12:56
19:21
17:35
Испробовал несколько вариантов, ничего не помогает
Использую ВДС, Центос.
19:11
Как скачать сайт, только после каждой скаченной страницы, чтобы можно было её модифицировать, через тем, как скачать следующую.
Поясню, если скачать сайт, то форма поиска не будет работать локально. Я бы хотел залезть в .html удалить по регулярному выражению форму и тогда пусть приступает к скачиванию другой страницы.
PS: Вариант, отредактировать всё уже после скачивания - вариант, однако спросил, можно ли делать всё сразу.
12:58
17:45
это?')
19:12
00:56
wget -r -k -l 7 -p -E -nc http://www.codeprogress.com/
и без www
wget -r -k -l 7 -p -E -nc http://codeprogress.com/
:(
10:31
18:50
01:39
А если такой случай.Сайт с видео файлами,автор сайта дает возможность скачать ролики,но открыв каждый ролик.Как скачать все ролики разом?
Спасибо большое,с уважением,Давид
15:45
23:18
12:51
10:07
09:23
15:45
15:56
10:12
22:04
16:20
18:48
12:26
09:24
23:22
20:53
22:23
Ключ вида:
wget -k -x -P -U -o -nv -e robots=off
и
wget -r -k -l 7 -p -E -nc
не работают
Может кто-то подскажет?
11:55
15:48
02:31
10:09
-l depth
--level=depth
Максимальная глубина рекурсивной загрузки depth. По умолчанию ее значение равно 5.
Сайт это набор папок и файлов, параметр depth указывает на сколько уровней вниз скачивать.
17:13
18:28
09:53
wget --no-check-certificate -r -k -l 7 -p -E -nc http : // название сайта
Должно получиться
21:42
Ну в общем даже с вашими подсказками сходу не получилось . Буду пробовать другие программы.
09:31
Нужно скачать сайт но он в поддомене поддомен.сайт.ru
Напишите правильную команду которая скачает весь этот сайт!
Заранее всем спасибо!
14:08
00:41
22:11
20:12
y -ProxyCredential -ProxyUseDefaultCredentials -PassThru -PipelineVariable.
строка:1 знак:17
+ wget -r -k -l 7 -p -E -nc сайт.ру
+ ~~
+ CategoryInfo : InvalidArgument: (:) [Invoke-WebRequest], ParameterBindingException
+ FullyQualifiedErrorId : AmbiguousParameter,Microsoft.PowerShell.Commands.InvokeWebRequestCommand
08:09
21:53
Просто при запуске сайта на котором тысячи пользоватилей и они что то постоянно пишут и выкладывают(в моем случае книги) создает НЕРЕАЛЬНОЕ для скачивания количество файлов!
Мне нужна только основная структура сайта или хотя бы не все файлы.
11:37
Побились CSS стили страницы, не могу понять?
Спасибо.
Возможно дело в команде wget? Какой ключ поставить, чтобы ссылки на html файлы и css стили вели в каталог с сайтом, из которого запускается index.
Видимо при копировании идут ссылки на другие пути, которых нет.
19:30
19:29