Программирование

Подписаться на эту рубрику по RSS

Вот такой интересный заголовок.) Есть сайт www.giftube.com, наполненный gif'ками примущественно с порно-содержимым. Мне внезапно стало интересно как их можно оттуда выкачать.

1.

При разборе кода страницы сайта, стало известно, что все свои картинки он хранит на http://videobeta.net/, а именно: все GIF имеют адрес типа http://videobeta.net/gifs/*****.gif . Вместо звёздочек число примерно до 28000. А раз так, то скачать их достаточно просто.

И вот сегодня, просматривая "Социальную сеть", самое начало где Цукерберг ломает базы факультетов, я услышал о программе wget. Итак, к делу.

2.

Как я понял, wget не работает со звёздочками, счётчиками. Т.е. не умеет подставлять символы из некоторого массива или диапазона. Значит нам нужен список адресов для скачивания по типу: "одна строка - один адрес". Но есть, например, в Ubuntu тестовый редактор gedit, у которого в настройках можно включить панель pyton и таким образом построить нужный файл. Вот pyton-код:

str1 = "http://videobeta.net/gifs/"
str2 = ".gif"
i = 1
while i < 201
print (str1 + str(i) + str2)
i = i + 1

Запускаем код в нижней панели редактора, он выводит список файлов. Копируем список в основное окно и сохраняем файл как 1-200.txt .

3.

Создаём подкаталог в своём домашнем каталоге, например с наванием wget-test . Запускаем терминал, переходим в созданный каталог.

На всякий случай команды:

cd <имя_каталога> --- перейти в каталог
mkdir <имя_каталога> --- создать каталог
rmdir <имя_каталога> --- удалить каталог
.. --- надкаталог
. --- текущий каталог

4.

Далее, находясь в терминале в каталоге wget-test, переписываем сюда же свой файл 1-200.txt с URL для скачивания. И запускаем wget следующей командой:

wget -P ./ -i ./1-200.txt

Пошла закачка. Как закончится, в каталоге wget-test будут скачанные файлы, за исключением удалённых, т.е. их будет меньше 200. Далее их можно уже просматривать и отбирать.