Страницы

пятница, 2 мая 2014 г.

Perpetum reposita. Вечное хранение части IMDb


В связи со складывающейся ситуацией в российском сегменте сети Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.

Вечное хранение части данных IMDb


Сервис IMDb - крупнейшая коллективная база данных метаинформации кинофильмов.

Увы, полного дампа базы данных не предоставляется. Предоставляется ограниченный набор данных, в простых текстовых файлах. Условия использования данных, см. в [4].

Скачивать достаточно просто, с помощью wget.

В [3] приведена ссылка на один из опубликованных ftp-серверов.

Вначале опции:
$ wget -r -np -nH --cut-dirs=4 -P IMDb

-r рекурсивно загрузить,
-np - не выходить за пределы папки database
-nH - не создавать на диске папку ftp.fu-berlin.de/
--cut-dirs=4 не создавать папки pub/misc/movies/database/
-P IMDb папка сохранения

В ручном режиме:
$ wget -r -np -nH --cut-dirs=4 -P IMDb ftp://ftp.fu-berlin.de/pub/misc/movies/database/

Папка IMDb должна быть создана.

Ориентировочно, выходной файл формируется в пятницу, поэтому нашу загрузку будет осуществлять в ночь с субботы на воскресенье.

Выдержка из расписания (crontab -e):

# IMDb - еженедельный образ базы данных
# Загружается еженедельно, в ночь с субботы на на воскресенье
# Каталог IMDb должен существовать


15 00 * * 7 /usr/bin/wget -r -np -nH --cut-dirs=4 -P /media/gimmor/tibibyte/Perpetum/IMDb ftp://ftp.fu-berlin.de/pub/misc/movies/database/




※※※

Ресурсы


1. IMDb. http://www.imdb.com/
2. Описание выгружаемых файлов. http://www.imdb.com/interfaces
3. IMDb. Прямая ссылка на доступные данные: ftp://ftp.fu-berlin.de/pub/misc/movies/database/
4. IMDb. Условия использования. http://www.imdb.com/help/show_leaf?usedatasoftware

※※※

Комментариев нет: