Страницы

Показаны сообщения с ярлыком dbpedia. Показать все сообщения
Показаны сообщения с ярлыком dbpedia. Показать все сообщения

суббота, 3 мая 2014 г.

Perpetum reposita. Вечное хранение Freebase & DBPedia

В связи со складывающейся ситуацией в российском сегменте сети Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.

Вечное хранение открытых семантической базы данных Freebase



Freebase - открытая коллективная база семантических данных, представленных в виде связанного графа объектов. Синтаксически, представляется обычно в виде "rdf-троек".


Цитата: "The RDF data is serialized using the N-Triples format, encoded as UTF-8 text and compressed with Gzip "
Объём около ~ 22-23 Гб в сжатом виде, и ~ 250 Гб в распакованном.

Для загрузки по расписанию, сделать придётся небольшое исследование, т.к. явной ссылки на закачиваемый файл не представлено.
По адресу в [7], можно получить xml-страницу, со списком доступных для загрузки исторических дампов базы freebase.
Откуда, для своих целей, я сформировал прямую ссылку [3].


Выкопировка из расписания, для Freebase.

# 3.05.2014. Freebase
# Загружается еженедельно, в ночь с пятницы на субботу
# Каталогог Freebase должен существовать
25 00  * * 6 /usr/bin/wget -np -nH --cut-dirs=2 -P /media/gimmor/tibibyte/Perpetum/Freebase http://commondatastorage.googleapis.com/freebase-public/rdf/freebase-rdf-latest.gz



※※※


Вечное хранение открытых семантической базы данных DBPedia


DBPedia - открытая коллективная база структурированной информации, на основе Wikipedia. Также использует стандартное представление графа в виде "rdf-троек", "триплетов".


Структура формирования дампов, по релизам, на момент написания заметки был доступен релиз версии 3.9.
Чтобы отслеживать появление нового релиза, надо "городить" скрипт.



Выкопировка из расписания, для DBPedia.

# 3.05.2014. dbpedia
# Загружается еженедельно, в ночь с пятницы на субботу
# Каталогог dbpedia должен существовать
55 00 * * 6 /usr/bin/wget -r -np -nH --cut-dirs=1 -P /media/gimmor/tibibyte/Perpetum/dbpedia/ http://downloads.dbpedia.org/3.9/en/
55 05 * * 6 /usr/bin/wget -r -np -nH --cut-dirs=1 -P /media/gimmor/tibibyte/Perpetum/dbpedia/ http://downloads.dbpedia.org/3.9/ru/




Частоту загрузки можно скорректировать, на возможности канала связи в сеть Интернет.



※※※


Ресурсы



1. Freebase. http://www.freebase.com/
2. DBPedia. http://dbpedia.org/
3. Freebase. Прямая ссылка для скачивания. http://commondatastorage.googleapis.com/freebase-public/rdf/freebase-rdf-latest.gz
4. DBPedia. Прямая ссылка на RU-каталог для скачивания. http://downloads.dbpedia.org/3.9/ru/
5. DBPedia. Прямая ссылка на EN-каталог для скачивания. http://downloads.dbpedia.org/3.9/en/
6. Freebase. Страница загрузки дампов. https://developers.google.com/freebase/data
7. Freebase. xml-страница архивов доступных к загрузке. http://commondatastorage.googleapis.com/freebase-public/


※※※