Страницы

среда, 28 мая 2014 г.

Perpetum reposita. Project Gutenberg цифровая библиотека мирового наследия

В связи со складывающейся ситуацией в российском сегменте сети Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.

Project Gutenberg


Цифровая библиотека Project Gutenberg


Project Gutenberg - цифровая библиотека содержащая цифровые копии книг и иных материалов, перешедших в общественное достояние.

Это удивительный пример законного использования замечательного протокола Bittorrent.


Для загрузки последнего официального двухслойного DVD диска от 2010 года, надо использовать протокол Bittorrent.

Ссылка на файл торрента: http://cdproject.pglaf.org//torrents/pgdvd042010.iso.torrent

DVD диск содержит не полную (выборочную) базу данных проекта Гутенберга.


Чтобы сделать полную коллекцию и поддерживать её в синхронизированном состоянии, надо прочесть инструкцию [4].
Объём базы данных составит ~ 650 Гб.


В принципе, там всё просто - это rsync (для лучшей передачи) и cron. Ну и 1 Тб винчестер.


※※※

Ресурсы

1. Официальный сайт проекта "Гутенберг". http://www.gutenberg.org
2. Официальный ресурс Bittorrent-трекера проекта "Гутенберг".  http://cdproject.pglaf.org//tracker.html
3. Прямая ссылка на DVD 2010 года:  http://cdproject.pglaf.org//torrents/pgdvd042010.iso.torrent
4. Зеркалирование проекта Гутенберга (en). http://www.gutenberg.org/wiki/Gutenberg:Mirroring_How-To


※※※

Mikrotik. Собственный FTP-сервис на домашнем компьютере. Проброс порта №21

Возникла задача сделать собственный простейших сервис загрузки/выгрузки файлов на домашний ftp-сервер.

Настройка ftp-сервера в ubuntu, можно посмотреть в заметке:
FTP-сервер Vsftpd на Hp proliant microserver

Для уменьшения проблем, клиент FTP надо настроить в пассивном режиме (PASSIVE MODE), который гарантирует, что все соединения будут открывать со стороны клиента к серверу, что гарантирует корректное прохождение NAT на роутере.

Для такого режима (FTP Passive mode) на роутере надо пробросить один порт. Моя конкретная ситуация осложняется тем, что порт № 21, ответственный за управление FTP, фильтруется на стороне провайдера.

Поэтому, сделаем себе другой порт на роутере (к примеру 12121) и его пробросим на стандартный порт № 21 на домашнем компьютере (192.168.1.11).

На Микротике надо добавить первое правило, в таблицу IP NAT.

Вот выкопировка:

$ /ip firewall nat print
 0   ;;; To FTP server. SERVER PASSIVE MODE
     chain=dstnat action=netmap to-addresses=192.168.1.11 to-ports=21
     protocol=tcp in-interface=wan dst-port=12121


Используется специальное действие, предназначенное для таких целей - netmap.
in-interface=wan - это для интернет- интерфейса трансляция.

Чтобы подключаться из домашней сети (bridge-local) я склонировал правило, указав входной интерфейс bridge-local.

Тоже самое проделал и для беспроводной сети, которая у меня удалена из bridge-local, и создает свой мост wireless. Это позволило избежать проблем при трансляции UDP-multicast.

Всё.

Настройка клиентов на Androide и настольном компьютере, простейшая. Только надо выбрать режим PASSIVE (Пассивный). И этот дурацкий 20 порт не будет участвовать в обмене.


Из Android FTP-клиентов очень понравился Turbo client. Так его и искать в Google Play.

Пока замечу, что c FTPS (SSL) у Turbo client в связки с NAT Mikrotik) пока возникают сложности, с которыми ещё надо разобраться. Ниже пример, решения. Другой FTP клиент, заработал, когда ему настроил второе правило, см. ниже.

Для того, чтобы некоторые клиенты корректно работали с FTPS (SSL), помимо настройки сервера, надо добавить проброс открываемых сервером портов, на домашний компьютер (ftp-сервер).

 4   ;;; To FTP Data
     chain=dstnat action=netmap to-addresses=192.168.1.11 to-ports=12122-12199
     protocol=tcp in-interface=wan dst-port=12122-12199


Эти значения корреспондируют с настройками в vstftpd сервере:

pasv_max_port=12199
pasv_min_port=12122
Т.е. FTP-сервер, при необходимости будет делать соединения в этом диапазоне.

Для моих настроек, для android ftp-клиента Turbo client сработало указание типа подключения FTPES. Именно ES. Для AndFTP - тип подключения FTPS (Explicit SSL).
Как-то так. Есть мелкие баги, которые постепенно выковыриваются.

Как результат, есть защищённый, анонимный доступ к домашнему ftp-серверу из внешней сети.

※※※

Часто возникает проблема подключения к ftp-серверу изнутри домашней сети, по его публичному адресу (или динамическому домену). Эта проблема известна - надо использовать дополнительное правило преобразования ip-адресов [3].
В случае несовпадения портов, надо использовать пример в [4].
Пока не настроил, приходится использовать доступ по внутреннему адресу, а при внешнем доступе - по внешнему.


Для упрощения операций на ftp-сервере, я задал права в /etc/vsftpd.conf:
anon_umask=0000
file_open_mode=0777



※※※

Ресурсы


1. FTP-сервер Vsftpd на Hp proliant microserver. http://gimmor.blogspot.ru/2012/09/ftp-vsftpd-hp-proliant-microserver.html
2. Консольный клиент FTP. http://lftp.yar.ru/
3. http://wiki.mikrotik.com/wiki/Hairpin_NAT
4. http://superuser.com/questions/663820/port-forwarding-from-inner-network-to-inner-network-hairpin-nat

※※※

воскресенье, 25 мая 2014 г.

Perpetum reposita. PDS. Архив планетарной системы

В связи со складывающейся ситуацией в российском сегменте сети Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.


Есть замечательный сайт-архив Planetary Data System, на котором хранятся публично доступные данные различных миссий американского космического агентства (NASA) по изучению планетарной системы нашего Солнца, с помощью разнообразных инструментов.
Т.к. в рамках темы заметок Perpertum Reposita меня интересует только данные, пригодные для дальнейшей трансформации, то этот сайт кладезь ссылок на наборы данных по планетам солнечной системы.

Луна, Марс, Меркурий, Венера и т.п.

M134991988R. Снимок станции Appolo 17 на Луне (с помощью камеры LROC), рядом с движущимися камнями


Луна (Luna, Moon) и Lunar Reconnaissance Orbiter (LRO)




Ранее, меня интересовала радарная съемка Земли и полученный результат в виде топографических данных, так и для Луны есть почти аналогичный набор данных, созданный с помощью инструмента Lunar Orbiter Laser Altimeter (LOLA) [4]. Altimeter - высотомер. Лазерный высотомер.


Основные данные полученные с инструмента LOLA, хранятся на сайте LOLA Data Archive [5].

Прямая ссылка на иерархию загрузки: http://imbrium.mit.edu/DATA/
NOTE. Очень ресурсоемкий сайт - сотни гигабайт. Чёрт, я не справлюсь, мощностей канала не хватает.

Более подробное исследование видимо позволит уменьшить объём загрузки.

Там представлено несколько наборов данных, в том числе и сырые данные (EDR). Для надежности можно отзеркалировать всё.

EDR - сырые данные, RDR,GDR, SHADR - преобразованные данные.

На момент написания заметки, последний опубликованный набор данных LOLA имел версию 17, от 14 марта, 2014.
"LRO Release 17 includes new LOLA EDR and RDR data acquired between October 14, 2013, and January 9, 2014".
Там в расписании, в июне, прибудет 18 версия.

Для системы Linux есть несколько утилит, позволяющие преобразовать бинарные данные, в более стандартный виды: csv, xyz и т.п. Находятся в каталоге Software: http://imbrium.mit.edu/SOFTWARE/Linux_bin/

На странице ресурса [4] можно найти описание и назначение форматов данных LRO.


※※※

Марс (Mars) и Mars Global Surveyor


Искусственный спутник для Марса Mars Global Surveyor, был запущен в 1999 году и просуществовал до 2006 года. Оборудован лазерным высотомером Mars Orbiter Laser Altimeter (MOLA), который остановил свою работы в 2001 году [10].


Ссылка на данные для загрузки (топографические):
ftp://pds-geosciences.wustl.edu/mgs/mgs-m-mola-5-megdr-l3-v1/mgsl_300x/
Макс. разрешение 128 пикселов на 1 градус.
Объём около 12 Гб.


Также доступны следующие наборы данных:

Сырые данные. Aggregated Experiment Data Records (AEDRs):  http://pds-geosciences.wustl.edu/missions/mgs/aedr.html
Прямая ссылка на AEDR. ftp://pds-geosciences.wustl.edu/mgs/mgs-m-mola-1-aedr-l0-v1/mgsl_1xxx/

Производные:
Precision Experiment Data Records, altimetry profiles:

PEDR. http://pds-geosciences.wustl.edu/missions/mgs/pedr.html
Прямая ссылка на PEDR для зеркалирования. ftp://pds-geosciences.wustl.edu/mgs/mgs-m-mola-3-pedr-l1a-v1/mgsl_21xx/
Объём ~ 22 Гб.

SHADR. http://pds-geosciences.wustl.edu/missions/mgs/shadr.html
Для SHADR доступно 2 файла.
http://pds-geosciences.wustl.edu/mgs/mgs-m-mola-5-shadr-v1/mgsl_2101/data/gtm090aa.sha
http://pds-geosciences.wustl.edu/mgs/mgs-m-mola-5-shadr-v1/mgsl_2101/data/gtm090aa.lbl

PRDR. http://pds-geosciences.wustl.edu/missions/mgs/prdr.html
PRDR. ftp://pds-geosciences.wustl.edu/mgs/mgs-m-mola-3-prdr-l1a-v1/mgslr_xxxx/


Марс и Mars Reconnaissance Orbiter


Mars Reconnaissance Orbiter  - современый аппарат, запущенный в 2005 году, в 2014 году продолжает поставлять данные [15].



Меркурий и Messenger


Для планеты Меркурий доступны данные аппарата Messenger и его прибора лазерного высотомера - Messenger Laser Altimeter MLA [12].

Прямые ссылки для зеркалирования:

Сырые данные лазерного высотометра MLA [13]. http://pds-geosciences.wustl.edu/messenger/mess-e_v_h-mla-2-edr-rawdata-v1/

Объём сырых данных ~.

Я загрузил последнюю миссию, за 2013 год. 1 Гб. Не много. Но, лет там уже десяток.


Преобразованные данные лазерного высотометра MLA: http://pds-geosciences.wustl.edu/messenger/mess-e_v_h-mla-3_4-cdr_rdr-data-v1/

Около 40 Гб. (~ 37 Гб).

Тут стоит заметить, что wget любит учитывать послание роботам - файл robots.txt, но т.к. мы не роботы, а всего лишь пользователи, то для игнорирования robots.txt надо использовать опцию wget:  -e robots=off


Ресурсы


1. Общий сайт Planetary data system. http://pds.jpl.nasa.gov/

2. Сайт университета Washington university of St.Louis, PDS data node. http://pds-geosciences.wustl.edu/default.htm

3. Lunar Reconnaissance Orbiter mission. http://pds-geosciences.wustl.edu/missions/lro/default.htm

4.  Lunar Orbiter Laser Altimeter (LOLA). http://pds-geosciences.wustl.edu/missions/lro/lola.htm
5. LOLA Data Node. http://imbrium.mit.edu/LOLA.html
6. Прямая ссылка для выгрузки. Наборы данных инструмента LOLA. http://imbrium.mit.edu/DATA/

7. Некоторые изображения с камеры LROC. http://lroc.sese.asu.edu/images/
8. Программное обеспечение преобразования формата LRO. http://imbrium.mit.edu/SOFTWARE/Linux_bin/
9. Mars Global Surveyor. http://pds-geosciences.wustl.edu/missions/mgs/index.htm
10. Mars Global Surveyor: MOLA. http://pds-geosciences.wustl.edu/missions/mgs/mola.html
11. Cсылка на страницу топографических данных MOLA: http://pds-geosciences.wustl.edu/missions/mgs/megdr.html
11.1. MOLA - MEGDR. ftp://pds-geosciences.wustl.edu/mgs/mgs-m-mola-5-megdr-l3-v1/mgsl_300x/
11.2. MOLA - PEDR. ftp://pds-geosciences.wustl.edu/mgs/mgs-m-mola-3-pedr-l1a-v1/mgsl_21xx/
11.3. MOLA - AEDR. ftp://pds-geosciences.wustl.edu/mgs/mgs-m-mola-1-aedr-l0-v1/mgsl_1xxx/

12. Messenger Laser Altimeter MLA. http://pds-geosciences.wustl.edu/missions/messenger/mla.htm
13. Прямая ссылка на сырые данные (EDR)  лазерного высотометра MLA:
http://pds-geosciences.wustl.edu/messenger/mess-e_v_h-mla-2-edr-rawdata-v1/
14. Прямая ссылка на производные данные (RDR,GDR)  лазерного высотометра MLA:
 http://pds-geosciences.wustl.edu/messenger/mess-e_v_h-mla-3_4-cdr_rdr-data-v1/

15. Mars Reconnaissance Orbiter. http://pds-geosciences.wustl.edu/missions/mro/default.htm
16. 
17.



※※※

Perpetum reposita. GLOBE. Рельеф местности Земли, с шагом 30 угловых секунд.

В связи со складывающейся ситуацией в российском сегменте сети Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.


Прощальное фото Земли от спутника Электро-Л. 31.03.2014

Вечное хранение цифрового рельефа


Цифровой рельеф - это численные данные о положении географических мест (точек) в пространстве, в принятой системе отсчёта.

Среди наиболее известных и главное доступных публике - цифровой рельеф Американского Национального Геодезического Центра Данных NGDC  - GLOBE [1], ETOPO1, ETOPO5.

Среди них наибольшее угловое разрешение имеет  GLOBE [1] - 30 угловых секунд, что даёт сетку меридианов на весь "земной шар" 360° х 60' х 2 = 43200.
Но в геодезии не земной шар, а геоид, так что всё посложнее.

В частности, для рассматриваемого здесь набора данных рельефа, используется стандарт  WGS-84.

Прямая ссылка на набор данных цифрового рельефа GLOBE: http://www.ngdc.noaa.gov/mgg/topo/DATATILES/elev/all10g.tgz


Этот набор просто существует. Насколько он актуализируется, это вопрос. Так что однократно скачать не помешает, т.к. на основе этих данных всегда можно создать собственную физическую карту Земли.




Образец карты на основе ETOPO1
ETOPO1 идёт в двух ипостасях - с актуальными высотами льдов (Ice surface), на период создания и высотами подледных земель (Bedrock).

Форматов представлено несколько, из простых вроде - XYZ и netCDF.

Также по 2 разновидности grid-centered и cell-centered. Это какая-то особенность представленного формата. Глубоко я не разбирался, сказать не могу.

Grid-centered:

Прямая ссылка на ледовую версию: http://www.ngdc.noaa.gov/mgg/global/relief/ETOPO1/data/ice_surface/grid_registered/xyz/ETOPO1_Ice_g_int.xyz.gz

Прямая  ссылка на подлёдную версию ETOPO1:http://www.ngdc.noaa.gov/mgg/global/relief/ETOPO1/data/bedrock/grid_registered/xyz/ETOPO1_Bed_g_int.xyz.gz


В принципе, можно отзеркалировать весь FTP каталог ETOPO1 [4]. Данных там на несколько гигабайт. Объём ~ 18 Гб.

Выкопировка:

# ETOPO1 - ЦРМ Земли
# Загружается однократно
wget -r -np -nH --cut-dirs=4 -P /media/gimmor/tibibyte/Perpetum/ETOPO1 http://www.ngdc.noaa.gov/mgg/global/relief/ETOPO1/


Благодарность команде:

Amante, C. and B.W. Eakins, 2009. ETOPO1 1 Arc-Minute Global Relief Model: Procedures, Data Sources and Analysis. NOAA Technical Memorandum NESDIS NGDC-24. National Geophysical Data Center, NOAA. doi:10.7289/V5C8276M 25.05.2014.

※※※

Ресурсы


1. Проект GLOBE. http://www.ngdc.noaa.gov/mgg/topo/globe.html
2. Прямая ссылка на данные проекта GLOBE: http://www.ngdc.noaa.gov/mgg/topo/DATATILES/elev/all10g.tgz
3. Проект  ETOPO1 Global Relief Model. http://www.ngdc.noaa.gov/mgg/global/global.html
4. FTP/HTTP каталог ETOPO1: http://www.ngdc.noaa.gov/mgg/global/relief/ETOPO1/
5. Прямая ссылка на ETOPO1 ice surface grid-centered: http://www.ngdc.noaa.gov/mgg/global/relief/ETOPO1/data/ice_surface/grid_registered/xyz/ETOPO1_Ice_g_int.xyz.gz
6. Прямая  ссылка на ETOPO1 bedrock grid-centered: http://www.ngdc.noaa.gov/mgg/global/relief/ETOPO1/data/bedrock/grid_registered/xyz/
7. Сайт с SRTM30+. http://topex.ucsd.edu/WWW_html/mar_topo.html
8. FTP SRTM30 v10. ftp://topex.ucsd.edu/pub/srtm30_plus/
9. Фото Земли со спутника Электро-Л. ftp://electro:electro@ftp.ntsomz.ru/2014/March/31/1030/140331_1030_original_RGB.jpg

※※※

суббота, 24 мая 2014 г.

Perpertum reposita. Piramid de faraone. Побочная находка. Египетские пирамиды имели навершие в виде шаров?

Источник: http://collections.rmg.co.uk/collections/objects/541158.html

Object ID: P/36(A-B)

Карта с индексом: Repro ID: F1761
Датирована 1555 годом

Поисковый индекс = Object ID, т.е. чтобы найти карту надо в строку поиска ввести P/36(A-B). По Repro ID не ищет.

Название карты: East Mediterranean and Black Sea

Описание: Bound sheet. Col. ms. Medium: Vellum. Scale: [ca. 1: 6 000 000]. Cartographic Note: North at 180 degrees.
Contents Note: Cities; compass rose. Bound in an atlas of nine charts and maps folded concertina-fashion with A-J on one side and 1-8 on the other. The items all have rhumb lines but also show terrestrial relief and rivers.

Увы, недоступно для скачивания целиком, всё сделано через интерфейс самого сайта. Сослаться не получается, надо регистрироваться. Всё же, публичная организация, могли бы и следовать нормальным стандартам Интернета, когда ресурсы доступны для скачивания по URL (для того и придумали унифицированный указатель расположения ресурса).

Ну ладно, отвлёкся.

Вот выкопировки из скриншота, из сканированного изображения карты, которая возможно там у них храниться.



Египетские пирамиды с шарами, в виде навершия

Общий вид на египетские пирамиды с шарами, в виде навершния, со стороны Средиземного Моря

По два шара на вершинах пирамид, это что - техническое устройство - радары?



четверг, 22 мая 2014 г.

Синхронизация контактов через SyncML доступными сервисами

В очередной раз возникла проблема синхронизации календарных сведений. Перенос данных кантактов, календаря, заметок, всегда и по сию пору, является головной болью мобильных платформ. Сплошь и рядом имеется навязанная программная несовместимость форматов данных, способов передачи и пр.

Вначале я попробовал передать календарь через Bluetooth, что не случилось никак. Потом я попробовал переслать файл базы данных календаря, что то же не случилось. В прошлые разы, я делал синхронизацию через собственный syncml сервис, но сейчас захотел побыстрее, т.к. старый сервер сгинул в истории.


В старом телефоне Nokia 9300 календарные данные хранятся во встроенной программе Календарь. Формат бинарный и старый.
В новом телефоне Megafon Login 2 календарные данные хранятся во встроенной программе календаря.
К сожалению, стандартно в Android 4.2.2 нет возможности импортировать данные календаря напрямую с телефона Nokia.

Поэтому, в этот раз, воспользовался сторонним сервисом syncml-синхронизации wap4b.ru.

Порядок действий случился такой:

1. Регистрация на сервиса wap4b.ru
2. Настройка встроенного средства синхронизации syncml на телефоне Nokia 9300 (папка Сервис-Синхронизация). Указываются адрес url, и пользователь и пароль, как задано в инструкции к сервиса. В принципе - url - http://wap4b.ru/sync, 80-й стандартный порт, а базы данных, если надо - con (контакты) и caltask (календарь).

3. Выполняется синхронизация (только с телефона) на телефоне Nokia 9300. Происходит копирование календарных данных на сервис wap4b.ru.

4. Установка программы DMS+DS на телефоне Megafon Login 2.
5. Настройка программы DMS+DS, с указанием адрес url http://wap4b.ru/sync, и пользователь и пароль, как задано в инструкции к сервису wap4b.ru (аналогично).

6. Выполняется синхронизация в программе DMS+DS и данные плавное переезжают во встроенное приложение календаря. При этом, однако создаётся дополнительная учётная запись (по данным wap4b.ru) и календарь накладывается на календарь Google. Я пока не понял, как перенести данные из учётной записи wap4b.ru в стандартную учётную запись Google. Вообщем, легкие трудности. Но без них было бы легче, но разработчики любят только себя и свое.
Т.е. получился вроде как внешний календарь, доступный только на устройстве Megafon Login 2.

Замечу, что DMS+DS простой syncml клиент. Получилось почти то, что мне надо. В других случаях может удваивать контакты и события. ИСПОЛЬЗОВАТЬ ОСТОРОЖНО. ДЕЛАТЬ РЕЗЕРВНУЮ КОПИЮ ПЕРЕД СИНХРОНИЗАЦИЕЙ.

Раньше была возможность делать синхронизацию через google, но потом этот  сервис закрылся.

Возможно стоит воспользоваться сервисом от  Megafon "Банк памяти".


 ※※※

Выводы


1. Телефону Megafon Login 2 очень нехватает утилиты, для прямого переноса данных с других телефонов к себе. Вечно надо искать какие-то сторонние сервисы.
2. Покопавшись в Google Play, и зная о технологии лежащей в основе переноса т.н. PIM данных (ключевое слово syncml), удалось относительно быстро, по сравнению с ручным переносом, решить проблему.
3. Странное приложение Google Календарь на платформе Android 4.2.2. Как же перенести календарные данные в Google?
4. Большая часть календарных программ сделана так, как будто у меня нет календаря и я чистого листа начинаю вводить данные непременно в эту программу, на этом устройстве. Экспорт и импорт, в многих случаях не помогает, т.к. форматы разнообразны.
5. DMS+DS. - клиент очень простой. В других случаях может удваивать контакты и события. ИСПОЛЬЗОВАТЬ ОСТОРОЖНО. ДЕЛАТЬ РЕЗЕРВНУЮ КОПИЮ ПЕРЕД СИНХРОНИЗАЦИЕЙ.

※※※

Ресурсы


 1. Сервис syncml-синхронизации контактов и календаря. http://wap4b.ru/
2. Календарь Google. https://calendar.google.com/
3. Мегафон в Санкт-Петербурге. http://spb.megafon.ru/

※※※

Perpetum reposita. Вечное хранение Open Cell ID

В связи со складывающейся ситуацией в российском сегменте сети Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.


Вечное хранение открытой базы данных идентификаторов вышек сотовой связи Open Cell ID

Чем может помочь эта база данных обычному пользователю. Например, для улучшения интернета на даче, для лучшего ориентирования, можно выбрать куда направить антенну телефона (модема, роутера), какой провайдер обеспечивает лучшее качество сигнала.
Один из примеров приведён в [4].
Всё это можно посмотреть на сайте проекта Open Cell ID [1].


База данных экспортируется в текстовом формате CSV, описание которого можно найти в [3].

Прямая ссылка на базу данных сотовых вышек. http://downloads.opencellid.org/cell_towers.csv.gz

Помимо этого, в [2] можно найти базу данных измерений мощности и доступности сигнала, в файлах mesuarment. Наибольший последовательный номер у файла - более поздняя и полная копия.

База данных выгружается еженочно, так что качать лучше днём.
Размер менее 200 мегабайт для базы вышек, и чуть более гигабайта для базы измерений.

Для удобства можно использовать команду rsync, чтобы отзеркалировать весь каталог.


 ※※※

Ресурсы

1. Сайт проекта Open CellID. http://opencellid.org/
2. Прямая ссылка на базы данных. http://downloads.opencellid.org/
3. Описание формата выгружаемых данных Open Cell ID (En).http://wiki.opencellid.org/wiki/Menu_map_view#database
4. Как определить местоположение по сетям сотовой связи (Cell ID). http://habrahabr.ru/post/223635/
※※※

суббота, 3 мая 2014 г.

Perpetum reposita. Вечное хранение Freebase & DBPedia

В связи со складывающейся ситуацией в российском сегменте сети Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.

Вечное хранение открытых семантической базы данных Freebase



Freebase - открытая коллективная база семантических данных, представленных в виде связанного графа объектов. Синтаксически, представляется обычно в виде "rdf-троек".


Цитата: "The RDF data is serialized using the N-Triples format, encoded as UTF-8 text and compressed with Gzip "
Объём около ~ 22-23 Гб в сжатом виде, и ~ 250 Гб в распакованном.

Для загрузки по расписанию, сделать придётся небольшое исследование, т.к. явной ссылки на закачиваемый файл не представлено.
По адресу в [7], можно получить xml-страницу, со списком доступных для загрузки исторических дампов базы freebase.
Откуда, для своих целей, я сформировал прямую ссылку [3].


Выкопировка из расписания, для Freebase.

# 3.05.2014. Freebase
# Загружается еженедельно, в ночь с пятницы на субботу
# Каталогог Freebase должен существовать
25 00  * * 6 /usr/bin/wget -np -nH --cut-dirs=2 -P /media/gimmor/tibibyte/Perpetum/Freebase http://commondatastorage.googleapis.com/freebase-public/rdf/freebase-rdf-latest.gz



※※※


Вечное хранение открытых семантической базы данных DBPedia


DBPedia - открытая коллективная база структурированной информации, на основе Wikipedia. Также использует стандартное представление графа в виде "rdf-троек", "триплетов".


Структура формирования дампов, по релизам, на момент написания заметки был доступен релиз версии 3.9.
Чтобы отслеживать появление нового релиза, надо "городить" скрипт.



Выкопировка из расписания, для DBPedia.

# 3.05.2014. dbpedia
# Загружается еженедельно, в ночь с пятницы на субботу
# Каталогог dbpedia должен существовать
55 00 * * 6 /usr/bin/wget -r -np -nH --cut-dirs=1 -P /media/gimmor/tibibyte/Perpetum/dbpedia/ http://downloads.dbpedia.org/3.9/en/
55 05 * * 6 /usr/bin/wget -r -np -nH --cut-dirs=1 -P /media/gimmor/tibibyte/Perpetum/dbpedia/ http://downloads.dbpedia.org/3.9/ru/




Частоту загрузки можно скорректировать, на возможности канала связи в сеть Интернет.



※※※


Ресурсы



1. Freebase. http://www.freebase.com/
2. DBPedia. http://dbpedia.org/
3. Freebase. Прямая ссылка для скачивания. http://commondatastorage.googleapis.com/freebase-public/rdf/freebase-rdf-latest.gz
4. DBPedia. Прямая ссылка на RU-каталог для скачивания. http://downloads.dbpedia.org/3.9/ru/
5. DBPedia. Прямая ссылка на EN-каталог для скачивания. http://downloads.dbpedia.org/3.9/en/
6. Freebase. Страница загрузки дампов. https://developers.google.com/freebase/data
7. Freebase. xml-страница архивов доступных к загрузке. http://commondatastorage.googleapis.com/freebase-public/


※※※

пятница, 2 мая 2014 г.

Perpetum reposita. Вечное хранение части IMDb


В связи со складывающейся ситуацией в российском сегменте сети Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.

Вечное хранение части данных IMDb


Сервис IMDb - крупнейшая коллективная база данных метаинформации кинофильмов.

Увы, полного дампа базы данных не предоставляется. Предоставляется ограниченный набор данных, в простых текстовых файлах. Условия использования данных, см. в [4].

Скачивать достаточно просто, с помощью wget.

В [3] приведена ссылка на один из опубликованных ftp-серверов.

Вначале опции:
$ wget -r -np -nH --cut-dirs=4 -P IMDb

-r рекурсивно загрузить,
-np - не выходить за пределы папки database
-nH - не создавать на диске папку ftp.fu-berlin.de/
--cut-dirs=4 не создавать папки pub/misc/movies/database/
-P IMDb папка сохранения

В ручном режиме:
$ wget -r -np -nH --cut-dirs=4 -P IMDb ftp://ftp.fu-berlin.de/pub/misc/movies/database/

Папка IMDb должна быть создана.

Ориентировочно, выходной файл формируется в пятницу, поэтому нашу загрузку будет осуществлять в ночь с субботы на воскресенье.

Выдержка из расписания (crontab -e):

# IMDb - еженедельный образ базы данных
# Загружается еженедельно, в ночь с субботы на на воскресенье
# Каталог IMDb должен существовать


15 00 * * 7 /usr/bin/wget -r -np -nH --cut-dirs=4 -P /media/gimmor/tibibyte/Perpetum/IMDb ftp://ftp.fu-berlin.de/pub/misc/movies/database/




※※※

Ресурсы


1. IMDb. http://www.imdb.com/
2. Описание выгружаемых файлов. http://www.imdb.com/interfaces
3. IMDb. Прямая ссылка на доступные данные: ftp://ftp.fu-berlin.de/pub/misc/movies/database/
4. IMDb. Условия использования. http://www.imdb.com/help/show_leaf?usedatasoftware

※※※

Perpetum reposita. Автономная Ubuntu

В связи со складывающейся ситуацией в российском сегменте сети Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.

Вечное хранение репозитория Ubuntu

Ubuntu без доступа к хранилищу пакетов (репозиторию) - это не Ubuntu.

Встроенное средство apt-mirror позволяет создать "зеркало" точную копию репозитория Ubuntu на домашнем компьютере, для автономного использования в качестве источника пакетов.

Основной конфигурационный файл apt-mirror: /etc/apt/mirror.list
Формат сходен с sources.list.

Для 64-битной ubuntu, надо также скачивать и пакеты архитектуры i386, потому что без них, не обходиться.

Под автономный репозиторий пакетов у меня выделен раздел: /mnt/repository

Примерное содержимое:

# сервер: redbox
# дата: 16 апреля 2014 года
#
############# config ##################
#
set base_path    /mnt/repository
#
 set mirror_path  $base_path/mirror
 set skel_path    $base_path/skel
 set var_path     $base_path/var
# set cleanscript $var_path/clean.sh
# set defaultarch  <running host architecture>
# set postmirror_script $var_path/postmirror.sh
# set run_postmirror 0
set nthreads     20
set _tilde 0
#
############# end config ##############

deb http://ru.archive.ubuntu.com/ubuntu trusty main restricted universe multiverse
deb http://ru.archive.ubuntu.com/ubuntu trusty-security main restricted universe multiverse
deb http://ru.archive.ubuntu.com/ubuntu trusty-updates main restricted universe multiverse
#deb http://ru.archive.ubuntu.com/ubuntu trusty-proposed main restricted universe multiverse
#deb http://ru.archive.ubuntu.com/ubuntu trusty-backports main restricted universe multiverse




deb-src http://ru.archive.ubuntu.com/ubuntu trusty main restricted universe multiverse
deb-src http://ru.archive.ubuntu.com/ubuntu trusty-security main restricted universe multiverse
deb-src http://ru.archive.ubuntu.com/ubuntu trusty-updates main restricted universe multiverse
#deb-src http://ru.archive.ubuntu.com/ubuntu trusty-proposed main restricted universe multiverse
#deb-src http://ru.archive.ubuntu.com/ubuntu trusty-backports main restricted universe multiverse



# Пакеты архитектуры i386 нужны

deb-i386 http://ru.archive.ubuntu.com/ubuntu trusty main restricted universe multiverse
deb-i386 http://ru.archive.ubuntu.com/ubuntu trusty-security main restricted universe multiverse
deb-i386 http://ru.archive.ubuntu.com/ubuntu trusty-updates main restricted universe multiverse



# Стоит ли эти репозитории качать?
#deb http://archive.canonical.com/ubuntu trusty partner
#deb-src http://archive.canonical.com/ubuntu trusty partner
#deb http://extras.ubuntu.com/ubuntu trusty main
#deb-src http://extras.ubuntu.com/ubuntu trusty main

clean http://ru.archive.ubuntu.com/ubuntu



Для ежедневного обновления (проверки) используется системное расписание cron.
Конфигурация системного расписания, в части apt-mirror находится в файле: /etc/cron.d/apt-mirror

Там такая запись:

0 13    * * *    apt-mirror    /usr/bin/apt-mirror > /mnt/repository/cron.log

Выполняется всё от имени пользователя apt-mirror.
И папкам репозитория надо присвоить владельца  apt-mirror

$ sudo chown -R apt-mirror:apt-mirror /mnt/repository/{mirror,skel,var}

После этого, из Файлового менеджера, под обычным пользователем, эти папки не будут доступны для просмотра.

Можно с пользователем apt-mirror и не связываться, тогда просто запуск надо выполнять от пользователя root.

Сейчас, я склоняюсь к мысли выделить отдельно репозиторий исходных кодов и исполняемых пакетов. Для этого два-три-четыре файла mirror.list надо создать.
Это вызвано тем, что такие (~60GB) объёмы сложно записывать на BDRE.
В расписании появиться, нужное количество строк и данные будут разнесены и станут более удобными для использования, т.к. иногда исходные коды не очень нужны. Хотя...


※※※

Использование локального  репозитория


При недоступности Интернета, это позволяет сохранять работоспособность операционной системы Ubuntu, достаточно долгое время.
Для использования локального репозитория, надо переформатировать файл источников: /etc/apt/sources.list

Ссылка на локальный репозиторий в файле /etc/apt/sources.list выглядит где-то так (взято с автономной ubuntu, где том хранения репозитория носит название reconditorium): 

deb file:///mnt/reconditorium/mirror/ru.archive.ubuntu.com/ubuntu trusty main
deb file:///mnt/reconditorium/mirror/ru.archive.ubuntu.com/ubuntu trusty restricted
deb file:///mnt/reconditorium/mirror/ru.archive.ubuntu.com/ubuntu trusty universe
deb file:///mnt/reconditorium/mirror/ru.archive.ubuntu.com/ubuntu trusty multiverse


И так для каждого репозитория, trusty, trusty-security, trusty-updates и т.п.
Строк будет много, для наглядности.
Надо заметить 3 символа /, а также, "mirror/ru.archive.ubuntu.com/" - это потому, что зеркалировалось российское зеркало.

Объем полного репозитория trusty около ~120GB.

После переключения на локальный репозиторий, можно сделать:
$ sudo rm /var/lib/apt/lists/* -vf
$ sudo apt-get update


※※※

Выводы


1. Похоже зеркалировать надо и Debian.
2. Похоже нужны емкие диски.
3. Разбиение репозитория на куски, позволяет гибко, по мере необходимости подключать и отключать внешние диски с пакетами программ и исходных кодов, да и зеркалирование выполнять ночью, а не днём и пореже.


※※※

Ресурсы


1. Ubuntu. http://help.ubuntu.ru/wiki/apt-mirror


※※※

четверг, 1 мая 2014 г.

Perpetum reposita. Вечное хранение MusicBrainz

В связи со складывающейся ситуацией в российском сегменте сети Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.

Вечное хранение MusicBrainz - открытой базы данных музыкальной метаинформации


Сервис MusicBrainz - это коллективная база данных, метаинформации о музыкальных композициях, включает описания, обложки, рейтинги, комментарии. Есть статистика, которая говорит, что уже более 16 млн. композиций учтено в базе данных.

Для скачивание дампов базы данных MusicBrainz, с сайта, придётся написать небольшой скрипт, чтобы не скачивать устаревших данных.

В принципе, если не экономить полосу пропускания, то можно воспользоваться встроенным средством wget и скачать всё.

Вначале опции:
wget -r -np -nH --cut-dirs=4 -P MusicBrainz

-r рекурсивно загрузить,
-np - не выходить за пределы папки fullexport
-nH - не создавать на диске папку ftp.musicbrainz.org/
--cut-dirs=4 не создавать папки pub/musicbrainz/data/fullexport
-P MusicBrainz папка сохранения


1. Из особенностей организации на ftp-сервере MusicBrainz, вначале надо скачать файл LATEST, в котором в первой строке содержиться относительное имя папки, с последним дампом базы данных:

wget ftp://ftp.musicbrainz.org/pub/musicbrainz/data/fullexport/LATEST

2. Скачать эту папку, для этого надо содержимое первой строки подставить и сформировать url для загрузки.
Это делается с помощью, спец. кавычек `cat LATEST`, которые вначале выведут на стандартный вывод, первую строку, а оболочка подставить полученное, в качестве имени папки для скачивания.

wget -r -np -nH --cut-dirs=4 -P MusicBrainz ftp://ftp.musicbrainz.org/pub/musicbrainz/data/fullexport/`cat LATEST`

Это пример для ручной загрузки. Чтобы, это работало по расписанию, надо использовать абсолютные пути:

У меня, скачиваемые файлы будут храниться в папке проекта Perpetum/MusicBrainz, расположенном на диске смонтированном в /media/gimmor/tibibyte .


$ mkdir /media/gimmor/tibibyte/Perpetum/MusicBrainz

$ wget ftp://ftp.musicbrainz.org/pub/musicbrainz/data/fullexport/LATEST -O /media/gimmor/tibibyte/Perpetum/MusicBrainz/LATEST

$ wget -r -np -nH --cut-dirs=4 -A '*.asc' -P /media/gimmor/tibibyte/Perpetum/MusicBrainz ftp://ftp.musicbrainz.org/pub/musicbrainz/data/fullexport/`cat /media/gimmor/tibibyte/Perpetum/MusicBrainz/LATEST`


Чтобы протестировать работоспособность, можно добавить опцию -A '*.asc', которая будет скачивать только файлы с расширением asc. Менее минуты, и видна структура сформированных папок. После тестирования работоспособности Cron, это опцию надо убрать, чтобы скачивались все нужные файлы.

В принципе, в расписание можно вставлять эти команды, и если синтаксис правильный, всё должно заработать. Хотя, с кроном, всегда какие-то трудности, то пути, то бит-исполнения и пр.

Выдержка из расписания (crontab -e):

# MusicBrainz - еженедельный образ базы данных
# Загружается еженедельно, в ночь со среды на четверг
# Каталог MusicBrainz должен существовать

15 00 * * 4 /usr/bin/wget ftp://ftp.musicbrainz.org/pub/musicbrainz/data/fullexport/LATEST -O /media/gimmor/tibibyte/Perpetum/MusicBrainz/LATEST
17 00 * * 4 /usr/bin/wget wget -r -np -nH --cut-dirs=4 -P /media/gimmor/tibibyte/Perpetum/MusicBrainz ftp://ftp.musicbrainz.org/pub/musicbrainz/data/fullexport/`cat /media/gimmor/tibibyte/Perpetum/MusicBrainz/LATEST`

Видно, что вначале загружается файл LATEST.

※※※

Вечное поддержание в состоянии синхронизации. Другой путь


Сервис MediaBrainz позволяет скачать образ виртуальной машины MediaBrainz-сервера [4] и настроить подчинённую репликацию данных [3], чтобы всегда оставаться с актуальной базой данных.



※※※

Ресурсы


1. MusicBrainz. http://musicbrainz.org/
2. MusicBrainz. Прямая ссылка на каталог с дампами базы данных. ftp://ftp.musicbrainz.org/pub/musicbrainz/data/fullexport/
3. MusicBrainz. Установка реплицирующего сервера. http://musicbrainz.org/doc/MusicBrainz_Server/Setup
4. MusicBrainz. Прямая ссылка на загрузку образа сервера: ftp://mayhemchaos.org/pub/musicbrainz/vm/musicbrainz-server-2013-10-14.ova


※※※


Perpetum reposita. Вечное хранение Open Street Map


В связи со складывающейся ситуацией в российском сегменте Интернет, было принято решение сохранить (отзеркалировать) некоторые ресурсы сети, составляющие большую ценность, в силу накопленного человеческого труда, вложенного в их создание.

Вечное хранение Open Street Map - открытой базы данных картографической информации


Согласно [3], файл данных, содержащий всю информацию Open Street Map формируется еженедельно,начиная в 01:10am Среды (Wednesday), длясь ~ 12 часов и заканчивается в Четверг (Thursday).
В [4], упомянуто об отсутствии ссылочной целостности файла данных. Это связано с внутренними техническими ограничениями.

Копия базы картографических данных Open Street Map, представляет собой сжатый архиватором XML файл, в формате Open Street Map.

Прямая ссылка на базу картографических данных Open Street Map [5].

Для прямого скачивания большого файла ~ 40GB, будет использоваться утилита wget, запускаемая по расписанию в Пятницу, в 00:15 по Московскому времени (в ночь с четверга на пятницу).

Пример из cron-файла:

16 00 * * 5 /usr/bin/wget http://planet.openstreetmap.org/planet/planet-latest.osm.bz2 -O /media/gimmor/tibibyte/Perpetum/planet-latest.osm.bz2

Пока, каждую неделю будет скачиваться по 40GB, что создаст серьезную нагрузку. Возможно, что скачивание будет 1 раз в месяц, в окончательной редакции.

Также есть возможность скачивать дневные изменения, часовые и минутные, но тут надо городить уже целую систему. 

※※※


Ресурсы


1. Сервис Open Street Map.  http://www.openstreetmap.org
2. Планета OSM. http://planet.openstreetmap.org/
3. Планета OSM. Документация. http://wiki.openstreetmap.org/wiki/Planet.osm
4. Планета OSM. FAQ. http://wiki.openstreetmap.org/wiki/Planet.osm/FAQ
5. Планета OSM. База данных. Прямая ссылка. http://planet.openstreetmap.org/planet/planet-latest.osm.bz2
6. Планета OSM. Контрольная сумма базы данных. Прямая ссылка. http://planet.openstreetmap.org/planet/planet-latest.osm.bz2.md5

7. Большая база сырых GPS - точек. http://wiki.openstreetmap.org/wiki/Planet.gpx

8. Обновляемые данные OpenStreetMap в форматах XML и PBF, по территории б. СССР. http://gis-lab.info/projects/osm_dump/index.html

9.  Утилиты для работы с базой данных Open Street Map. http://wiki.openstreetmap.org/wiki/Osmosis

10. Формат OSM. http://wiki.openstreetmap.org/wiki/OSM_XML/XSD


※※※