Скачиваем сайт из вебархива. Мой опыт

Давайте накидаем ключевиков сначала: как скачать сайт из вебархива, как скачать сайт полностью из webarchive.

А теперь, поговорим нормально – расскажу, как я выкачивал сайт из вебархива.

Сразу скажу – гуглил по пояс. И архиварикс попробовал (платно) и другие проги, типа HTTrack и др.

Даже хотел плюнуть и тупо заказать кворк на сайте kwork.

И какого было мое удивление/разочарование, что минимальная цена работы на кворке теперь не 500 руб, а 700р. 500 рублей стоит сам кворк, а 200 рублей сверху комиссия биржи. (на момент написания статьи)

Нет, нормально да? Сначала fl.ru охерел со своей комиссией, теперь в след за ним кворк. Почему как только сервис/продукт становится народным, то он обязательно спаскудится?

Короче, после некоторых мытарств установил RubyInstaller и с помощью него скачал сайт. Я так понимаю, это самый адекватный способ скачать сайт из вебархива.

А теперь по порядку, как это было.

Сначала наткнулся на это видео:

Посмотрел его и прямо по нему по порядку делал:

1. Скачал rubyinstaller. Установил на свою винду как обычную программу.

2. Обязательно! Из “Пуск” запускать командную строку через “правой кнопкой – запустить от имени администратора”. Иначе у вас будут вылетать ошибки, что якобы прав не хватает и тд и тп.

3. В видео дается полезная ссылка на гитхабовский дистриб (качалки сайтов). По этому мануалу я и строил команды.

В моем случае нужный мне сайт в вебархиве после определенной даты был изменен на другой, который мне не нужен был, поэтому я выставил дату, до которой нужно было скачать сайт:

wayback_machine_downloader http://example.ru/ --to 20211216114235

Он скачался, но не было ни дизайна (скачался без css), ни картинок. В общем эти данные видимо архивировались в другое время.

Вы в курсе, что разные детали сайта архивируются в разное время?

Короче, сайт скачался не полностью. Я не стал еб#ться и выяснять даты загрузки отдельных деталей. Я просто раза четыре поскачивал разные временные промежутки, а потом накатил всё поверх на первый не докаченный сайт.

По тому же мануалу с гитхаба (там прокрутите вниз, увидите мануал) я выставил временной промежуток, и получилась команда:

wayback_machine_downloader http://example.ru/ --from 2021 --to 2022

То есть за весь 2021 год. Можно стереть все остальные цифры, оставить только год и всё сработает корректно.

wayback_machine_downloader http://example.ru/ --from 2020 --to 2021

А это за весь 2020 год.

Короче, поскачивал несколько раз разные промежутки и поскидывал всё в одну папку “копировать с заменой” )).

Вот так вот я качал сайт из вебархива.

Особое внимание хотел бы обратить на следующую настройку. Этот параметр позволяет скачивать файлы из вебархива в несколько потоков. У меня сайт был на 6,2к файлов и я не воткнул этот параметр, прикиньте, сколько я ждал.

Потом я просто добавлял этот ключ и всё буквально летало, то есть так:

wayback_machine_downloader http://example.com --from 2020 --to 2021 --concurrency 20

Поставил 20 потоков.

После скачивания сайта из вебархива вы получаете просто-напросто целый ворох именно html-файлов со стилями, это и будет сайт. А чтобы натянуть сову на глобус это всё на какую-нибудь CMS, это уже совсем другой процесс. Можно парсингом (я использовал content downloader), либо плагин экспорта статей, по сути ничего сложного. Я так восстанавливал не один сайт.

Есть неочевидные фишки, которые мало кто знает, описал их в другой статье, которые кратно увеличат ваши шансы на наиболее полное скачивание сайта из web.archive.org.

Такие дела.

Кстати, можете писать мне в телегу, помогу выкачать сайт из вебархива, за 500 руб, по предоплате.

В общем, пробуйте. Пишите в комментарии о своих успехах.

Оцените статью
Подписаться
Уведомить о
guest
2 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Александра
Александра
1 год назад

Подскажите, пожалуйста, в чем может быть причина того, что не создается дефолтная папка websites? И с помощью команды –directory пробовала папку указывать – ни в какую. Качается в командной строке, все ок, а вот где… Не понятно.