Давайте накидаем ключевиков сначала: как скачать сайт из вебархива, как скачать сайт полностью из webarchive.
А теперь, поговорим нормально – расскажу, как я выкачивал сайт из вебархива.
Сразу скажу – гуглил по пояс. И архиварикс попробовал (платно) и другие проги, типа HTTrack и др.
Даже хотел плюнуть и тупо заказать кворк на сайте kwork.
И какого было мое удивление/разочарование, что минимальная цена работы на кворке теперь не 500 руб, а 700р. 500 рублей стоит сам кворк, а 200 рублей сверху комиссия биржи. (на момент написания статьи)
Нет, нормально да? Сначала fl.ru охерел со своей комиссией, теперь в след за ним кворк. Почему как только сервис/продукт становится народным, то он обязательно спаскудится?
Короче, после некоторых мытарств установил RubyInstaller и с помощью него скачал сайт. Я так понимаю, это самый адекватный способ скачать сайт из вебархива.
А теперь по порядку, как это было.
Сначала наткнулся на это видео:
Посмотрел его и прямо по нему по порядку делал:
1. Скачал rubyinstaller. Установил на свою винду как обычную программу.
2. Обязательно! Из “Пуск” запускать командную строку через “правой кнопкой – запустить от имени администратора”. Иначе у вас будут вылетать ошибки, что якобы прав не хватает и тд и тп.
3. В видео дается полезная ссылка на гитхабовский дистриб (качалки сайтов). По этому мануалу я и строил команды.
В моем случае нужный мне сайт в вебархиве после определенной даты был изменен на другой, который мне не нужен был, поэтому я выставил дату, до которой нужно было скачать сайт:
wayback_machine_downloader http://example.ru/ --to 20211216114235
Он скачался, но не было ни дизайна (скачался без css), ни картинок. В общем эти данные видимо архивировались в другое время.
Вы в курсе, что разные детали сайта архивируются в разное время?
Короче, сайт скачался не полностью. Я не стал еб#ться и выяснять даты загрузки отдельных деталей. Я просто раза четыре поскачивал разные временные промежутки, а потом накатил всё поверх на первый не докаченный сайт.
По тому же мануалу с гитхаба (там прокрутите вниз, увидите мануал) я выставил временной промежуток, и получилась команда:
wayback_machine_downloader http://example.ru/ --from 2021 --to 2022
То есть за весь 2021 год. Можно стереть все остальные цифры, оставить только год и всё сработает корректно.
wayback_machine_downloader http://example.ru/ --from 2020 --to 2021
А это за весь 2020 год.
Короче, поскачивал несколько раз разные промежутки и поскидывал всё в одну папку “копировать с заменой” )).
Вот так вот я качал сайт из вебархива.
Особое внимание хотел бы обратить на следующую настройку. Этот параметр позволяет скачивать файлы из вебархива в несколько потоков. У меня сайт был на 6,2к файлов и я не воткнул этот параметр, прикиньте, сколько я ждал.
Потом я просто добавлял этот ключ и всё буквально летало, то есть так:
wayback_machine_downloader http://example.com --from 2020 --to 2021 --concurrency 20
Поставил 20 потоков.
После скачивания сайта из вебархива вы получаете просто-напросто целый ворох именно html-файлов со стилями, это и будет сайт. А чтобы натянуть сову на глобус это всё на какую-нибудь CMS, это уже совсем другой процесс. Можно парсингом (я использовал content downloader), либо плагин экспорта статей, по сути ничего сложного. Я так восстанавливал не один сайт.
Есть неочевидные фишки, которые мало кто знает, описал их в другой статье, которые кратно увеличат ваши шансы на наиболее полное скачивание сайта из web.archive.org.
Такие дела.
Кстати, можете писать мне в телегу, помогу выкачать сайт из вебархива, за 500 руб, по предоплате.
В общем, пробуйте. Пишите в комментарии о своих успехах.
Подскажите, пожалуйста, в чем может быть причина того, что не создается дефолтная папка websites? И с помощью команды –directory пробовала папку указывать – ни в какую. Качается в командной строке, все ок, а вот где… Не понятно.
Здравствуйте. Попробуйте глянуть в пути, который в приглашении в командной строке, типа C:\Windows\System32>