Как использовать Wayback Machine для архивации веб-сайтов

Мы воспринимаем Интернет и его богатство знаний как должное. Практически все доступно 24 часа в сутки, 7 дней в неделю одним нажатием кнопки. То есть - пока это не так. Веб-сайты могут обвалиться без промедления, их контент исчезнет навсегда.

Важно архивировать контент, который появляется в Интернете по разным причинам. Сохранение веб-сайтов - это способ сохранить человеческую культуру так же, как мы защищаем и храним книги или произведения искусства. Любопытство - важный стимул - в конце концов, современные дети не могли представить себе старую веб-страницу Geocities в своих самых смелых мечтах. Помимо общего любопытства, сохранение веб-сайтов может позволить нам вернуться к важной информации.

Очень удобно ссылаться на информацию, найденную в Интернете. Но что произойдет, если эта ссылка просто указывает на сообщение об ошибке 404? В 2013 году исследование Гарварда показало, что 49% веб-сайтов, упоминаемых в решениях Верховного суда США, теперь находятся в тупике. Как мы можем предотвратить исчезновение такой важной информации в виртуальном эфире?

путь назад-машина-404

К счастью, сотрудники The Internet Archive разработали инструмент, который может индексировать и архивировать веб-сайты. Они называют ее Wayback Machine, и она архивирует веб-сайты с 2001 года. На сегодняшний день Wayback Machine сохранила более 304 миллиардов веб-страниц.

Есть ряд причин, по которым можно было бы заархивировать веб-сайт. К счастью, с The Wayback Machine это очень просто. Вот способы, которыми вы можете использовать The Wayback Machine для всех ваших потребностей в архивировании веб-страниц.

Какие сайты внесены в каталог?

Wayback Machine автоматически архивирует многие популярные веб-сайты. Однако вы можете использовать Wayback Machine для ручного архивирования практически любой страницы. Веб-сайты часто забрасываются или полностью меняются, поэтому машина Wayback действует как способ сохранить культуру Интернета, сохраняя цифровую "твердую копию" веб-сайта. Имейте в виду, что текст и изображения остаются нетронутыми; однако некоторые исходящие ссылки и встроенные элементы (например, видео) - нет.

Важно отметить, что The Wayback Machine сканирует и архивирует только общедоступные сайты. Это означает, что сайты, защищенные паролем или расположенные на частных серверах, не могут быть заархивированы. Кроме того, если веб-сайт запрещает поисковым системам включать его в результаты поиска, Wayback Machine не сможет его заархивировать.

Как использовать Wayback Machine

Есть два метода, которые вы можете использовать для начала архивирования веб-сайтов. К счастью, оба они очень просты и не требуют каких-либо специальных знаний. Для начала поместите курсор перед URL-адресом в адресной строке браузера. Введите web.archive.org/save/ и нажмите Enter. На вашем экране должно появиться диалоговое окно, информирующее вас о том, что Wayback Machine сохраняет страницу.

путь назад-машина-сохранить-сейчас

Второй способ заархивировать веб-страницу - использовать веб-сайт архива Wayback Machine. Сначала перейдите на веб-страницу, которую вы хотите сохранить, и скопируйте URL-адрес. После этого перейдите на сайт архива Wayback Machine. В правой части этой страницы вы увидите заголовок с надписью "Сохранить страницу сейчас". Вставьте URL-адрес веб-страницы, которую вы хотите сохранить, в текстовое поле и нажмите кнопку "Сохранить страницу".

Независимо от того, какой метод вы используете, результат будет одинаковым. Имейте в виду, что сохранение страницы может занять некоторое время, поэтому наберитесь терпения и позвольте ему сделать свое дело.

Расширение браузера Wayback Machine

Wayback Machine также имеет официальное расширение для браузера Google Chrome. Использовать его для архивации веб-страниц очень просто. Просто перейдите на страницу, которую вы хотите заархивировать, щелкните значок Wayback Machine на панели инструментов и нажмите "Сохранить страницу сейчас".

Wayback-Machine-Google-Chrome

В дополнение к упрощению сохранения страниц в расширении браузера есть еще один изящный трюк. Вы когда-нибудь переходили по ссылке только для того, чтобы увидеть расплывчатое сообщение об ошибке 404? Независимо от того, является ли это ценным источником для вашей исследовательской работы или действительно хорошим рецептом, это может быть невероятно разочаровывающим. С установленным расширением Wayback Machine это разочарование могло превратиться в вздох облегчения. Когда ваш браузер заходит в тупик, расширение будет искать в архиве сохраненную копию на Wayback Machine. Если есть, он спросит вас, хотите ли вы посетить эту страницу.

Если вы не пользуетесь Chrome, не расстраивайтесь. Для Firefox доступно расширение Wayback Machine; тем не менее, эта работа все еще продолжается. Кроме того, есть планы разработать расширение для пользователей Safari.

Архив-Это

У вас или вашей организации есть веб-сайт, который нужно часто индексировать и архивировать? В таком случае ручное архивирование каждой отдельной веб-страницы с помощью описанных выше методов может быть невероятно утомительным и дорогостоящим. К счастью, Internet Archive предоставляет услугу под названием Archive-It, которая может автоматизировать процесс архивирования за вас.

путь назад-машина-архивить

Эта услуга платная; однако он может быть идеальным для тех, кто хочет создать резервную копию своего контента с менталитетом "установил и забыл". Просто укажите, какие страницы вы хотите сохранять и как часто. Эта платная подписка идеально подходит для тех, кто хочет регулярно сохранять свой веб-контент.

Вы используете Wayback Machine? Если да, то вы посещаете его просто для развлечения или считаете его полезным инструментом? Есть ли другие способы резервного копирования содержимого в Интернете? Дайте нам знать об этом в комментариях!

4 комментария

  1. Куда вы уходите, когда контент удаляется из Wayback Machine?
    Недавно я нашел старую радиопрограмму под названием Chickenman, которую я слушал на работе в 70-х годах, и я работал над эпизодами. Теперь он больше не доступен "из-за проблем с содержимым".


    Всегда загружайте контент, пока у вас еще есть возможность.

    1. Если вы перечитаете несколько первых абзацев, то увидите, где, как я думал, в этом нет необходимости. Урок выучен…

  2. Чтобы восстановить весь сайт с archive.org, вы также можете попробовать эту услугу - https://en.archivarix.com/

Комментарии закрыты.