Как добыть уникальный контент из вебархива

В сети есть масштабный проект, который, не получая с этого дохода, выполняет очень важную роль - сохраняет архивы сайтов , видео, аудио и печатной продукции.

Это - web.archive.org - глобальный проект с, казалось бы, невыполнимой миссией - создание архива всех сайтов, когда либо размещенных в интернете. Причем, сайты сохраняются не в виде скриншотов, а в виде полноценно работающих веб-страниц со всеми ссылками, картинками и стилевым оформлением (CSS) . Причем, для каждого сайта за время его существования в сети в этом архиве может накопиться и по несколько сотен копий, датированных разными этапами жизни ресурса.

Как можно использовать архив сайтов интернета

Чем же может быть полезен данный webarchive ?

  1. Во-первых, вы можете погрузиться в приятную ностальгию путешествуя по вашему сайту многолетней давности. Проследить историю изменений можно будет для любого другого ресурса интернета (в посте представлены скриншоты для статей про уже умерший Апорт именно из это вебархива, да и скриншоты, иллюстрирующие эволюцию главной страницы Яндекса , имеют тоже самое происхождение).
  2. Но это не все. Если страница добавленного вами в закладки сайта не открывается, то вы, конечно же, можете попробовать вытащить ее из кеша Яндекса или Гугла (читайте подробнее про то, как лучше искать в Google). Но если ресурс недоступен уже очень давно, то такие мертвые ссылки нигде кроме archive.org открыть уже будет не возможно (правда, и там его может не оказаться по описанным чуть ниже причинам).
  3. Так же, если вы по каким-либо фарс-мажорным обстоятельствам не делали бэкап (резервное копирование) вашего сайта , то данный web-archive будет единственной возможностью восстановить свой сайт . Имеется возможность очистить все ссылки от привязки к web.archive.org и сделать их прямыми именно для вашего ресурса (читайте об этом ниже).
  4. Ну, и последнее, что приходит в голову - поиск уникального контента . Если вы не способны сами создавать уникальный контента для сайта (писать статьи), то здесь вы сможете ими разжиться, правда, усилия приложить все равно придется. Суть такова, что многие сайты умирают и становятся недоступны вместе с имеющимся на них контентом.

    Отыскав такие ресурсы вы сможете вытащить тексты из интернет-архива и разместить их у себя, предварительно проверив их на уникальность . Таким образом вы не занимаетесь плагиатом и не нарушаете авторские права (копирайт) , но искать в вебархиве многим может показаться очень уж трудоемкой задачей.

Онлайн сервис Webarchive ведет свою историю аж с 1996 года. Поставленная перед проектом задача казалась невыполнимой даже с учетом того, что сайтов на то время в интернете было значительно меньше, чем сейчас (на несколько порядков). По началу, сайты архивировались не очень часто, но со временем, повышая мощности хранилищ, Веб-архив стал делать все больше и больше слепков сайтов.

Сам себя этот веб-архив занес в базу лишь в 1997 году и выглядела его главная страница тогда так:

Сейчас на все про все (включая аудио, видео и отсканированные книги) у этой некоммерческой организации задействовано дисковое пространство чудовищных размеров, измеряемое десяткой с пятнадцатью нулями байт. Сайт имеет зеркала в различных дата центрах, а сам проект с недавних пор получил официальный статус библиотеки. Если рассматривать только архив страниц сайтов, то их уже там насчитывается около ста миллиардов (тут учитываются все слепки страниц когда-либо снятые и сохраненные).


По архивам можно перемещаться и с помощью временной шкалы расположенной вверху страницы, где вертикальными черными черточками отмечены имеющиеся для этого сайта слепки. Иногда, веб-архивы могут быть битыми, тогда придется открыть ближайший к нему слепок.

Щелкнув по голубому кружочку мы можем увидеть ссылки на несколько архивов, отличающихся временем их снятия.

Возможно, что это делается во избежании потери данных за счет неизбежной порчи жестких дисков в хранилищах. Перейдя к просмотру одного из веб-архивов, вы увидите копию своего (в данном примере моего) сайта с работающими внутренними ссылками и подключенным стилевым оформлением. Правда, не идеально работающим.

Например, кое-что из дизайна у меня все же перекосило и боковое меню работающее на ДжаваСкрипте полностью исчезло:

Но это не столь важно, ибо в исходном коде страницы с web.archive.org это меню, естественно, присутствует. Однако, просто так скопировать текст этой страницы к себе на сайт взамен утерянной не получится. Почему? Да потому что путешествие внутри сайта из прошлого будет возможно лишь в случае замены всех внутренних ссылок на те, что генерит Webarchive (в противном случае вас перебросило бы на современную версию ресурса).

Понятно, что можно будет вручную отсечь вступительную часть ссылок (http://web.archive.org/web/20111013120145/), получив таким образом рабочий вариант. Можно этот процесс даже автоматизировать с помощью инструмента поиска и замены редактора Notepad , но еще проще будет воспользоваться встроенной в этот сервис возможностью замены внутренних ссылок на оригинальные .

Для этого копируете адрес страницы с нужным слепком вашего сайта (из адресной строки браузера - начинается с http://web.archive.org/). Он будет иметь примерно такой вид:

И вставляете в него конструкцию «id_» в конце даты (20111013120145), чтобы получилось так:

Теперь измененный адрес обратно возвращаете в адресную строку браузера и жмете на Enter. После этого страница c архивом вашего сайта обновится и все внутренние ссылки станут прямыми. Можно будет копировать текст статьи из исходного кода вебархива.

Понятно, что восстановление таким образом огромного сайта займет чудовищное количество времени, но когда другого варианта нет, то и такой покажется манной небесной. К тому же, страдают невозвратной потерей контента обычно только начинающие вебмастера, у которых этого самого контента было мало, а более-менее опытные сайтовладельцы, уж не раз обжигавшиеся на подобных вещах, делают бэкапы файлов и базы по пять раз на дню.

Если вы захотите увидеть все страницы вашего (или чужого) сайта, которые содержатся в недрах этого мастодонта, то вам нужно будет вставить в адресную строку браузера следующий адрес и нажать Enter:

Вместо моего домена можно использовать свой. На открывшейся странице вы получите возможность наложить фильтр в предназначенной для этого форме:

Как вытянуть из Webarchive уникальный контент для сайта

Описанный ниже способ лично я не использовал, но чисто теоретически все должно работать. Саму идею я почерпнул на этом молодом ресурсе , где и были описаны все шаги. Принцип метода состоит в том, что каждый день умирают и никогда не возрождаются десятки сайтов.

Причин этому может быть много и большинство из почивших в бозе ресурсов никакой особой ценности в плане контента никогда и не представляли. Но из всякого правила бывают исключения и нужно будет всего-навсего отделить зерна от плевел. Главное чтобы исчезнувшие сайты с более-менее удобоваримым контентом были бы представлены в Web Archive, хотя бы одной копией.

Т.к. после смерти контент этих сайтов постепенно выпадет из индекса поисковых систем, то взяв его из интернет-архива вы, по идее, станете его законным владельцем и первоисточником для поисковых систем. Замечательно, если будет именно так (есть вариант, что еще при жизни ресурса его нещадно могли откопипастить). Но кроме проблемы уникальности текстов, существует проблема их отыскания.

Во-первых, нам нужен список сайтов, которые скоро умрут или уже померли . Автор метода предлагает скачать с сайта регистратора доменных имен Nic.ru список освобождающихся или уже освободившихся доменов .

Что примечательно, в последней колонке этого списка (его можно открыть в Excel) будет отображаться количество архивов, созданных для каждого сайта в Web Archive (правда, проверить наличие домена в веб-архиве можно и в ряде онлайн сервисов, например, на этом или на этом).

Список буржуйских доменных имен, освобождающихся или уже освободившихся, предлагается скачать по этой ссылке . Ну, а дальше просматриваем содержимое сайтов, которое сохранил Web Archive и пытаемся найти что-то стоящее. Потом проверяем уникальность этих материалов (ссылку приводил чуть выше) и в случае удачи публикуем их на своем ресурсе, либо продаем в какой-нибудь бирже контента .

Да, способ муторный и мною лично не проверенный. Но, думаю, что при некоторой степени автоматизации и обмозговывания он может давать неплохой выхлоп. Наверное, кто-нибудь уже это поставил на поток. А вы как думаете?

Здравствуйте, уважаемые читатели блога сайт. Не так давно я писал про то, которая безусловно заслуживает всяких лестных эпитетов, несмотря на присущие ей небольшие недостатки и критику ее статей со стороны научного сообщества.

Сам факт того, что некоммерческий проект уже не одно десятилетие трудится на благо всего интернет сообщества, заслуживает огромного уважения. Но в сети есть еще подобный масштабный проект, который не получая с этого дохода выполняет очень важную роль — сохраняет архивы сайтов , видео, аудио и печатной продукции.

Что примечательно, в последней колонке этого списка (его можно открыть в Excel) будет отображаться количество архивов, созданных для каждого сайта в Web Archive (правда, проверить наличие домена в веб-архиве можно и в ряде онлайн сервисов, например, на этом или на этом).

Список буржуйских доменных имен, освобождающихся или уже освободившихся, предлагается скачать по этой ссылке . Ну, а дальше просматриваем содержимое сайтов, которое сохранил Web Archive и пытаемся найти что-то стоящее. Потом проверяем уникальность этих материалов (ссылку приводил чуть выше) и в случае удачи публикуем их на своем ресурсе, либо продаем в какой-нибудь .

Да, способ муторный и мною лично не проверенный. Но, думаю, что при некоторой степени автоматизации и обмозговывания он может давать неплохой выхлоп. Наверное, кто-нибудь уже это поставил на поток. А вы как думаете?

Удачи вам! До скорых встреч на страницах блога сайт

посмотреть еще ролики можно перейдя на
");">

Вам может быть интересно

Сравнение сайтов в SEObuilding.RU для бесплатного анализа потенциальных доноров при покупке ссылок
Бесплатный онлайн сервис по подбору красивых и свободных для регистрации доменов (Frishki.ru)
Фотостоки и фотобанки - 30 бесплатных легальных источников фотографий, изображений и иконок
SEObuilding.RU - комплектный бесплатный анализ сайтов с расчетом их траста, стоимости и многого другого
Проверка (анализ) сайта - 85 онлайн сервисов и программ

Февраль 16, 2015 16 комментариев

Для начала пару слов о WebArchive. Это глобальный архив интернет сайтов. Боты вебархива периодически обходят глобальную паутину и сохраняют на свои сервера все что смогли найти. Потом это все хранится для потомков 😉

Скачиваем список освобождающихся доменов в зоне.ru Можно брать и другие зоны, но там не так много доменов…

Полученный файл открываем с помощью Excel и жмем «ctrl+F», в поиске вводим ключевое слово, в моем примере это «Forex».

Нажали «найти все» и перед нами появился список нужных ячеек

Теперь нужно получить из этого списка сайты в архиве.

Вот и все, найденные страницы в вебархиве, через сервис или программу, мы мониторим уже глазками и ищем в куче файлов страницу со статьями или главную. Обязательно проверяйте домен на работоспособность, так как владельцы могли уже успеть продлить его.

Сервис показывает количество документов в вебархиве, цифры ниже 10 нас не интересуют. Старайтесь проверять как можно бОльшие цифры. К примеру, недавно я нашел сайт в вебархиве, нужной мне тематики, с 22000 документов, ох я и накопал оттуда хороших статеек!

Вот так выглядят файлы в вебархиве.

Стараемся попасть на сайте на главную страницу или найти карту сайта. Далее методично открываем статьи и проверяем их на уникальность. Я делаю это антиплагиатором от eTXT.

Второй способ, которым ищу именно я. Суть остается прежней, просто я беру домены .

Самый жирный плюс этого сервиса в том, что мы можем пройтись по разным датам, а не качать домены освобождающиеся только в один день. Чем дальше по датам мы уходим, тем больше вероятность того, что домены не продлили.

В это сервисе все проще — выбираем дату, жмем Ctrl+A — копируем все что есть на странице и вставляем в NotePad++, так же жмем Ctrl+F и вводим нужный нам ключ и жмем — Найти ВСЕ в текущем документе.

После поиска это выглядит так:

Вот и все =) Советую вам не париться с эксель и работать в нотпаде, а так же юзать сервис доменов по датам. Данным способом я нашел больше сотни отличных и уникальных статей на нужную мне тематику. На эти статьи, если бы я их заказал, у меня бы ушла не одна тысяча рублей… Всем благ и большого профита!

Знаменитый Веб Архив (archive.org, web.archive.org) – некоммерческая онлайн библиотека, включающая в себя 85 миллиардов веб-страниц, графические материалы, а также видео и аудио, была создана с целью хранения и архивирования имеющей ценность информации, которая доступна для изучения и скачивания всем желающим.

Несмотря на то, что большинство пользователей знает об этом web-ресурсе лишь понаслышке, данный сервис является крайне интересным и полезным для тех, кто хотя бы немного интересуется историей и развитием интернета.

К сожалению, большинство web-мастеров и seo-оптимизаторов рассматривают archive.org исключительно как источник бесплатного контента для автоматического наполнения своих «сайтов» или же для возрождения старых проектов с целью дальнейшей продажи на них ссылок в биржах. В действительности же, информация, которую можно найти в Веб Архиве может быть интересна не только создателям сателлитов и сплогов. Archive.org хранит в себе массу полезных сведений, определенной части которых уже нет в интернете.

В данной статье вы рассмотрим, чем именно Веб архив может быть полезен web-мастеру, seo-оптимизатору и даже копирайтеру.

Archive.org или архив интернета: The Wayback Machine

Одним из основных сервисов Веб Архива является The Wayback Machine, представляющий собой огромный архив сохраненных страниц, которые были обнаружены ботом в то или иное время. В результате копия каждого сохраненного сайта хранится в веб архиве в нескольких экземплярах, что позволяет увидеть, как выглядел тот или иной web-ресурс в определенный период времени.

Работа бота The Wayback Machine не подчиняется никаким правилам, поэтому, просматривая хранящиеся там страницы можно легко столкнуться с тем, что некоторые сайты сохранены только частично, и самая интересная их часть осталась не проиндексированной, тогда как в архиве сохранились только служебные страницы (карта сайта, календарь, списки последних статей). Кроме того, в Веб архиве имеется множество страниц, сохраненных в момент, когда сайт был недоступен, взломан или закрыт на техническое обслуживание. Поэтому в Веб Архиве, к сожалению, имеется множество страниц, сохранившихся в виде заглушки.

Некоторые сайты имеют в архиве несколько копий за каждый год, что позволяет просмотреть историю изменений ресурса, другие проекты и вовсе не попадают в базу. Таким образом, предсказать, в каком виде сохранен в web.archive.org тот или иной сайт, невозможно – каждый ресурс следует просматривать отдельно.

Поиск по столь огромной базе страниц возможен только по названию домена. Для этого откройте адрес http://archive.org/web/, введите искомый домен в поисковую строку и нажмите кнопку BROWSE HISTORY.

Перед вами откроется страница с календарем, где вы можете выбрать наиболее интересную вам дату скриншота документа и, кликнув по ней, посмотреть, как выглядел сайт несколькими годами ранее.

Запретить сканирование web-сайта боту The Wayback Machine можно при помощи команды в robots.txt.

User-agent: ia_archiver
Disallow: /

Для чего нужен web.archive.org?

В первую очередь, Веб Архив предназначен для пользователей, которые хотят просмотреть информацию с «мертвого» web-сайта, пропавшего из Сети по тем или иным причинам. В некоторых случаях web.archive.org помогает даже восстановить проект, который был утерян из-за не продленного во время хостинга или домена.

Нередко посетители, привыкшие к общению и обмену информацией на определенном сайте, сами восстанавливают полюбившийся ресурс на новом домене, копируя туда статьи из архива.

Кроме того, Веб Архив – это прекрасная возможность изучения истории того или иного сайта или домена. Иногда в истории web.archive.org сохраняются поистине удивительные «приключения» домена, когда за время его существования на нем несколько раз создается новый web-проект совершенно новой тематики.

Некоторые web-мастера считают Веб Архив удивительным по своей легкости и доступности сервисом для заработка, ведь хранящийся там контент не только уникален, но и бесплатен.

Итак, как заработать с помощью web.archive.org?

  1. Зарегистрировать освободившийся домен с тИЦ и PR и залить на него спарсенный из Веб Архива сайт, находящийся на нем когда-то.
  2. Использовать найденный уникальный контент для наполнения MFA, сплогов и даже СДЛ. Кроме того, найденные тексты можно использовать для размещения через биржи статей с целью продвижения вашего сайта.
  3. И наконец, самый простой способ – продать найденные уникальные статьи на биржах текстов, выдав их за свои.

Важно. Многие web-мастера, не желающие иметь проблем, связанных с нарушением авторского права, почему-то уверены в том, что парсинг Веб Архива является абсолютно безопасным. Дескать, если сайт умер, то принадлежность размещенных на нем когда-то статей доказать невозможно. Однако не стоит забывать, что на найденном в archive.org «мертвом» сайте также могут находиться отсканированные статьи, принадлежащие конкретному автору, который при необходимости сможет легко доказать, что размещенные на вашем сайте статьи – не ваши. Поэтому будьте крайне внимательны и осторожны.

Как искать уникальный контент в Веб архиве: поиск «мертвых» сайтов

Основной вопрос новичков, которые собираются парсить уникальный контент из Веб архива: где находить адреса доменов, где когда-то располагались web-проекты с качественными и интересными статьями? Однозначного ответа на этот вопрос не существует, особенно если учесть, что Веб Архив ежедневно изучают сотни web-мастеров, ищущих ту самую «золотую жилу» - страницы с уникальными и интересными текстами, в результате чего хранящиеся в web.archive.org статьи быстро распространяются по Сети.

Приведем лишь несколько способов искать домены в Веб Архиве, каждый из которых имеет свои преимущества и недостатки.

Анализ списка освобождающихся доменов

Скачиваем список освобождающихся доменных имен со страницы https://www.nic.ru/auction/forbuyer/download_list.shtml. Открываем файл формата. TSV в Excel или любой другой аналогичной программе. Находим там домены, которые, предположительно, могут быть нам интересны. К примеру, имена, в состав которых входит слово seo, скорее всего, использовались для создания блога о раскрутке сайтов. Проверять все домены из списка подряд, не имея соответствующего софта, бессмысленно, так как это приведет к значительным потерям времени. Гораздо менее затратным будет даже самостоятельное написание статей, а не их поиск.

К недостаткам этого способа относится его значительные временные затраты: на изучение большого количества доменов может уйти немало времени.

Анализ конкурентных ресурсов

Неплохим решением может быть специальное отслеживание ряда конкурентных сайтов, которые по своим признакам и параметрам являются явными кандидатами попадания под фильтр АГС. К примеру, вы можете спарсить выдачу Google по важному для вас запросу, а затем вручную просмотреть сайты конкурентов. Если на этих проектах активно размещаются вечные внешние ссылки, в результате чего сайт быстро заспамливается, это явный признак того, что в скором времени владелец откажется от своего сайта, просто не продлив домен. Весь контент этого сайта в скором времени вылетит из индекса.

Способ подходит лишь тем, кто не жалеет времени на анализ конкурентных ресурсов.

Изучение старых каталогов ссылок и статей

Хороший список «мертвых» ресурсов можно найти в старых каталогах ссылок, прогон по которым осуществлялся несколько лет назад. Способ несколько нудный и муторный, зато позволяет быстро находить сайты определенной тематики.

The Wayback Machine: стоит ли овчинка выделки

Как видим, поиск уникального контента в Веб Архиве может потребовать у вас немало времени. Скорее всего, затраченное время намного выгодней было бы потратить на написание или заказ статей. Поиск в web.archive.org можно порекомендовать лишь тем, кто или твердо знает, что именно он ищет (читай: имеет список конкретных «мертвых» сайтов, которые хочет проверить), либо тем, кто испытывает культурологическое удовольствие от изучения сайтов прошлых лет.

Не забудьте и о том, что в случае вашего небрежного отношения к сайту и его техническому обеспечению, благодаря Веб Архиву, и ваш ресурс может возродиться под чужим руководством, спустя некоторое время после "виртуальной" смерти.

Архив интернета (Internet Archive) - онлайн сервис, архив сайтов интернета, в котором собрано огромное количество веб-страниц, сохраненных с сайтов со всего мира. Организация под названием Internet Archive была создана в 1996 году в Сан-Франциско.

Это универсальная электронная библиотека, в которой сохранены копии страниц сайтов в интернете, в архиве есть видео, аудио, софт, текстовые, графические материалы. Свободный доступ к содержимому веб архива интернета открыт для всех пользователей.

Начиная с 1996 года по настоящее время на сайте archive.org собрано более 466 миллиардов веб-страниц (эта цифра все время увеличивается). Архив страниц интернета создан для сохранения, ознакомления и изучения имеющей информации, которая накопилась за все эти годы во всемирной сети.

Время от времени, специальные роботы, принадлежащие сервису, индексируют содержание практически всех сайтов в интернете. Следует принять во внимание, что во время обхода робота для индексации сайтов, на некоторых сайтах могли возникать внутренние проблемы: сайт, или некоторые страницы сайта были недоступны, сайт находился на техобслуживании, не работали подключаемые внешние элементы и т. д. Поэтому некоторые архивы сайтов будут полными, а некоторые снимки (архивы) могут содержать только частичную информацию. Имейте в виду, что некоторые сайты индексируются часто, другие сайты, наоборот, довольно редко.

Для просмотра веб-страниц используется онлайн сервис The Wayback Machine. В Internet Archive доступны для просмотра не только действующие в настоящий момент сайты, но и сайты, которые уже не существуют. С помощью архива интернета можно побывать на прекративших существование сайтах, и ознакомится с содержимым веб-страниц удаленных сайтов.

Благодаря замечательному архиву сайтов интернета можно проследить историю изменений, как изменялся внешний облик сайта и его содержимое с течением времени, использовать архивы для восстановления сайта, искать необходимую информацию.

На главной странице сайта archive.org можно получить доступ к архивным данным, которые сгруппированы в тематические разделы, или сразу перейти на страницу сервиса Wayback Machine.

Поиск сайтов в Wayback Machine

Для поиска архивов нужных сайтов, перейдите по ссылке на страницу онлайн сервиса Wayback Machine.

На странице «Internet Archive Wayback Machine» введите в поле поиска URL адрес сайта, а затем нажмите на кнопку «BROWSE HISTORY».

Под полем поиска находится информация об общем количестве созданных архивов для данного сайта за определенный период времени. На шкале времени по годам отображено количество сделанных архивов сайта (снимков сайта может быть много, или, наоборот, мало).

Выделите год, в центральной части страницы находится календарь, в котором выделены голубым цветом даты, когда создавались архивы сайта. Далее нажмите на нужную дату. Обратите внимание, что при подведении курсора мыши отобразится время создания снимка. Если снимков несколько, вы можете открыть любой из архивов. Сайт будет открыт в том состоянии, которое у него было на момент создания архива.

За время существования моего сайта, у него было только два шаблона (темы оформления). На этом изображении вы можете увидеть, как выглядел мой сайт в первой теме оформления.

На этом изображении вы видите сайт моего знакомого, Алема из Казахстана. Данного сайта уже давно нет в интернете, поисковые системы не обнаруживают этот сайт, но благодаря архиву интернета все желающие могут получить доступ к содержимому удаленного сайта.

Выводы статьи

Internet Archive Wayback Machine - онлайн сервис, сохраняющий веб-страницы в интернете. С помощью международного интернет архива можно получить доступ к архивам сайтов, созданных в разное время. Сайт откроется в том состоянии, которое у него было на дату создания архива. Для просмотра будут доступны существующие и удаленные сайты.

  • Сергей Савенков

    какой то “куцый” обзор… как будто спешили куда то