Что такое поисковый робот? Функции поискового робота "Яндекса" и Google. Роботы Google Все роботы яндекса
Роботы-пауки у поисковых машин - это интернет-боты, в задачу которых входит систематический просмотр страниц в World Wide Web для обеспечения веб-индексации. Традиционно сканирование WWW-пространства осуществляется для того, чтобы обновить информацию о размещенном в сети контенте с целью предоставления пользователям актуальных данных о содержимом того или иного ресурса. О типах поисковых роботов и их особенностях и будет идти речь в данной статье.
Поисковые пауки могут именоваться еще и по-другому: роботы, веб-пауки, краулеры. Однако независимо от названия, все они заняты постоянным и непрерывным изучением содержимого виртуального пространства. Робот сохраняет список URL-адресов, документы по которым загружаются на регулярной основе. Если в процессе индексации паук находит новую ссылку, она добавляется в этот список.
Таким образом, действия краулера можно сравнить с обычным человеком за браузером. С тем лишь отличием, что мы открываем только интересные нам ссылки, а робот - все, о которых имеет информацию. Кроме того, робот, ознакомившись с содержимым проиндексированной страницы, передает данные о ней в специальном виде на сервера поисковой машины для хранения до момента запроса со стороны пользователя.
При этом каждый робот выполняет свою определенную задачу: какие-то индексируют текстовое содержимое, какие-то - графику, а третьи сохраняют контент в архиве и т.д.
Главная задача поисковых систем - создание алгоритма, который позволит получать информацию о быстро и наиболее полно, ведь даже у гигантов поиска нет возможностей обеспечить всеобъемлющий процесс сканирования. Поэтому каждая компания предлагает роботам уникальные математические формулы, повинуясь которым бот и выбирает страницу для посещения на следующем шаге. Это, вкупе с алгоритмами ранжирования, является одним из важнейших критериев по которым пользователи выбирают поисковую систему: где информация о сайтах более полная, свежая и полезная.
Робот-поисковик может не узнать о вашем сайте, если на него не ведут ссылки (что возможно редко - сегодня уже после регистрации доменного имени упоминания о нем обнаруживаются в сети). Если же ссылок нет, необходимо рассказать о нем поисковой системе. Для этого, как правило, используются «личные кабинеты» веб-мастеров.
Какая главная задача поисковых роботов
Как бы нам ни хотелось, но главная задача поискового робота состоит совсем не в том, чтобы рассказать миру о существовании нашего сайта. Сформулировать ее сложно, но все же, исходя из того, что поисковые системы работают лишь благодаря своим клиентам, то есть пользователям, робот должен обеспечить оперативный поиск и индексацию размещенных в сети данных . Только это позволяет ПС удовлетворить потребность аудитории в актуальной и релевантной запросам выдаче.
Конечно, роботы не могут проиндексировать 100% веб-сайтов. Согласно исследованиям, количество загруженных лидерами поиска страниц не превышает 70% от общего числа URL, размещенных в интернете. Однако то, насколько полно ваш ресурс изучен ботом, повлияет и на количество пользователей, перешедших по запросам из поиска. Поэтому и мучаются оптимизаторы в попытках «прикормить» робота, чтобы как можно быстрее знакомить его с изменениями.
В Рунете Яндекс лишь в 2016 году подвинулся на вторую строчку по охвату месячной аудитории, уступив Google. Поэтому не удивительно, что у него наибольшее количество пауков, изучающих пространство, среди отечественных ПС. Перечислять их полный список бессмысленно: его можно увидеть в разделе «Помощь вебмастеру» > Управление поисковым роботом > Как проверить, что робот принадлежит Яндексу.
Все краулеры поисковика обладают строго регламентированным user-agent. Среди тех, с которыми обязательно придется встретиться сайтостроителю:
- Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) - основной индексирующий бот;
- Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) - индексирующий паук;
- Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) - бот Яндекс.Картинок;
- Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) - индексирует мультимедийные материалы;
- Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) - индексирует иконки сайтов.
Чтобы привлечь на свой сайт пауков Яндекса, рекомендуется выполнить несколько простых действий:
- правильно настроить robots.txt;
- создать RSS-фид;
- разместить sitemap с полным списком индексируемых страниц;
- создать страницу (или страницы), которые будут содержать ссылки на все документы ресурса;
- настроить HTTP-статусы;
- обеспечить социальную активность после публикации материалов (причем не только комментарии, а расшаривание документа);
- интенсивное размещение новых уникальных текстов.
В пользу последнего аргумента говорит способность ботов запоминать скорость обновления контента и приходить на сайт с обнаруженной периодичностью добавления новых материалов.
Если же вы хотели бы запретить доступ краулерам Яндекса к страницам (например, к техническим разделам), требуется настроить файл robots.txt. Пауки ПС способны понимать стандарт исключений для ботов, поэтому сложностей при создании файла обычно не появляется.
User-agent: Yandex
Disallow: /
запретит ПС индексировать весь сайт.
Кроме того, роботы Яндекса умеют учитывать рекомендации, указанные в мета-тегах. Пример: запретит демонстрацию в выдаче ссылки на копию документа из архива. А добавление в код страницы тега укажет на то, что данный документ не нужно индексировать.
Полный список допустимых значений можно найти в разделе «Использование HTML-элементов» Помощи вебмастеру.
Роботы поисковики Google
Основной механизм индексации контента WWW у Google носит название Googlebot. Его механизм настроен так, чтобы ежедневно изучать миллиарды страниц с целью поиска новых или измененных документов. При этом бот сам определяет, какие страницы сканировать, а какие - игнорировать.
Для этого краулера важное значение имеет наличие на сайте файла Sitemap, предоставляемого владельцем ресурса. Сеть компьютеров, обеспечивающая его функционирование настолько мощна, что бот может делать запросы к страницам вашего сайта раз в пару секунд. А настроен бот так, чтобы за один заход проанализировать большее количество страниц, чтобы не вызывать нагрузку на сервер. Если работа сайта замедляется от частых запросов паука, скорость сканирования можно изменить, настроив в Search Console. При этом повысить скорость сканирования, к сожалению, нельзя.
Бота Google можно попросить повторно просканировать сайт. Для этого необходимо открыть Search Console и найти функцию Добавить в индекс, которая доступна пользователям инструмента Просмотреть как Googlebot. После сканирования появится кнопка Добавить в индекс. При этом Google не гарантирует индексацию всех изменений, поскольку процесс связан с работой «сложных алгоритмов».
Полезные инструменты
Перечислить все инструменты, которые помогают оптимизаторам работать с ботами, достаточно сложно, поскольку их масса. Кроме упомянутого выше «Посмотреть как Googlebot», стоит отметить анализаторы файлов robots.txt Google и Яндекса, анализаторы файлов Sitemap, сервис «Проверка ответа сервера» от российской ПС. Благодаря их возможностям, вы будете представлять, как выглядит ваш сайт в глазах паука, что поможет избежать ошибок и обеспечить наиболее быстрое сканирование сайта.
маркетинга и сервисная программа торговли ссылками в Интернете, которая не имеет себе конкурентов по качеству, многофункциональности и характеристикам – Zeus – это лучшая программа Интернет маркетинга. ... Наш опциональный zSearch превращает Zeus в полноценную поисковую систему.
Он действует как робот поисковых машин (Googlebot, MSNBot, WISENutbot, Alexa, и др. ... Fast Link Checker игнорирует все Gopher, News and mailto: ссылки. ... Fast Link Checker поддерживает HTTP, HTTPS, и SOCKS прокси-сервера. ... В программе Fast Link Checker реализован многопотоковый алгоритм работы с файлами, это обеспечивает одновременную загрузку и проверку сразу нескольких страниц,...
Оптимизированный ASP сценарий обмена ссылками веб директории от Pro Data Doctor – это дружественная поисковая система и данный сценарий был разработан в соответствии с требованиями оптимизации SEO по поисковым системам. ... - Код поддерживает сохранение неограниченного количества обратных ссылок, что увеличивает ваш рейтинг в поисковых системах.
Включает персонального поискового робота для автоматического поиска тем в Интернете для вас. ... Распределяйте ваши знания, используя поискового бота. ... My SearchBot найдет вам все, что можно просмотреть, сохранить и потом распределить по папкам. ... Включая встроенный брандмауэр и программу безопасности – данная программа защитит вас от всех возможных угроз одним щелчком.
Функционал: статистика в реальном времени; 64 отчета (14 бесплатно); загрузки файлов; роботы ; статистика RSS-каналов; ссылки; поисковые фразы; сегментация аудитории сайта; метрика конверсии посетителей; страны, регионы, города, организации; метрика веб-сервера; многопользовательский режим; супер-компактная база данных; платформо-независимость; бесплатная версия; и многое другое.
Txt Generator: - Поддержка до 300 Роботов и Поисковых агентов. ... - Неограниченное количество комбинаций для управления Роботом . ... - WYSIWYG выборка исключения Роботов и файла/директории. ... - Автоматическая загрузка на web-сервер. ... - Неограниченное количество проектов и web-сайтов. ... - Документация в режиме онлайн или оффлайн.
С помощью IIS Mod-Rewrite Pro вы можете манипулировать URL на лету, создавать ваши собственные поисковые системы веб-сайта, делать перенаправления, блокировать определенные URL, блокировать раздражительные роботы и многое другое. ... Также программа выходит с богатой функцией панелью управления, которая включает онлайн обновления, возвраты версии, диагностику, тестер regex и множество других...
Web Log Suite также позволяет вам фильтровать посещения роботов поисковых систем. ... Данная программа будет предоставлять вам информацию о посетителях веб сайтов, статистику деятельности, статистику доступа к файлам, информацию о обращающихся страницах, поисковых системах, ошибках, странах посетителей, обращающихся веб сайтах, вы сможете получить информацию о поисковых словах и фразах и...
Его работа заключается в тщательном анализе содержимого страниц представленных в Интернете сайтов и отправке результатов анализа в поисковой системы.
Новые страницы поисковый робот некоторое время обходит, но в дальнейшем они индексируются и при отсутствии каких-либо санкций со стороны поисковых систем могут отображаться в результатах поиска.
Принцип действия
Действие поисковых роботов основано на том же принципе, что и работа обыкновенного браузера. Посещая тот или иной сайт, они обходят часть его страниц или все страницы без исключения. Полученную информацию о сайте они отправляют в поисковый индекс. Эта информация появляется в поисковой выдаче, соответствующей тому или иному запросу.
Из-за того, что поисковые роботы могут посещать только часть страниц, с индексацией больших сайтов могут возникать проблемы. Такие же точно проблемы могут возникать из-за низкого качества .
Перебои в его работе делают часть страниц недоступными для анализа. Важную роль в оценке сайта поисковыми роботами играет правильно составленная и грамотно настроенный файл robots.txt.
Глубина сканирования ресурса и периодичность обхода сайтов поисковыми роботами зависит от:
- Алгоритмов работы поисковых систем.
- Частоты обновления сайтов.
- Структуры сайтов.
Поисковый индекс
База данных с информацией, которую собирают поисковые роботы, называется поисковым индексом. Эта база используется поисковыми системами для формирования результатов выдачи по конкретным .
В индекс заносится не только информация о сайтах: поисковые роботы способны распознавать изображения, мультимедиа файлы и документы в различных электронных форматах (.docx, .pdf и др).
Один из самых активных поисковых роботов системы Яндекс – быстробот. Он постоянно сканирует новостные ресурсы и другие часто обновляемые сайты. , который не замечен быстроботом, не имеет смысла.
Привлечь его можно с помощью специальных инструментов, причем действенны они для сайтов самого разного назначения. Для проверки сайтов на доступность, для анализа отдельных их характеристик, для индексации картинок и документов в поисковых системах есть отдельные роботы.
Иногда роботы могут маскироваться под роботов Яндекса путем указания соответствующего User-agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS-запросах (reverse DNS lookup).
Для этого необходимо выполнить следующее:
Удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS-запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.
- Вопросы и ответы
По IP-адресу определите доменное имя хоста с помощью обратного DNS-запрос.
Проверьте, принадлежит ли хост Яндексу. Имена всех роботов Яндекса заканчиваются на сайт , yandex.net или yandex.com . Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.
Роботы Яндекса в логах сервера
Некоторые роботы Яндекса скачивают документы не для их последующей индексации, а для других специфичных целей. Для избежания непреднамеренной блокировки владельцами сайтов они могут не учитывать ограничивающие директивы файла robots.txt , предназначенным для произвольных роботов (User-agent: * ).
Также частичное игнорирование ограничений robots.txt определенных сайтов возможно при наличии соответствующей договоренности между компанией «Яндекс» и владельцами этих сайтов.
Примечание. Если такой робот скачает документ, не доступный основному роботу Яндекса, этот документ никогда не будет проиндексирован и не попадет в поисковую выдачу.
Чтобы ограничить доступ таких роботов к сайту, используйте директивы специально для них, например:
User-agent: YandexCalendar\nDisallow: /\n\nUser-agent: YandexMobileBot\nDisallow: /private/*.txt$
Роботы используют множество IP-адресов, которые часто меняются. Поэтому их список не разглашается.
Полное имя робота, включая User agent | Назначение робота | Учитывает общие правила, указанные в robots.txt |
---|---|---|
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots) | Скачивает страницы для проверки их доступности пользователям. Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует и директиву Crawl-delay . | Нет |
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) | Робот Рекламной сети Яндекса . | Да |
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) | Робот поиска по блогам , индексирующий комментарии постов. | Да |
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) | Основной индексирующий робот. | Да |
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) | Определяющий зеркала сайтов. | Да |
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) | Робот Яндекс.Календаря . Скачивает файлы календарей по инициативе пользователей, которые часто располагаются в запрещенных для индексации каталогах. | Нет |
Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) | Используется для временного снятия с публикации недоступных сайтов в Яндекс.Каталоге . | Да |
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) | Скачивает информацию о контенте сайтов-партнеров Рекламной сети Яндекса, чтобы уточнить их тематику для подбора релевантной рекламы. | Нет |
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots | Генерирует динамические баннеры. | Нет |
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) | Скачивает файл фавиконки сайта для отображения в результатах поиска. | Нет |
Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) | Скачивает целевые страницы рекламных объявлений для проверки их доступности и уточнения тематики. Это необходимо для размещения объявлений в поисковой выдаче и на сайтах-партнерах. | Нет. Робот не использует файл robots.txt |
Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots) | Робот почты для домена , используется при проверке прав на владение доменом. | Да |
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) | Индексирует изображения для показа на Яндекс.Картинках . | Да |
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) | Робот мобильных сервисов. | Да |
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) | Индексирующий робот. | Да |
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) | Определяет страницы с версткой, подходящей под мобильные устройства. | Нет |
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) | Робот Яндекс.Маркета . | Да |
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) | Индексирует мультимедийные данные. | Да |
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) | Робот Яндекс.Метрики | Нет |
Mozilla/5.0 (compatible; YandexMetrika/4.0; +http://yandex.com/bots) | Робот Яндекс.Метрики . Скачивает и кэширует CSS-стили для воспроизведения страниц сайта в Вебвизоре . | Нет. Робот не использует файл robots.txt , поэтому игнорирует директивы, установленные для него. |
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots yabs01) | Скачивает страницы сайта для проверки их доступности, в том числе проверяет целевые страницы объявлений Яндекс.Директа. | Нет. Робот не использует файл robots.txt , поэтому игнорирует директивы, установленные для него. |
Mozilla/5.0 (compatible; YandexNews/4.0; +http://yandex.com/bots) | Робот Яндекс.Новостей | Да |
Mozilla/5.0 (compatible; YandexOntoDB/1.0; +http://yandex.com/bots) | Робот объектного ответа . | Да |
Mozilla/5.0 (compatible; YandexOntoDBAPI/1.0; +http://yandex.com/bots) | Робот объектного ответа , скачивающий динамические данные. | Нет |
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots) | Обращается к странице при валидации микроразметки через форму Валидатор микроразметки . | Да |
Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots) | Скачивает YML-файлы каталогов товаров (по инициативе пользователей), которые часто располагаются в запрещенных для индексации каталогах. | Нет |
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) | Проверяет доступность страниц, которые используются в качестве быстрых ссылок . | Да |
Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots) | Робот Яндекс.Справочника . | Да |
Mozilla/5.0 (compatible; YandexTurbo/1.0; +http://yandex.com/bots) | Обходит RSS-канал, созданный для формирования Турбо-страниц . Его максимальная частота обращений к сайту составляет 3 обращения в секунду. Робот игнорирует настройку в интерфейсе Яндекс.Вебмастера и директиву Crawl-delay . | Да |
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) | Робот поисковых вертикалей. | Да |
Mozilla/5.0 (compatible; YandexVerticals/1.0; +http://yandex.com/bots) | Робот Яндекс.Вертикалей: Авто.ру , Янекс.Недвижимость , Яндекс.Работа , Яндекс.Отзывы. | Да |
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) | Яндекс.Видео . | Да |
Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots) | Индексирует видео для показа на |
Просматривая логи сервера, иногда можно наблюдать чрезмерный интерес к сайтам со стороны поисковых роботов. Если боты полезные (например, индексирующие боты ПС) — остается лишь наблюдать, даже если увеличивается нагрузка на сервер. Но есть еще масса второстепенных роботов, доступ которых к сайту не обязателен. Для себя и для вас, дорогой читатель, я собрал информацию и переделал ее в удобную табличку.
Кто такие поисковые роботы
Поисковый бот , или как еще их называют, робот, краулер, паук — ни что иное, как программа, которая осуществляет поиск и сканирование содержимого сайтов, переходя по ссылкам на страницах. Поисковые роботы есть не только у поисковиков. Например, сервис Ahrefs использует пауков, чтобы улучшить данные по обратным ссылкам, Facebook осуществляет веб-скраппинг кода страниц для отображения репостов ссылок с заголовками, картинкой, описанием. Веб-скраппинг — это сбор информации с различных ресурсов.
Использование имен пауков в robots.txt
Как видим, любой серьезный проект, связанный с поиском контента, имеет своих пауков. И иногда остро стоит задача ограничить доступ некоторым паукам к сайту или его отдельным разделам. Это можно сделать через файл robots.txt в корневой директории сайта. Подробнее про настройку роботса я писал ранее, рекомендую ознакомиться.
Обратите внимание — файл robots.txt и его директивы могут быть проигнорированы поисковыми роботами. Директивы являются лишь рекомендациями для ботов.
Задать директиву для поискового робота можно, используя секцию — обращение к юзер-агенту этого робота. Секции для разных пауков разделяются одной пустой строкой.
User-agent: Googlebot Allow: /
User - agent : Googlebot Allow : / |
Выше приведен пример обращения к основному поисковому роботу Google.
Изначально я планировал добавить в таблицу записи о том, как идентифицируют себя поисковые боты в логах сервера. Но так как для SEO эти данные имеют мало значения и для каждого токена агента может быть несколько видов записей, было решено обойтись только названием ботов и их предназначением.
Поисковые роботы G o o g l e
User-agent | Функции |
---|---|
Googlebot | Основной краулер-индексатор страниц для ПК и оптимизированных для смартфонов |
Mediapartners-Google | Робот рекламной сети AdSense |
APIs-Google | Агент пользователя APIs-Google |
AdsBot-Google | Проверяет качество рекламы на веб-страницах, предназначенных для ПК |
AdsBot-Google-Mobile | Проверяет качество рекламы на веб-страницах, предназначенных для мобильных устройств |
Googlebot-Image (Googlebot) | Индексирует изображения на страницах сайта |
Googlebot-News (Googlebot) | Ищет страницы для добавления в Google Новости |
Googlebot-Video (Googlebot) | Индексирует видеоматериалы |
AdsBot-Google-Mobile-Apps | Проверяет качество рекламы в приложениях для устройств Android, работает по тем же принципам, что и обычный AdsBot |
Поисковые роботы Я ндекс
User-agent | Функции |
---|---|
Yandex | При указании данного токена агента в robots.txt, обращение идет ко всем ботам Яндекса |
YandexBot | Основной индексирующий робот |
YandexDirect | Скачивает информацию о контенте сайтов-партнеров РСЯ |
YandexImages | Индексирует изображения сайтов |
YandexMetrika | Робот Яндекс.Метрики |
YandexMobileBot | Скачивает документы для анализа на наличие верстки под мобильные устройства |
YandexMedia | Робот, индексирующий мультимедийные данные |
YandexNews | Индексатор Яндекс.Новостей |
YandexPagechecker | Валидатор микроразметки |
YandexMarket | Робот Яндекс.Маркета; |
YandexCalenda | Робот Яндекс.Календаря |
YandexDirectDyn | Генерирует динамические баннеры (Директ) |
YaDirectFetcher | Скачивает страницы с рекламными объявлениями для проверки их доступности и уточнения тематики (РСЯ) |
YandexAccessibilityBot | Cкачивает страницы для проверки их доступности пользователям |
YandexScreenshotBot | Делает снимок (скриншот) страницы |
YandexVideoParser | Паук сервиса Яндекс.Видео |
YandexSearchShop | Скачивает YML-файлы каталогов товаров |
YandexOntoDBAPI | Робот объектного ответа, скачивающий динамические данные |
Другие популярные поисковые боты
User-agent | Функции |
---|---|
Baiduspider | Спайдер китайского поисковика Baidu |
Cliqzbot | Робот анонимной поисковой системы Cliqz |
AhrefsBot | Поисковый бот сервиса Ahrefs (ссылочный анализ) |
Genieo | Робот сервиса Genieo |
Bingbot | Краулер поисковой системы Bing |
Slurp | Краулер поисковой системы Yahoo |
DuckDuckBot | Веб-краулер ПС DuckDuckGo |
facebot | Робот Facebook для веб-краулинга |
WebAlta (WebAlta Crawler/2.0) | Поисковый краулер ПС WebAlta |
BomboraBot | Сканирует страницы, задействованные в проекте Bombora |
CCBot | Краулер на основе Nutch, который использует проект Apache Hadoop |
MSNBot | Бот ПС MSN |
Mail.Ru | Краулер поисковой системы Mail.Ru |
ia_archiver | Скраппит данные для сервиса Alexa |
Teoma | Бот сервиса Ask |
Поисковых ботов очень много, я отобрал только самых популярных и известных. Если есть боты, с которыми вы сталкивались по причине агрессивного и настойчивого сканирования сайтов, прошу в комментариях указать это, я добавлю их также в таблицу.