Файл sitemap xml. Файл sitemap xml – доступные директивы. Использование нескольких карт

Файл sitemap.xml - это инструмент, который позволяет вебмастерам информировать поисковые системы о страницах сайта, доступных к индексации. Также, в XML карте можно указывать дополнительные параметры страниц: дата последнего обновления, частота обновлений и приоритет относительно других страниц. Информация в sitemap.xml может влиять на поведение поискового краулера и, в целом, на процесс индексации новых документов. Sitemap содержит в себе директивы включения страниц в очередь на обход и дополняет robots.txt, содержащий директивы исключения страниц.

В этом руководстве вы найдете ответы на все вопросы, касающиеся использования sitemap.xml.

Нужен ли мне sitemap.xml

Поисковые системы используют sitemap для поиска новых документов на сайте (это могут быть html-документы или медиа-контент), которые недоступны через навигацию, но их необходимо просканировать. Наличие ссылки на документ в sitemap.xml не гарантирует его сканирование или индексацию, но чаще всего файл помогает большим сайтам индексироваться лучше. К тому же, данные из XML карты используются при определении канонических страниц, если это специально не указано в теге rel=canonical.

Sitemap.xml важен для сайтов, где:

  • Некоторые разделы недоступны через навигационное меню.
  • Имеется множество изолированных страниц или плохо связанных между собой.
  • Используются технологии, слабо поддерживаемые поисковыми системами (например, Ajax, Flash или Silverlight).
  • Присутствует очень много страниц и есть вероятность, что поисковый краулер пропустит новый контент.

Если это не ваши случаи, то скорей всего sitemap.xml вам не нужен. Для сайтов, где каждая важная для индексации страница доступна в пределах 2х кликов, где для отображения контента не используются технологии JavaScript или Flash, где при необходимости используются канонические и региональные теги, и свежий контент появляется не чаще, чем на сайт заходит робот, в файле sitemap.xml нет необходимости.

Для небольших проектов при наличии проблемы лишь большого уровня вложенности документов, ее легко решить с помощью HTML карты сайта, не прибегая к использованию XML карты. Но если вы решили, что sitemap.xml вам все-таки нужен, то прочитайте это руководство полностью.

Техническая информация

  • Sitemap.xml является текстовым файлом формата XML . Однако, поисковые системы также поддерживают текстовый формат (см. следующий раздел).
  • Каждый сайтмап может содержать максимум 50 000 адресов и весить не более 50Мб (10Мб для Яндекса).
  • Можно использовать gzip-сжатие для уменьшения размера файла sitemap.xml и увеличения скорости его передачи. В таком случае используйте расширение gz (sitemap.xml.gz). При этом, ограничения по весу остаются для несжатых сайтмапов.
  • Местоположение файла Sitemap определяет набор URL-адресов, которые можно включить в этот Sitemap. Карта, содержащая адреса страниц всего сайта, должна располагаться в корне. Если сайтмап располагается в папке, то и все URL в этом сайтмапе должны располагаться в этой папке или глубже ().
  • Адреса в sitemap.xml должны быть абсолютными.
  • Максимальная длина URL - 2048 символов (1024 символа для Яндекса).
  • Спецсимволы в URL (типа амперсанда "&" или кавычек) должны маскироваться в HTML-сущности.
  • Указанные в карте страницы должны отдавать 200 http-код статуса.
  • Перечисленные в карте адреса не должны быть закрыты в файле robots.txt или в meta-robots.
  • Sitemap не должен быть закрыт в robots.txt, иначе поисковая система его не просканирует. Сам файл может находиться в индексе, это нормально.

Форматы XML карт

Поисковые системы поддерживают простой текстовый формат карты сайта, где просто списком перечислены URL-адреса страниц без дополнительных параметров. В таком случае файл должен иметь кодировку UTF-8 и иметь расширение .txt .

Также поисковиками поддерживается стандартный XML-протокол . Google дополнительно поддерживает сайтмапы для изображений, видео и новостей.

Пример файла Sitemap, содержащий только один адрес.

https://сайт/ 2018-06-14 daily 0.9

XML-теги
urlset
url (обязательный) - родительский тег для каждого URL-адреса.
loc (обязательный) - URL-адрес документа, должен быть абсолютным.
lastmod - дата последнего изменения документа в формате Datetime .
changefreq - частота изменения страницы (always, hourly, daily, weekly, monthly, yearly, never). Значение этого тега является рекомендацией поисковым системам, а не командой.
priority - приоритетность URL относительно других адресов (от 0 до 1) для очередности сканирования. Если не указывается, то по умолчанию равна 0.5.

XML карта для изображений

Некоторые оптимизаторы вставляют в sitemap.xml ссылки на изображения аналогично ссылкам на html-документы. Так можно делать, но лучше для Google использовать расширение стандартного протокола и вместе с урлами отправлять дополнительную информацию об изображениях. Создавать XML карты изображений полезно, если картинки необходимо сканировать и индексировать, и при этом, они напрямую не доступны боту (например, используется JavaScript).

Пример карты сайта, содержащей одну страницу и принадлежащие ей изображения

http://example.com/primer.html http://example.com/kartinka.jpg http://example.com/photo.jpg Вид на Балаклаву Севастополь, Крым http://creativecommons.org/licenses/by-nd/3.0/legalcode

XML-теги
image:image (обязательно) - информация об одном изображении. Максимум может использоваться 1000 изображений.
image:loc (обязательно) - путь к файлу изображения. Если используется CDN, то допустимо ссылаться на другой домен, если он подтвержден в панели для вебмастеров.
image:caption - подпись к изображению (может содержаться длинный текст).
image:title - название изображение (обычно короткий текст).
image:geo_location - место съемки.
image:license - URL лицензии изображения. Используется при расширенном поиске по картинкам.

XML карта для видео

Подобно карте для изображений, Google также имеет расширение sitemap протокола для видео, где можно указывать подробную информацию о видео-контенте, влияющую на отображение в поиске по видео. Видео-сайтмап необходим, когда на сайте используются видео, которые хостятся локально, и когда индексация этих видео затруднена из-за используемых технологий. Если вы на сайте внедряете видео из YouTube, то video-sitemap здесь не нужен.

Файл Sitemap для новостей

При наличии на сайте новостного контента и участии в Google Новостях полезно использовать Sitemap для новостей, так Google будет быстрей находить ваши свежие материалы и индексировать все новостные статьи. В этом случае Sitemap должен содержать только адреса страниц, опубликованных за последние 2 дня и содержать не более 1000 урлов.

Использование нескольких карт

При необходимости можно использовать несколько карт сайтов, объединяя их в один индексный сайтмап. Несколько sitemap.xml используются в случаях, когда:

  • На сайте используется несколько движков (CMS).
  • На сайте больше 50 000 страниц.
  • Необходимо настроить удобное отслеживание ошибок в разделах.

В последнем случае каждый большой раздел сайта имеет свой sitemap.xml и все они добавляются в панель для вебмастеров, где удобно наблюдать, в каком из разделов больше всего ошибок (см. раздел поиска ошибок в карте сайта).

Если у вас 2 и более сайтмапа, их необходимо объединить в индексный сайтмап, который выглядит также как обычный (за исключением наличия тегов sitemapindex и sitemap вместо urlset и url), имеет аналогичные ограничения и может ссылаться только на обычные XML карты (не на индексные).

Пример Sitemap Index:

http://www.example.com/sitemap-blog.xml.gz 2004-10-01T18:23:17+00:00 http://www.example.com/sitemap-webinars.xml.gz 2005-01-01

sitemapindex (обязательный) - указывает стандарт текущего протокола.
sitemap (обязательный) - содержит информацию об отдельном sitemap.
loc (обязательный) - местоположение sitemap (в формате xml, txt или rss для Google).
lastmod - время изменения сайтмапа. Позволяет поисковикам быстро обнаруживать новые URL на сайтах больших размеров.

Как создать sitemap.xml

Методы создания XML Sitemap:

  • Внутренние средства CMS. Многие CMS уже поддерживают создание карты сайта. Чтобы это выяснить, почитайте документацию к вашей CMS, посмотрите пункты меню в администраторской панели или обратитесь в техподдержку движка. Загрузите на вашем сайте файл https://вашсайт.com/sitemap.xml , возможно он уже существует и динамически формируется.
  • Внешние плагины. Если в CMS нет функционала генерации карты сайта, и она поддерживает плагины, погуглите, какой из плагинов закрывает вопрос sitemap.xml для вашего движка и установите его. В некоторых случаях необходимо обратиться к программистам, чтобы они написали вам подобный плагин.
  • Отдельный скрипт на сайте. Зная протокол XML карты и технические ограничения, можно создать sitemap.xml самостоятельно, добавив скрипт генерации в CRON. Если вы не программист, используйте другие пункты этого списка.
  • Генераторы Sitemap. Существует множество генераторов sitemap.xml, которые сканируют ваш сайт и дают скачать готовую карту. Недостаток здесь в том, что при каждом обновлении сайта необходимо вручную генерировать сайтмап.
  • Парсеры. Десктопные программы, предназначенные для технического анализа сайта, обычно предоставляют возможность скачать sitemap.xml, сгенерированный на основе просканированных страниц. Работает аналогично генераторам sitemap, только запускается локально на своей машине.

Популярные онлайн-генераторы карты сайта

XML-Sitemaps.com

Позволяет получить sitemap.xml в несколько кликов. Поддерживает форматы XML, HTML, TXT и GZ. Удобно использовать для небольших сайтов (до 500 страниц).

Похожий генератор, но имеет чуть больше настроек и позволяет создать карту до 2000 страниц бесплатно.

Имеет множество настроек, позволяет импортировать URL-адреса из CSV-файла. Бесплатно сканирует до 500 урлов.

Не имеет лимитов на количество страниц для сканирования. Но для больших сайтов процесс генерации может подвисать на несколько десятков минут.

Локальные программы для генерации XML Sitemap

G-Mapper Sitemap Generator

Бесплатная десктопная версия генератора карты сайта под Windows.

Screaming Frog SEO Spider

Гибкий инструмент генерации карты сайта с множеством настроек. Удобно, если вы уже пользуетесь скримин фрогом для других SEO-задач. После сканирования сайта используйте пункт меню Sitemaps -> Create XML Sitemap.

Netpeak Spider

Менее гибкое, но тоже удобное решение для быстрой генерации sitemap.xml. После сканирования сайта необходимо использовать пункт меню Инструменты -> Генерация Sitemap.

При знакомстве с проектом специалист по оптимизации обязательно вводит в адресную строку после имени сайта фразу «sitemap.xml». Анализ карты сайта позволяет выяснить, почему не индексируется тот или иной контент. Как создать и внедрить грамотную sitemap.xml, я расскажу в очередном выпуске .

Что такое XML-карта

XML-карта сайта — файл с информацией для поисковых систем о страницах, которые необходимо проиндексировать. Другими словами, карта сайта — список всех страниц в формате XML, доступных для сканирования поисковым роботом. При этом стоит отличать XML-карту от обычной карты сайта, которая находится по адресу http://site.com/sitemap/ .

С помощью XML-карт определяется:

  • местонахождение страниц сайта;
  • время последнего обновления каждой из страниц;
  • частота (периодичность) обновления и важность относительно других страниц сайта;
  • важность (приоритетность) страниц в структуре.

Из каких элементов состоит XML-карта

В первой строке документа указывается версия xml и кодировка — UTF-8.

Также используются особенные теги XML:

  • sitemapindex — родительский тег в начале и конце файла;
  • sitemap — родительский тег для каждого файла sitemap, указанного в файле. При этом данный тег — дочерний относительно sitemapindex;
  • url — блок, который содержит значение самого URL и прочие элементы;
  • loc — непосредственно URL страницы;
  • changefreq — как часто данная страница может изменяться. Возможные значения: always, hourly, daily, weekly, monthly, yearly, never;
  • priority — приоритет структурных элементов, помогает определить, какие страницы более приоритетные для краулинга. Ему присваивается значение до единицы, например: 0,5.
  • lastmod — время последнего обновления контента страницы, не обязательный параметр. Для сайтов со статическим контентом достаточно использовать changfreq.

Пример структуры файла c XML-картой сайта:

http://example.com/ 2017-02-05 monthly 0.8

Для больших сайтов лучше сформировать несколько XML-карт. Например, в этот индекс в формате XML входят два файла sitemap:

http://www.example.com/sitemap1.xml http://www.example.com/sitemap2.xml.

XML sitemap для изображений

Отдельные XML-карты часто создаются для индексации изображений. Они актуальны только для Google, Яндекс не распознаёт теги image:

Данные XML-карты могут помочь поисковым системам найти контент, который иначе нельзя было бы обнаружить (например, если он загружается с помощью JavaScript), и указать изображения, которые необходимо сканировать и индексировать.

Для карт изображений используются теги:

Кроме того, можно использовать необязательные теги:

Пример XML-карты для изображений:

http://example.com/page.html http://example.com/pic1.jpg http://example.com/pic1.jpg

Если на сайте представлен уникальный видеоконтент, для него также можно сделать отдельную XML-карту.

Интересно, что в данной карте URL видеозаписей можно открыть для поиска в разделе Google Видео. В результатах будет отображаться значок видео, который, кстати, можно сделать индивидуальным, а также другая указанная в карте информация. Например, название.

Результат:

Какие сведения о видео можно отправлять в Google с помощью sitemap:

  • название;
  • описание,
  • продолжительность;
  • миниатюру и так далее.

Обязательные теги:

  • — страница, где находится видео;
  • — название видео, до 100 символов;
  • — место размещения плеера для видео;
  • — место размещения конкретного видео;
  • — превью (миниатюра) видео, не менее чем 120х90 px;
  • — контейнер для описания видео;
  • — описание видео, до 2000 символов.

Кроме этого, можно использовать другие теги — не обязательные и носящие рекомендательный характер:

  • — длительность видео, до 8 часов, пишется в секундах;
  • — категория видео, например, техника;
  • — имя человека (компании), добавившего видео. Допускается указание одного имени для файла;
  • — указывается, требуется ли для просмотра видео подписка. Как платная, так и бесплатная, с доступными значениями: yes, no;
  • — дата публикации, в формате YYYY-MM-DD или YYYY-MM-DDThh:mm:ss+TZD;
  • — здесь указывается, может ли видео быть доступным для безопасного поиска или нет;
  • — список стран, в которых видео может воспроизводиться или не воспроизводиться. Допустимые значения — коды стран в формате ISO 3166. Для каждого видео может отображаться только один тег . Если тег отсутствует, предполагается, что видео можно воспроизводить на всех территориях;
  • — ссылка на галерею;
  • — дата и время, когда видео становится неактуальным;
  • — стоимость с указанием валюты в формате ISO 4217;
  • — теги видео;
  • — количество просмотров видео;
  • — рейтинг видео (от 0 до 5);
  • — список площадок, где видео может воспроизводиться и не воспроизводиться. Доступные значения: web, mobile, tv. При отсутствии тега предполагается, что видео может воспроизводиться на всех платформах;
  • — указывает на то, является ли видео прямой трансляцией (live). Доступные значения: yes, no.

http://www.example.com/videos/video_1.html http://www.example.com/thumbs/video_1.jpg Обзор смартфона Xiaomi Redmi 3 Note Pro Подробный обзор внешнего вида и функций смартфона Xiaomi Redmi 3 Note Pro от интернет-магазина Example. http://www.example.com/video123.flv http://www.example.com/videoplayer.swf?video=123 600 4.3 1223 2017-01-05T19:20:30+03:00 yes no

Google «поддерживает» следующие форматы:

  • .mpg, .mpeg, .mp4, .m4v;
  • .wmv;
  • .asf, .avi;
  • .ra, .ram, .rm;
  • .mov;
  • .flv.

XML-карта для Google Новостей

Для сайтов-новостников можно создать отдельную sitemap с динамической генерацией и ежедневным обновлением. Данные файлы будут работать только для ресурсов, включенных в списки Google Новостей. Если сайт не находится в списке, можно отправить запрос на его добавление.

Файл sitemap должен содержать только URL статей, опубликованных за последние два дня. Статьи, опубликованные более двух дней назад, можно удалить из файла, при этом они останутся в индексе Google Новостей в течение 30 дней.

Эта карта сайта может содержать не более 1000 URL. Если на сайте за два дня появляется больше контента, можно создать файл индекса sitemap для нескольких карт.

Обязательные теги:

  • — общий тег, в котором указывается издание. У него есть два обязательных дочерних тега:
    • — название издания;
    • — язык в формате ISO 639;
    — дата публикации в формате W3C с указанием полной даты. Поисковой робот Google понимает даты вплоть до долей секунд, например:
ГГГГ-ММ-ДДTчч:мм:cc.с±чч:мм (2017-05-10T19:20:30.45+01:00)
  • — название статьи, аналогичное названию на сайте.

Кроме этого, существуют необязательные теги:

  • — свойства статьи. Допустимые значения:
    • PressRelease — официальный пресс-релиз;
    • Satire — статья, которая выставляет предмет обсуждения в комической форме.
    • Blog — любая статья, которая опубликована в блоге или в формате блога.
    • OpEd — любая статья, выражающая личное мнение и размещенная в колонке редактора.
    • Opinion — любая статья, выражающая личное мнение и не включенная в колонку редактора. Сюда относятся как рецензии колумнистов, так и интервью.
    • UserGenerated — материал, созданный пользователем и прошедший официальную редакторскую правку.
  • ключевые слова по теме статьи;
  • — список биржевых/финансовых символов (не более пяти, через запятую). Подходит для статей о бизнесе. Перед каждым символом должно указываться название соответствующей биржи, совпадающее с записью в Google Финансах, например NASDAQ:AMAT или BOM:500325.

Пример sitemap для Google Новостей:

http://example.ua/news/wow55.html Новости ru Blog 2017-05-10 Рацион питания среднестатистического студента студенты, еда, мивина, пельмени, revo

Как построить XML-карту для мультиязычных сайтов

Файлы sitemap можно использовать, чтобы передать Google атрибут rel="alternate" hreflang="x" . Благодаря этому пользователям показываются страницы на нужном языке и с URL-адресами с правильной региональностью.

Пространство имен XHTML должно быть указано так:

Xmlns:xhtml="http://www.w3.org/1999/xhtml"

Также необходимо создать отдельный элемент URL для каждого адреса. В свою очередь каждый элемент должен включать:

  1. Тег loc, который указывает на URL-адреса;
  2. Подэлемент xhtml:link rel="alternate" hreflang="XX" для каждой альтернативной версии страницы, обязательно включая текущую версию.

Например, на сайте есть раздел на русском языке, предназначенный для пользователей со всего мира. Кроме того, существуют две версии этой страницы: на украинском и на английском.

Полный набор URL выглядит так:

  • example.com/ua/
  • example.com/ru/
  • example.com/en/

Файл sitemap, который приведен на примере ниже, сообщает Google о том, что у страницы example.com/ru/ существует соответствующая версия на украинском и английском языках:

http://example.com/ru/ http://www.example.com/deutsch/ http://www.example.com/en/

Яндекс поддерживает два формата файлов sitemap:

  • XML (рекомендуется);
  • текстовый файл.

Требования для карт Яндекс:

  • размер в несжатом виде не должен превышать 10 Мб;
  • Яндекс распознает Punycode (пуникод) как в закодированном виде, так и в оригинале.

Принципиально:

  • до 50 000 ссылок на файлы sitemap;
  • общий размер до 50 Мб (в несжатом виде).

Форматы, которые поддерживает Google в качестве sitemap:

  • XML — стандартный файл;
  • RSS, media RSS и Atom 1.0 — подходит для блогов с фидом RSS или Atom;
  • Сайты Google. Если сайт создан и подтвержден с помощью сервиса «Google Сайты», файл sitemap создается автоматически. Его нельзя изменить, но можно отправить в Google, чтобы получать сведения для отчетов. Если в одном подкаталоге содержится более 1000 страниц, файл sitemap может отображаться некорректно.
  • Текстовый файл.txt.

Основные требования к текстовым файлам:

  • кодировка UTF-8;
  • файл не должен содержать ничего, кроме списка URL;
  • текстовому файлу можно дать любое имя, но только с расширением.txt (например, sitemap.txt).

Как внедрить XML-карту

  1. Файл с XML sitemap следует поместить в корневую директиву сайта: http://<адрес сайта>/sitemap.xml .
  2. Если карт сайта несколько, необходимо создать индекс карт, где должны быть перечислены ссылки на все XML-файлы. рекомендуемых генераторов.

    Как найти ошибки в XML-картах

    Как анализировать карту сайта в Яндекс.Вебмастере

    В Яндекс.Вебмастере для работы с XML-картами следует перейти по пути «Индексирование» — «Файлы sitemap».

    Отдельно в разделе Инструменты, представлен «Анализатор файлов sitemap», где на проверку можно отправить текст, URL или прикрепить сам файл. При проверке он показывает тип и размер файла, количество ссылок и ошибки.

    В панели вебмастеров Google в разделе «Сканирование» есть пункт «Файлы sitemap».

    Здесь можно:

    • добавить или проверить файлы sitemap;
    • отследить количество отправленных и проиндексированных страниц различных типов;
    • увидеть ошибки и проблемы в картах сайта;
    • отправить карты XML заново или удалить их.

    Выводы

    XML-карта сайта нужна поисковым роботам для обнаружения всех ваших страниц. Она содержит URL-адреса страниц сайта, а также относящиеся к ним данные, такие как время их последнего обновления, частоту их обновления и важность относительно других страниц сайта. Отдельные карты можно создавать для изображений, видео, XML можно размечать и для Google Новостей.

    Создавать карту вручную не стоит — используйте бесплатные генераторы или специализированные программы. Проверить ошибки в картах можно в панелях вебмастеров Яндекс и Google.

    Появились вопросы? С удовольствием отвечу в комментариях.

Приветствую вас, друзья!

Продолжаем готовить наши сайты к продвижению. На прошлом уроке мы создали файл , а сегодня наша цель — создать файл sitemap, по-другому «карта сайта».

Sitemap.xml — это файл, где указываются страницы подлежащие индексированию с определенным приоритетом для .

С одной точки зрения sitemap.xml вообще не нужен: робот и сам прекрасно справляется со своей работой. Но если посмотреть с другой стороны, то карта сайта действительно нужна. Все дело в том, что одни страницы имеют гораздо большее значение, нежели другие. И в первую очередь робот должен проиндексировать важные страницы, а потом другие.

Файл Sitemap.xml позволяет указать роботу, какие страницы нужно индексировать первыми, а какие последующими. С этой точки зрения карта сайта нужна. Поэтому и выходит этот урок.

Ну что? Погнали!

Как проходит индексирование сайта?

Чтобы полностью понять зачем нужна карта, давайте поговорим об . Если говорить в простой и понятной для всех форме, то процес выглядит так:

Представьте такую ситуацию: вам нужно что-то найти в книге по физике и вы пошли в библиотеку, чтобы найти там ту самую книгу. Пришли и нашли, открыли ее. После этого, начинаете искать нужную вам информацию без какого-либо ориентирования. Таким образом, листая книгу, вы начали воспринимать всю информацию, какая там только есть, то есть индексировать.

Примерно так выглядит процесс индексации. Вы, как робот, начали просматривать все, что только есть в книге и запоминать, хотя большая часть из содержания имеет второстепенное значение. Чтобы быстро ориентироваться по книге, предусмотрено содержание: страница с названиями глав и номерами страниц (ссылки). Файл Sitemap.xml, как раз-таки, является неким содержанием, но только для поискового робота.

Как создать файл sitemap.xml?

Создать карту сайта можно, используя специальные онлайн-генераторы, которых пруд пруди в Интернете. А для тех, чьи сайты работают на CMS, можно использовать плагины (блог работает на WordPress, я использую плагин Yoast SEO).

Есть и те, кто хочет написать сам Sitemap.xml, следующая часть урока именно для вас. Но сначала я хочу, чтобы вы скачали редактор Notepad ++, в этом редакторе можно сохранить файл в формате.xml:

Теперь подробнее остановимся на значениях в теге :

  • — Обязательный тег, в котором указывается ссылка на страницу;
  • — Дата обновления страницы;
  • — Указывается частота обновления страницы, имеет следующие значения:

    • hourly — ежечасно;
    • daily — ежедневно;
    • weekly — еженедельно;
    • mouthly — ежемесячно;
    • yearly — ежегодно;
    • never — никогда.
  • — приоритет индексирования страницы. Имеет значения от 0.1 — 1;

Остановимся на приоритете подробнее. Не нужно указывать высокий приоритет для каждой страницы в sitemap.xml. Он указывается исключительно относительно страниц, указанных в файле. То есть, если в карте сайте страница site.ru/1.html имеет приоритет 1 (высокий), а страница site.ru/2.html имеет приоритет 0.5, то site.ru/1.html будет проиндексирована первой, а вторая страница, соответственно, второй. Таким образом, тег — это некий порядок индексирования.

Вывод : для продвигаемых страниц ставьте приоритет 1, для других, менее важных, значения ниже.

Залить sitemap.xml нужно в корень папки сайта!

Карта сайта должна быть доступна по адресу: http://site.ru/sitemap.xml

Если по этому адресу карта не доступна, то вы залили ее не туда!

Ограничения для sitemap.xml

С тем, как создать файл sitemap.xml мы разобрались, теперь поговорим об ограничениях в файле:

  1. Ссылки должны вести на один и тот же сайт;
  2. Длина ссылка не должна превышать 2048 символов;
  3. Максимальное количество ссылок 50 000;
  4. Размер файла не больше 10 Мб.

Иногда случается так, что в один файл не вмещается вся информация, в этом случае поможет индексный файл.

Индексный файл — это тот же sitemap.xml, в котором указываются ссылки на карты сайта, которые мы создавали чуть выше.

В этом путеводителе мы рассмотрим следующие вопросы:

Что такое Sitemap ?

Это файл, который содержит в себе перечень ссылок на все важные страницы сайта. То есть, этот документ направляет поисковые системы на основной контент на сайте.

Для чего нужна карта сайта

Сайтмап нужен, если у сайта есть проблемы с индексацией, которые вызваны:
1) большим количеством страниц;
2) отсутствием ссылок (внутренних или внешних) на страницы;
3) глубокой вложенностью на сайте (запутанной структурой).

HTML vs XML-карта сайта

Карты сайта бывают следующих типов:

  • HTML;

Самое простое объяснение разницы между этими форматами в том, что XML-карта в первую очередь предназначена для поисковых систем, а HTML – для пользователей.

HTML-карта – это всего лишь общий обзор сайта, содержит только информацию и страницы, которые нужно видеть пользователям. Если вы находитесь на сайте и ищете определённый раздел, при переходе на Sitemap HTML легко его найдёте. Несмотря на то, что такой тип карт сайта ориентирован на пользователя, он также может помочь вашему ранжированию в поисковых системах. Это одно из свидетельств того, что вы заботитесь об удобстве сайта для пользователя.

При составлении HTML-карты сайта важно учитывать:

1. Структурированное содержание.

Карта сайта должна быть понятна и удобна для восприятия пользователя. Желательно, чтобы она включала в себя разделы, категории, подкатегории и т. д.

2. Анкоры ссылок.

Протокол XML-карты сайта предназначен для поисковых роботов. XML-файл содержит в себе информацию о том, когда последний раз обновлялся URL-адрес, насколько это важно и как часто происходят изменения.

Обычно Sitemap состоит из следующих XML-тегов:

Обязательные:
– определяет стандарт протокола и инкапсулирует этот файл.
– содержит в себе информацию о URL-адресе (является родительским тегом).
– содержит абсолютный URL-адрес.

Необязательные:
– указывает дату последнего изменения файла.
– указывает частоту смены файла.
– указывает на значимость документа на сайте. Диапазон значений: от 0,1 до 1,0 (по умолчанию 0,5).

Не устанавливайте для каждого URL-адреса слишком частую смену файла и максимальный приоритет. Если метки частоты и приоритета не отражают реальность, вероятнее всего, поисковые системы будут более склонны игнорировать всю карту XML.

Другие форматы Sitemap

Помимо вышеперечисленных карт сайта, поисковые системы также поддерживают следующие форматы:

Для Google:
— RSS, mRSS и Atom 1.0;
RSS / Atom фиды должны содержать последние обновления вашего сайта. Обычно они небольшие и часто обновляются (что является плюсом).
— Сайты Google.
Для сайтов, созданных на платформе Google Сайты, Sitemap создаётся автоматически, и внести какие-то изменения невозможно.

Для Google и Яндекс:
— текстовый формат (TXT).
Файл должен быть в кодировке UTF-8 и состоять только из URL-адресов.

Требования Google и Яндекса к файлам Sitemap

1. Используйте кодировку UTF-8.
2. Максимальное количество URL – 50 000.
3. Ссылки в сайтмапе должны быть на том же домене, что и файл.

4. Если файл слишком большой, разделите его на несколько и укажите их в файле индекса Sitemap.
5. Ответ сервера при обращении к файлу должен быть 200 ОК.
6. Указывайте только канонические адреса страниц (без GET-параметров и идентификаторов сессий).

1. Максимальный размер – 10 МБ.
2. Поддерживает кириллические URL.

1. Максимальный размер – 50 МБ.
2. Поддерживает только цифры и латинские буквы.

Распространённая ошибка: чтобы уменьшить требования к пропускной способности канала, используют архиватор gzip. Размер сайтмапа должен быть 50 МБ (10 МБ) до сжатия, а не после.

Совет: русские доменные имена можно преобразовать с помощью кодировки Punycode.

Как создать XML Sitemap

1. Чтобы создать карту сайта, в первую очередь нужно определить канонические адреса, которые будут добавлены в файл.

2. Определить, какой формат файла будете использовать.

3. Создать файл можно вручную или, воспользовавшись генератором Sitemap.

Google в своей справке подготовил список онлайн и десктопных, платных и бесплатных генераторов карт сайта. Ознакомиться со всем списком можно, перейдя по ссылке .

Сгенерировать Sitemap проще, чем кажется. Разберём, как сгенерировать сайтмап, на примере деcктопного приложения Majento:

1. Парсим сайт.

2. Переходим в раздел «Сайты» => «Генерировать Sitemap».

3. Сохраняем в нужном нам формате.

4. Карта сайта готова.

Из online-генераторов XML-карты сайта заслуживает внимания XML Sitemap Generator .

Расширенные возможности этого сервера позволяют установить определённые XML-теги, включить/исключить нужные документы.

Исключить ненужные страницы можно и с помощью регулярных выражений.

Google поддерживает расширенный синтаксис для изображений. Для этого вы можете создать отдельную карту сайта для изображений или добавить синтаксис в существующую. Использование расширенного синтаксиса в Sitemap предоставляет поисковой системе дополнительную информацию об изображениях на сайте. Также это может помочь Google обнаружить и проиндексировать изображения, которые он не может найти при сканировании сайта.

Как и в обычной карте сайта, есть обязательные и необязательные XML-теги.

Обязательные:
– аналогично тегу содержит в себе URL изображения и дополнительную информацию.
– URL изображения.

Необязательные:
– подпись к изображению.
– место съёмки фотографии.
– название изображения.
– URL-лицензии изображения.

Ещё один расширенный синтаксис, который поддерживает Google, – XML-карта для видео.

Плюсы добавления XML-тегов для видео:

1) даёт понять Google, какой контент на сайте;
2) даёт возможность предоставить детальное описание к файлу;
3) станет доступным для поиска в Google Видео;
4) в поисковой выдаче будет отображаться заставка видео (может повысить количество переходов из поисковой выдачи).

Карта сайта для видеофайлов состоит из следующих обязательных элементов:

– содержит URL-адрес страницы, на которой размещено видео; если на одной странице размещено более одного видео, не нужно каждый раз создавать тег , достаточно в одном теге несколько раз прописать для каждого видео на странице.
– включает в себя всю информацию о видео.
– URL к миниатюрному изображению (заставке) к видео. Рекомендованные размеры: от 160×90 пикселей до 1920×1080. Форматы изображения: .jpg, .png, or. gif
– заголовок, который должен совпадать с названием страницы, на которой отображается видео.
– описание видео. Должно соответствовать с метаописаниями страницы. Максимальное количество символов – 2048.

Заголовок и описание видео должны быть экранированы или упакованы в блок CDATA.

Со всеми XML-тегами карты сайта для видео можно ознакомиться в справке Google .

Где разместить карту сайта

Распространённые заблуждения о Sitemap

Так как у многих этот файл вызывает трудности и является «тёмным лесом», возникают определённые мифы в отношении карт сайта. Рассмотрим некоторые из них:

– «Включение URL-адреса в файл Sitemap для XML гарантирует, что он будет проиндексирован».
Нет. Важно отметить, что XML-файлы Sitemap – это только рекомендации. Карта сайта XML не гарантирует индексацию поисковыми системами страниц, указанных в файле.

– «Если я удалю URL из XML-карты, он будет удалён из индекса».
Нет. Карта сайта XML не исключает индексацию страниц, не включённых в карту сайта XML.

– «XML-файлы Sitemap трудно создавать и поддерживать»
Нет. Небольшие сайты могут легко создавать и размещать собственные XML-файлы вручную, используя приведённые выше примеры в качестве руководства по форматированию. Для более крупных сайтов и сайтов, которые изменяются чаще, плагины или модули, доступные для большинства CMS, могут автоматизировать обновление XML-файлов.

Заключение

Файл Sitemap – полезный инструмент для передачи поисковым роботам информации о структуре сайта. Используйте это руководство, чтобы понять, как работает карта сайта, как она устроена, как сгенерировать, разместить и проверить файл.

Наличие этого файла подсказывает поисковым роботам, как именно организована структура сайта. Соответственно, Яндекс, Google, Bing и другие поисковики получают возможность более качественно индексировать Интернет-проект.

Зачем нужен файл Sitemap?

В большинстве случаев грамотной внешней и внутренней перелинковки страниц достаточно, чтобы поисковые роботы узнали о всем содержимом сайта. Вместе с тем использование Карты сайта может заметно ускорить процесс полной индексации, особенно если:

  • Интернет-ресурс создан относительно недавно и пока не может похвастаться богатым профилем внешних ссылок;
  • в структуре сайта присутствуют многочисленные архивы веб-документов, не связанных между собой;
  • проект располагает большим количеством страниц, разделов, подразделов;
  • в структуре ресурса преобладают динамические страницы.

Во всех этих случаях всеобъемлющая индексация сайта поисковыми системами может оказаться под вопросом, если своевременно не позаботиться о файле Sitemap.

Базовые критерии создания файла Sitemap

К созданию Карты сайта выдвигается несколько основных требований, о которых веб-мастер должен всегда помнить.

Во-первых , количество URL-адресов в файле Sitemap не должно превышать 50 тысяч единиц. Если их больше, то необходимо создать несколько отдельных Карт сайта, которые прописываются в файле индекса Sitemap .

Во-вторых , максимальный размер файла – 10 Мб. Если несжатый файл превышает этот размер, его можно уменьшить при помощи архиватора gzip .

В-третьих , файл Sitemap должен находиться на том же домене, что и веб-сайт, для которого он создан.

В-четвертых , составление Карты сайта предполагает использование кодировки UTF-8, а также латинских букв и цифр.

В-пятых , ответом сервера на обращение к файлу Sitemap должен быть HTTP-статус с кодом 200 OK.

Допустимые форматы Карты сайта

Особое требование предъявляется к формату файла Sitemap. Так, Карта сайта может быть создана в виде XML-файла, текстового файла или посредством RSS, mRSS и Atom 1.0. При этом наиболее распространенным форматом, который распознают все поисковые системы, считается XML-файл. С его помощью поисковикам можно сообщить не только о правильном местоположение страницы в иерархии сайта, но и:

  • о частоте обновления веб-документа в принципе (атрибут – changefreq );
  • о дате последнего обновления на странице (атрибут – lastmod );
  • о разной важности тех или иных страниц ресурса (атрибут – priority ).

Пример Карты сайта в формате XML для сайт, если бы он состоял из одной страницы и содержал упомянутые теги, мог бы выглядеть так:

http://www.сайт/ 2016-03-21 daily 0.8

Как создать и где разместить файл Sitemap?

При желании составить Карту сайта можно самому (вручную), что, впрочем, выглядит весьма трудозатратной затеей. Поэтому лучше создавать файл Sitemap автоматически, обратившись к услугам бесплатных онлайн-сервисов таких, как этот или этот .

После того, как Карта сайта готова, файл необходимо определить в корневую директорию. В этом случае ссылка, указывающая поисковым системам путь к файлу Sitemap, может быть следующей: http://www..xml

Добавление Карты сайта в поисковые системы

Чтобы о новом файле Sitemap как можно быстрее узнали поисковые роботы, веб-мастеру необходимо внести изменения в , прописав в нем особую директиву, указывающую точный маршрут к Карте сайта:

Sitemap: http://www..xml

Кроме того, готовый файл Sitemap проверяется на наличие ошибок и добавляется в Яндекс или Гугл при помощи Яндекс.Вебмастера или Google Search Console .

Подводя итог, необходимо отметить, что наличие у веб-ресурса правильно составленной Карты сайта не является 100%-ной гарантией индексации абсолютно всех его страниц. Данный файл – всего-навсего серьезная подсказка поисковикам, как тщательнее просканировать ваш сайт.

  • Сергей Савенков

    какой то “куцый” обзор… как будто спешили куда то