Информационно-поисковый язык. Система индексирования. Цель процесса индексирования. Почему «Яндекс» отказывает? Смотреть что такое "Индексирование" в других словарях

Одна из важнейших операций аналитико-синтетической переработки информации как средства информационного поиска – индексирование документов и информационных запросов.

Индексирование – процесс выражения содержания документа и (или)запроса наинформационно-поисковом языке (ИПЯ) с помощьютерминов индексирования – классификационных индексов, предметных рубрик (ПР), ключевых слов, дескрипторов, кодов. Иными словами, индексирование – процесс перевода содержания документов и запросов с естественного языка на ИПЯ, в результате чего создается поисковый образ документа (ПОД) и поисковый образ запроса (ПОЗ) . Таким образом, происходит «свертывание» информации, содержащейся в документе, и изложение ее на ИПЯ в виде индекса, предметной рубрики или дескриптора, ключевого слова.

Информационно-поисковый язык (ИПЯ) – это специально созданный искусственный язык, предназначенный для выражения содержания документов и (или) запросов с целью их последующего поиска. ИПЯ – это основной элемент логико-семантического аппарата информационно-поисковой системы (ИПС).

Необходимость создания искусственного языка (для выражения смыслового – семантического содержания документов с целью их поиска) обусловлена тем, что естественный язык обладает рядом свойств, препятствующих его использованию для записи и поиска информации: это неоднозначность и многозначность слов естественного языка. Точное значение многих слов можно определить только из контекста, в котором они употреблены (ударный инструмент, ударная доза и т.д.). Эти факторы не позволяют добиться точного соответствия между содержанием документа и средствами выражения этого содержания.

Трудности использования естественного языка в качестве ИПЯ усиливаются еще и тем, что в ИПС в качестве входных документов могут быть использованы не полные тексты, а рефераты, аннотации, библиографические описания, которые являются результатом свертывания содержания документов.

Основные требования, предъявляемые к ИПЯ:

· Однозначность;

· Достаточная семантическая сила

· Открытость (возможность корректировки языка)

Каждый ИПЯ имеет определенный словарный состав, представляющий совокупность лексических единиц (ЛЕ) – обозначения отдельного понятия, минимального и неделимого в этой функции. В качестве ЛЕ в ИПЯ используется лексика естественных языков – слова, словосочетания предметной рубрики, цифровые или буквенно-цифровые коды и т.д.

Важным моментом при индексировании является создание поискового образа документов (ПОД).Поисковый образ документа – основное смысловое содержание документа (а не вся информация, содержащаяся в нем), выраженное в терминах формализованного ИПЯ. ПОД ставится в однозначное соответствие этому документу, по нему производится отыскание документов в массиве документов.


Индексирование запроса также осуществляется путем перевода его содержания на ИПЯ. Таким образом, совокупность терминов индексирования, выражающих смысловое содержание запроса, называется поисковым образом запроса (ПОЗ ).

Поиск ведется по совокупности терминов индексирования. С целью повышения эффективности поиска информации по запросу ПОЗ может быть дополнен специальными указаниями о последовательности выполнения логических операций в процессе информационного поиска, которые называются поисковым предписанием.

Индексирование реализуется в следующих процессах: предметизации, систематизации и координатном индексировании.

Систематизация – вид индексирования, при котором содержание документа и (или) запроса выражено классификационными индексами, в соответствии с правилами определенного классификационного ИПЯ (КС). Такой принцип индексирования принято считать классификационным. Он обеспечивает возможность организации информационного поиска по иерархическому признаку. Специалисты, осуществляющие процесс систематизации в библиотеках и информационных центрах, называются систематизаторами.

Предметизация – вид индексирования, при котором содержание документа и (или) запроса выражено предметной рубрикой (ПР) в соответствии с правилами определенного предметизационного ИПЯ. Предметизационный принцип индексирования основан на использовании ЛЕ, которые входят в состав предметных рубрик, естественного языка (т.е. предметные рубрики, выражающие ПОД и ПОЗ составляются на основе естественного языка). Предметизационный принцип индексирования обеспечивает возможность организации информационного поиска по алфавитному признаку. Процессы предметизации осуществляются в библиотеках и информационных центрах предметизаторами.

Координатное индексирование – вид индексирования, при котором смысловое содержание документа и (или) запроса многоаспектно выражаются множеством ключевых слов или дескрипторов. ИПЯ, предназначенный для координатного индексирования, называется дескрипторным языком. Специалисты, осуществляющие координатное индексирование, называются индексаторами.

Термины «индексирование» и «индексатор» распространены в англоязычной литературе и широко применяются в международной и отечественной библиотечной практике.

Итак, в зависимости от вида индексирования, выделяются предметизационные, классификационные и дескрипторные ИПЯ. В их состав входит множество ЛЕ и грамматические (парадигматические и синтагматические) отношения между ними. ЛЕ – обозначение отдельного понятия, принятое в ИПЯ и неделимое в этой функции. ЛЕ могут представлять собой принятые в естественном языке слова, устойчивые словосочетания, аббревиатуры, символы, даты, общепринятые сокращения, лексически значимые компоненты сложных слов, а также эквивалентные им кодовые или символические обозначения искусственного языка. Грамматические отношения позволяют организовать ЛЕ в систему.

Требования к ИПЯ :

· Полно и точно передавать содержание документа, отражаемого в данной ИПС;

· Обеспечить однозначное толкования терминов индексирования;

· Допускать многоаспектное индексирование;

· Допускать внесение изменений (дополнений, исправлений);

· Обеспечивать простоту и удобство индексирования, информационного поиска и ведение данной ИПС;

· Отражать современное состояние терминосистемы в данной области знания.

Правила использования ИПЯ фиксируют в справочно-методическом аппарате соответствующей ИПС.

Синтагма (греч. – вместе построенное, соединенное) – смысловое единство, которое, в определенном контексте выражается словом, группой слов или предложением. Отдельно взятые слова (например, « методика», «пособие», «индексирование») вступают в предложении в синтагматические отношения с помощью грамматических средств языка, таких, как склонение, спряжение, предлоги, союзы и пр.

4. ТЕМА: УНИФИКАЦИЯ И СТАНДАРТИЗАЦИЯ ИНДЕКСИРОВАНИЯ ДОКУМЕНТОВ.

Термин «индексирование» был введен в отечественную библиотечную теорию и практику в 1991 г. ГОСТом 7.59 – 90 «Индексирование документов. Общие требования к систематизации и предметизации». Стандарт был введен взамен 3-х предыдущих ГОСТов, разработанных в 80-е гг.:

1. ГОСТ 7.39 – 82 Систематизация и предметизация. Термины и определения.

2. ГОСТ 7.44 – 84 Систематизация документов. Общие требования.

3. ГОСТ 7.45 – 84 Предметизация документов. Общие требования.

Все эти стандарты были разработаны в рамках Системы Стандартов по информации, библиотечному и издательскому делу (СИБИД) для унификации (единообразия) процессов индексирования. Конечная цель стандартизации – повышение качества и эффективности работы – в данном случае – качества индексирования и тех элементов справочно-поискового аппарата, которые связаны с индексированием. Любой стандарт рождается в результате обобщения многолетней практики.

Библиотекари учились по учебникам, использовали практические пособия. Стандартов, регламентирующих технологические процессы, многие десятилетия не было. Появление централизованной каталогизации (например, печатной каталожной карточки), общая для всех или многих библиотек система классификации привели библиотекарей к пониманию целесообразности единых принципов и методов работы. На определенном этапе развития международных связей возникла необходимость максимального согласования отечественной практики каталогизации с зарубежной.

ГОСТ 7.59 – 90 был ориентирован на Международный стандарт МС ИСО 5963 «Документация – методы анализа документов, определения их тематики и выбора терминов индексирования» введенным Международной организацией по стандартизации (ИСО) в 1985 г.

Международный стандарт обладал рядом достоинств, которые учли отечественные разработчики:

· Самостоятельной частью стандарта были определения встречающихся в нем терминов (в отечественных стандартах они были выведены отдельным ГОСТом).

· В МС вводились понятия и определялись требования общего характера, охватывающие как систематизацию, так и предметизацию (в отечественных стандартах эти процессы рассматривались, как самостоятельные несвязанные между собой процессы, в отдельных ГОСТах).

Преимущества МС ИСО были очевидны: проще освоить любой процесс, тем более – совокупность сложных процессов, какими являются систематизация и предметизация, если выделить общее, единичное и особенное. Было решено объединить отечественные стандарты, максимально приблизить их к международному по структуре и содержанию. Кроме того, необходимо было разработать такой стандарт, применения которого не ограничивалось бы ведомственными рамками. Это означало, что предстояло решить ряд терминологических проблем, так как в те годы в стране параллельно функционировали две системы терминов – библиотечная и информационная. Было решено использовать в стандарте современную международную терминологию.

В период разработки ГОСТ 7.59 – 90 было проведено серьезное научное исследование по внедрению предыдущих стандартов. Так, ГОСТом 7.44 – 84 предусматривалось обязательное ведение во всех библиотеках алфавитно-предметного указателя (АПУ) к систематическому каталогу – не в качестве вспомогательного аппарата, а в роли составной части каталога. Поэтому предписывалось составление карточки АПУ в процессе обработки новых поступлений. Это требование основывалось на современных представлениях о том, что СК способен выполнять свои функции, если он обеспечен адекватным АПУ. Вводилось также обязательное редактирование классификационного решения и предметных рубрик АПУ. Соответственно были изменены общегосударственные нормы времени.

Обследование показало, что сотни библиотек выполняли эти процессы, но с введением ГОСТа они становились обязательными для всех библиотек.

С января 2004 г. введен в действие в качестве Государственного стандарта Российской Федерации ГОСТ 7.59 – 2003 «Индексирование документов. Общие требования к систематизации и предметизации».

В соответствии с современными требованиями ГОСТ 7.59 – 2003 «Индексирование документов» состоит из 6 разделов. Структура ГОСТа следующая:

Через несколько лет был разработан и введен в действие другой стандарт, рассматривающий третий процесс индексирования – ГОСТ 7.66 – 92 «Индексирование документов. Общие требования к координатному индексированию», в основе которого также были правила МС ИСО 5963.

Прошло более десяти лет. За эти годы изменилась классификационная практика в стране. Во многих библиотеках появились автоматизированные системы и электронные каталоги. Потребовалось уточнить перечень и наименования классификационных систем. Существенно упорядочена терминология рассматриваемой предметной области. Были утверждены терминологические стандарты:

· ГОСТ 7.73 – 96 СИБИД. Поиск и распространение информации. Термины и определения.

· ГОСТ 7.74 – 96 СИБИД. Информационно-поисковые языки. Термины и определения.

· ГОСТ 7.76 – 96 СИБИД. Комплектование фонда документов. Библиографирование. Каталогизация. Термины и определения.

С января 2004 г. введен в действие в качестве Государственного стандарта Российской Федерации ГОСТ 7.59 – 2003 «СИБИД. Индексирование документов. Общие требования к систематизации и предметизации».

В соответствии с современными требованиями стандарт состоит из 6 разделов. Структура ГОСТа следующая:

1. Область применения

3. Определения

4. Общие положения

4.1 Сущность индексирования

4.2 Объект индексирования

4.3 Условия индексирования

4.4 Принципы индексирования

4.5 Виды ИПЯ и терминов индексирования

5. Требования к ИПЯ

5.1 Общие требования

5.2 Требования к классификационным ИПЯ

5.3 Требования к предметизационным ИПЯ

6. Технологические процессы и общие правила индексирования

6.1 Общие правила индексирования

6.2 Правила систематизации

6.3 правила предметизации.

ГОСТ 7.59 – 2003 устанавливает общие требования к индексированию: систематизации и предметизации документов и информационно-поисковым языкам, применяемым при индексировании. Стандарт предназначен для библиотек, органов научно-технической информации, книжных палат, редакций и издательств.

В журнале «Библиотека», начиная со второго номера за 2004 г. в рубрике «Библиотековедение» проводится «Школа индексирования» Э.Р. Сукиасяном, где публикуется материал, комментирующий содержание ГОСТов по индексированию.

Типы систем индексирования. Морфологический анализ и нормализация понятий.

Индексирование – это процесс перевода текстов с естественного языка на ИПЯ. Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ .

Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ. Помимо правил применения ИПЯ система индексирования может включать большое разнообразие инструкций, положений, методов и т.д., регламентирующих те или иные этапы процесса индексирования.

Существующие системы индексирования сильно отличаются друг от друга, и описать их общий состав и структуру невозможно. Однако наличие общих признаков позволяет дать системное представление о классах систем индексирования.

Рассмотрим типологию систем индексирования по пяти наиболее важным основаниям (рис. 5.1).

1. Но степени автоматизации процесса индексирования выделяют

Ручного индексирования;

Автоматического индексирования;

Автоматизированного индексирования.

2. По степени контролируемости различают системы:

Без словаря;

С жестким словарем;

Со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

С последовательным просмотром текста (отбираются все полнозначные слова);

Эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):

Со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

Без лексикографического контроля;

С полным контролем;

С промежуточным контролем.

Лексикографический контроль предусматривает:

Устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

Нормализацию слов на основе морфологических нормативных словарей.

В системах с полным контролем реализуются обе функции лексографического контроля. В системах индексации с промежуточным контролем эти функции реализуются частично.

Рис. 5.1. Типы систем индексирования

5. По характеру морфологического анализа слов различают системы:

С использованием морфологических словарей;

С использованием основных лексических словарей;

С использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.



Примеры систем индексирования:

1) Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это системы индексирования с ручным индексированием, без словаря, с эвристическими процедурами отбора слов, без лексиграфического контроля и морфологического анализа.

2) Процесс полусвободного индексирования аналогичен вышеописанному, но слова сформированного списка соотносятся со словарем, несовпадающие слова отбрасываются в ПОД не включаются.

3) При жестком индексировании слова берутся только из текста. В ПОД включаются только те слова, которые есть в словаре. Перед включением термина в словарь производится его морфологическая нормализация на базе основных лексических словарей.

4) При статическом автокодировании слова выбираются из текста по заданным статистическим процедурам, после чего производится их статистическое кодирование путем усечения слов по алгоритмам позиционной статистики.

Существует ряд и других систем индексации.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Прямой тип индекса строится по схеме «документ-термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме - «термин-документы». Поисковое пространство соответственно представлено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Морфологический анализ и нормализация понятий. Основные этапы процесса индексирования состоят в выборе понятий текста, отражающих его основное смысловое содержание, а также в морфологическом анализе и лексографическом контроле отобранных понятий и их кодировании .

Процедура отбора информативных понятий текста аналогична процессам выбора понятий при построении словарей основных лексических единиц, рассмотренным в предшествующей теме.

Рассмотрим более подробно суть процедур морфологического анализа, лексикографического контроля и кодирования понятий при использовании различных видов словарей.

Процедура морфологического анализа по морфологическим словарям состоит:

1) в определении обобщенного грамматического класса слова и его членами на основу и окончание (по словарям основ и окончаний);

2) в идентификации рода существительных (по основам слов);

3) в выявлении номера флексивного класса слов (по обобщенному грамматическому классу, признаку рода, окончанию, конечным буквосочетаниям основы);

4) в определении номера набора грамматической информации к слову.

Результатом такого анализа является нормализованное слово и номер набора его грамматической информации.

Нормализованные слова кодируются путем их замены буквенными кодами или кодами слов. В первом случае каждая буква заменяется соответствующим ей кодом (по словарю кодов букв). Во втором случае слова отождествляются по словарю лексических единиц и заменяются их номерами или кодами словаря.

Декодирование слов, производимое при выдаче результатов поиска, состоит в формировании буквенного кода слова (а затем и самого слова) по номеру или коду его нормализованной части и по номеру соответствующей грамматической информации.

При использовании словосочетаний процедура морфологического анализа существенно усложняется, включая в себя :

1. Отождествление слов словосочетания с элементами словаря слов. Замена их номерами по словарю, сопровождение грамматической информацией.

2. Выявление грамматической структуры словосочетания в целом – синтаксический анализ (по грамматической информации слов словосочетания).

3. Поиск по словарю номера словосочетания, соответствующего данному сочетанию номеров слов и грамматической структуре кодируемого словосочетания.

4. Выбор из словаря по номеру словосочетания соответствующего ему номера грамматической структуры и самой структуры. Сравнение выбранной грамматической структуры с грамматической структурой кодируемого словосочетания, полученной на втором этапе. Если структуры совпадают, то понятия тождественны. Анализируемое словосочетание заменяется соответствующим ему номером или кодом. Два последних этапа являются этапами семантического анализа.

Декодирование словосочетаний представляет собой :

1) выбор из словаря по номеру словосочетания соответствующего ему набора номеров слов и номера грамматической структуры;

2) извлечение информации о формах слов и их связях, восстановление порядка слов в словосочетании (по грамматической структуре);

3) формирование буквенного кода словосочетания и самого сочетания.

Морфологический анализ по словарям основных лексических единиц включает 2 этапа: сравнение слова со словарем (идентификация и определение номера совпадающего понятия) и выявление номера набора понятий осуществляется буквенным кодом или кодами понятий (по словарю).

В ИПС широко применяется морфологический анализ путем усечения слов. При этом используются различные процедуры усечения :

а) с использованием словарей (основ, окончаний и т.д.);

б) без использования словарей (по простейшим априорным правилам);

в) статистическое усечение слов с использованием аппарата позиционной статистики.

В случае а) процедуры морфологического анализа, кодирования и декодирования те же, что и при использовании морфологических словарей. В случае б) начало и/или окончание слов усекается по определенным правилам. Усеченные части слов кодируются буквенными кодами. Декодирование отсутствует. В случае в) при усечении слов используется аппарат и словари позиционной статистики. Слова кодируются буквенными кодами, а декодирование тоже отсутствует.

При усечении слов производятся только их нормализация и неморфологический анализ.

Контрольные вопросы

1. Каковы роль и место системы индексирования в составе логико-семантических средств, обеспечивающих создание и функционирование автоматизированной информационно-поисковой системы?

2. Приведите примеры систем индексирования.

3. По каким типологическим признакам можно разделять системы индексирования?

4. В чем суть процедуры морфологического анализа, лексикографического контроля и кодирования понятий при использовании различных видов словарей в процессе индексирования?

Система индексирования (СИ) - совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ .

Рассмотрим классификацию систем индексирования .

1. По степени автоматизации процесса индексирования выделяют системы:

Ручного индексирования;

Автоматического индексирования

Автоматизированного индексирования.

2. По степени контролируемости различают системы:

Без словаря;

С жестким словарем;

Со свободным словарем.

3. По характеру алгоритма отбора слов текста выделяют системы:

С последовательным просмотром текста (отбираются все полнозначные слова);

С эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);

Со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).

Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Что такое индексирование сайта? Как оно происходит? На эти и другие вопросы вы можете найти ответы в статье. в поисковых системах) называют процесс приобщения информации о сайте к базе данных роботом поисковой машины, которая впоследствии используется для розыска сведений на веб-проектах, прошедших такую процедуру.

Данные о веб-ресурсах чаще всего состоят из ключевых слов, статей, ссылок, документов. Индексироваться также могут аудио, изображения и так далее. Известно, что алгоритм выявления ключевых слов зависим от поискового устройства.

На типы индексируемой информации (flash файлы, javascript) существует некоторая лимитация.

Управление приобщением

Индексирование сайта - сложный процесс. Чтобы им управлять (к примеру, запрещать приобщение той или иной страницы), нужно использовать файл robots.txt и такие предписания, как Allow, Disallow, Crawl-delay, User-agent и другие.

Также для ведения индексации применяют теги и реквизит , скрывающие содержимое ресурса от роботов Google и «Яндекса» (Yahoo применяет тег ).

В поисковой системе Goglle новые сайты индексируются от пары дней до одной недели, а в Яндексе - от одной недели до четырёх.

Вы желаете, чтобы ваш сайт показывался в запросах результатов поисковиков? Тогда он должен быть обработан «Рамблером», «Яндексом», Google, Yahoo и так далее. Вы должны сообщить поисковым машинам (паукам, системам) о существовании вашего веб-узла, и тогда они просканируют его полностью или частично.

Многие сайты не индексируются годами. Информацию, которая на них находится, не видит никто, кроме их владельцев.

Способы обработки

Индексирование сайта может выполняться несколькими способами:

  1. Первым вариантом является ручное добавление. Вам нужно ввести данные своего сайта через особые формы, предлагаемые поисковиками.
  2. Во втором случае робот поисковой машины сам находит ваш веб-узел по ссылкам и индексирует его. Он может разыскать ваш сайт по ссылкам с других ресурсов, которые ведут на ваш проект. Этот способ наиболее эффективен. Если поисковик нашёл сайт таким образом, он считает его значительным.

Сроки

Индексирование сайта происходит не слишком быстро. Сроки разные, от 1-2 недель. Ссылки с авторитетных ресурсов (с великолепным PR и Тиц) значительно ускоряют размещение сайта в базе поисковиков. Сегодня самым медленным считается Google, хотя до 2012 года он мог выполнять эту работу за неделю. К сожалению, всё очень быстро меняется. Известно, что Mail.ru работает с веб-узлами в этой области около полугода.

Индексирование сайта в поисковиках осуществить способен не каждый специалист. На сроки добавления в базу новых страниц уже обработанного поисковиками сайта влияет частота корректировки его контента. Если на ресурсе постоянно появляется свежая информация, система считает его часто обновляемым и полезным для людей. В этом случае её работа ускоряется.

За ходом индексации веб-узла можно следить на особых разделах для веб-мастеров или на поисковиках.

Изменения

Итак, мы уже разобрались, как происходит индексирование сайта. Необходимо отметить, что базы данных поисковиков часто обновляются. Поэтому количество добавленных в них страниц вашего проекта может меняться (как уменьшаться, так и увеличиваться) по следующим причинам:

  • санкции поисковика к веб-узлу;
  • наличие погрешностей на сайте;
  • изменение алгоритмов поисковиков;
  • отвратительный хостинг (недосягаемость сервера, на котором находится проект) и так далее.

Ответы «Яндекса» на обычные вопросы

«Яндекс» - поисковая система, которой пользуются многие пользователи. Она занимает пятое место среди розыскных систем мира по числу обработанных исследовательских запросов. Если вы в неё добавили сайт, он может слишком долго добавляться в базу.

Добавление URL не гарантирует его индексацию. Это лишь один из методов, с помощью которого сообщают роботу системы о том, что появился новый ресурс. Если на сайт отсутствуют ссылки с других веб-узлов или их немного, добавление поможет его быстрее обнаружить.

Если индексация не произошла, нужно проверить, не было ли на сервере сбоев в момент создания ему заявки от робота «Яндекса». Если сервер сообщает об ошибке, робот завершит свою работу и попытается её выполнить в порядке всестороннего обхода. Работники «Яндекса» не могут увеличить скорость добавления страниц в базу поисковика.

Индексирование сайта в «Яндексе» - довольно-таки сложное занятие. Вы не знаете как добавить ресурс в поисковую систему? Если на него имеются ссылки с других веб-узлов, то добавлять специально сайт не требуется - робот его автоматически разыщет и проиндексирует. Если у вас нет таких ссылок, можно использовать форму «Добавить URL», чтобы заявить поисковику о существовании веб-узла.

Необходимо помнить, что добавление URL не гарантирует индексацию вашего творения (или её скорость).

Многим интересно, сколько времени занимает индексирование сайта в «Яндексе». Сотрудники этой компании не дают гарантий и не прогнозируют сроки. Как правило, с тех пор, как робот узнал о сайте, страницы его в поиске появляются через два дня, иногда - через пару недель.

Процесс обработки

«Яндекс» - поисковая система, требующая точности и внимания. Индексация сайта состоит из трёх частей:

  1. Поисковый робот выполняет обход страниц ресурса.
  2. Содержимое (контент) сайта записывается в базу данных (индекс) розыскной системы.
  3. Через 2-4 недели, после обновления базы, можно увидеть результаты. Ваш сайт появится (или не появится) в поисковой выдаче.

Проверка индексации

Как проверить индексацию сайта? Выполнить это можно тремя способами:

  1. Введите наименование своего предприятия в строке поиска (к примеру, «Яндекса») и проверьте каждую ссылку на первой и второй странице. Если вы обнаружите там URL своего детища, значит, робот свою задачу выполнил.
  2. Можно ввести URL своего сайта в розыскной строке. Вы сможете увидеть, сколько интернет-листов показывается, то есть проиндексировано.
  3. Зарегистрируйтесь на страницах веб-мастеров в Mail.ru, «Гугле», «Яндексе». После того как вы пройдёте верификацию сайта, вы сможете увидеть и итоги индексации, и иные сервисы поисковиков, созданные для улучшения работы вашего ресурса.

Почему «Яндекс» отказывает?

Индексирование сайта в Google осуществляется следующим образом: робот в базу данных заносит все страницы сайта, некачественные и качественные, не выбирая. Но в ранжировании участвуют лишь полезные документы. А «Яндекс» весь веб-хлам исключает сразу же. Он может проиндексировать любую страницу, но поисковик со временем ликвидирует весь мусор.

У обеих систем имеется добавочный индекс. И у той, и у другой страницы низкого качества влияют на рейтинг веб-узла в целом. Здесь работает простая философия. Излюбленные ресурсы конкретного пользователя будут занимать более высокие позиции в его выдаче. Зато этот же индивидуум с трудом отыщет сайт, который ему в прошлый раз не понравился.

Именно поэтому сперва необходимо от индексации прикрыть копии веб-документов, проинспектировать наличие пустых страниц и не пускать в выдачу некачественный контент.

Ускорение работы «Яндекса»

Как можно ускорить индексирование сайта в «Яндексе»? Необходимо выполнить следующие шаги:

Промежуточные действия

Что необходимо выполнить, пока веб-страница «Яндексом» не проиндексирована? Отечественный поисковик должен считать сайт первоисточником. Именно поэтому ещё до публикации статьи обязательно необходимо добавить её содержание в форму «Специфичных текстов». В противном случае плагиаторы скопируют запись на свой ресурс и окажутся в базе данных первыми. В итоге признаны авторами будут они.

База данных Google

Запрещение

Что собой представляет запрет индексирования сайта? Вы можете наложить его как на всю страницу, так и на отдельную её часть (ссылку или кусок текста). Фактически существует как глобальный запрет индексации, так и локальный. Как это реализуется?

Рассмотрим запрет добавления в базу поисковика веб-узла в Robots.txt. С помощью файла robots.txt можно исключить индексацию одной страницы или целой рубрики ресурса так:

  1. User-agent: *
  2. Disallow: /kolobok.html
  3. Disallow: /foto/

Первый пункт говорит о том, что инструкции определены для всех ПС, второй указывает на запрет индексации файла kolobok.html, а третий - не разрешает добавление в базу всей начинки папки foto. Если нужно исключить несколько страниц или папок, укажите их все в «Роботсе».

Для того чтобы воспрепятствовать индексации отдельного интернет-листа, можно применить мета-тег robots. Он отличается от robots.txt тем, что даёт указания сразу всем ПС. Этот мета-тег подчиняется общим принципам формата html. Его нужно размещать в заголовке страницы между Запись для запрета, к примеру, может быть написана так: .

Ajax

А как проводит индексирование Ajax-сайтов Yandex? Сегодня технологией Ajax пользуются многие разработчики веб-узлов. Конечно, у неё есть большие возможности. С помощью неё можно создавать быстродействующие и производительные интерактивные веб-страницы.

Однако системы веб-лист «видит» не так, как пользователь и браузер. К примеру, человек смотрит на комфортный интерфейс с подвижно подгружаемыми интернет-листами. Для поискового робота содержимое той же страницы может быть порожним или представленным как остальной статический HTML-контент, для генерации которого скрипты не идут в дело.

Для создания Ajax-сайтов можно применять URL с #, но его робот-поисковик не использует. Обычно часть URL после # отделяется. Это нужно учитывать. Поэтому взамен URL вида http://site.ru/#example он делает заявку главной странице ресурса, размещённой по адресу http://site.ru. Это значит, что контент интернет-листа может не попасть в базу данных. В итоге он не окажется в результатах поиска.

Для усовершенствования индексации Ajax-сайтов «Яндекс» поддержал изменения в поисковом роботе и правилах обработки URL таких веб-узлов. Сегодня веб-мастера могут указать поисковику «Яндекса» на необходимость индексации, создав соответствующую схему в структуре ресурса. Для этого необходимо:

  1. Заменить в URL страниц символ # на #!. Теперь робот поймёт, что он сможет обратиться за HTML-версией наполнения этого интернет-листа.
  2. HTML-версия контента такой страницы должна быть размещена на URL, где #! заменён на?_escaped_fragment_=.

Информационные системы. Автоматизированные информационные системы.

1. Информационные системы.

2. Информационно-поисковый язык. Система индексирования. Цель процесса индексирования.

3. Документальные информационные системы. Показатели эффективности документальной ИС.

4. Фактографическая система. Что такое предметная область? Модели данных.

5. Построение ER-модели предметной области.

6. Теория нормализации отношений.

7. Уникальный идентификатор сущности.

8. Классификация и структура АИС

9. Понятие жизненного цикла АИС. Фазы и процессы, модели жизненного цикла АИС.

10. Технология проектирования АИС.

11. Структурный подход к проектированию АИС.

12. Использование CASE – средств при проектировании АИС.

13. SCADA – системы: этапы создания, области применения, функциональные возможности.

Информационные системы.

Информационная система (ИС) - это система, предназначенная для ведения информационной модели, чаще всего - какой-либо области человеческой деятельности. Эта система должна обеспечивать средства для протекания информационных процессов :

хранение

передача

преобразование информации.

Информационной системой называют совокупность взаимосвязанных средств, которые осуществляют хранение и обработку информации, также называют информационно-вычислительными системами. В информационную систему данные поступают от источника информации. Эти данные отправляются на хранение либо претерпевают в системе некоторую обработку и затем передаются потребителю.

Между потребителем и собственно информационной системой может быть установлена обратная связь. В этом случае информационная система называется замкнутой . Канал обратной связи необходим, когда нужно учесть реакцию потребителя на полученную информацию.

Информационная система состоит из источника информации , аппаратной части ИС , программной части ИС , потребителя информации .

Различают 3 класса информационных систем по степени их автоматизации:

Ручные информационные системы - характеризуются отсутствием современных технических средств переработки информации и выполнением всех операций человеком. Например, о деятельности менеджера в фирме, где отсутствуют компьютеры, можно говорить, что он работает с ручной ИС.

Автоматизированные информационные системы (АИС) - наиболее популярный класс ИС. Предполагают участие в процессе обработки информации и человека, и технических средств, причем главная роль отводится компьютеру.

Автоматические информационные системы - выполняют все операции по переработке информации без участия человека, различные роботы. Примером автоматических информационных систем являются некоторые поисковые машины Интернет, например Google, где сбор информации о сайтах осуществляется автоматически поисковым роботом и человеческий фактор не влияет на ранжирование результатов поиска.

Информационно-поисковый язык. Система индексирования. Цель процесса индексирования.

Информационно-поисковый язык, знаковая система, предназначенная для описания (путём индексирования ) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска . Любой абстрактный И.-п. я. состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации - как надлежит понимать эти слова и выражения.

И.-п. я. должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного И.-п. я. учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система .

В большинстве И.-п. я. основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного И.-п. я. Правила образования в таких И.-п. я. выполняют функцию синтаксиса. В некоторых И.-п. я. основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких И.-п. я. правила образования устанавливают, как из данного алфавита строить слова И.-п. я., а из этих слов - выражения (фразы) и какие из них будут правильно построенными. И.-п. я. отличается от информационного языка и от машинного языка . В середине 20 в. в качестве И.-п. я. широко применяются классификации библиотечно-библиографические и языки дескрипторного типа.

Система индексирования представляет собой большое скопление информации (базу данных), приносимых в нее роботом-посетителем. Эта информация определенным образом структурируется и индексируется, чтобы впоследствии было легче выделить список сайтов по конкретным ключевым словам.

Процесс индексирования включает следующие этапы, которые осуществляют в указанной ниже последовательности:

анализ и определение содержания документа, как объекта индексирования;

выбор понятий, характеризующих содержание документа;

выбор терминов индексирования для обозначения понятий;

формирование поискового образа документа из терминов индексирования.

Перечисленные этапы могут быть объединены в составе технологических процедур при условии надлежащего выполнения каждого из этапов.

1. Поисковый образ документа (ПОД) формируют из выбранных терминов индексирования при помощи грамматических средств информационно-поискового языка (ИПЯ).

2. В процессе индексирования не рекомендуется описывать документ как физический объект (c точки зрения его формы, объема и пр.). Допускается отражать в ПОД подобную информацию, если она позволяет более точно установить соответствие документа информационной потребности пользователя системы.

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-02

  • Сергей Савенков

    какой то “куцый” обзор… как будто спешили куда то