По всемирной сети Интернет «ползает множество различных пауков». Пауками называют поисковые программы-роботы, которые при нахождении любой новой или измененной страницы производят ее индексацию. В процессе «индексации» страница разбивается на элементы -текст, заголовки, подписи к картинкам, описание (description), ключевые слова, ссылки и т.д., содержание которых и заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе, а сам документ в индексной базе не хранится.

Каждая поисковая программа производит индексацию в соответствии со своими правилами. Правила эти известны только разработчикам этих программ. Также у каждой программы свой график «обхода» сети, на который мы, к сожалению, повлиять не можем, он составляет примерно раз в одну-две-три недели. Многое, конечно, зависит оттого, как часто некий ресурс подвергается обновлению, тогда на этот сайт «паук» станет «заходить» гораздо чаще.

Друзья!
На сайте БенБова.ru для Вас собрана огромная библиотека зарубежной фантастики. Здесь Вас ждет лучшая научная фантастика со всего мира – романы, рассказы, новеллы, повести.

Выше уже упоминался такой элемент, как «ключевые слова». Это слова, помещенные в тег <МЕТА NAME=»keywords» CONTENT=»...»>. Сюда мы можем вписать небольшой список слов из основного текста страницы, по которым нам хотелось бы, что бы эта страница была найдена поисковой машиной по запросу пользователя. Так вот, если в теге записано слово, которое действительно присутствует в тексте страницы (иногда разработчики в надежде обмануть поисковую машину вписывают сюда слова, отсутствующие в тексте), то «вес» этого слова (его релевантность) повышается. Если же слово отсутствует в основном тексте, то по этому слову страница выдаваться не будет.

Надо учесть и еще один фактор: чтобы данное слово не было сочтено поисковиком за «спам» («спам» на веб-странице и «спам» в электронной почте - это разные вещи, хотя между_ними и есть общие черты: вредность, никчемность и т.д.). Например, «паук» может посчитать за «спам» слово, которое настолько часто упомянуто в документе, что остается только догадываться, а что же еще в этом документе присутствует? Кроме того, существует еще так называемый «запрещенный список слов» (обычно рекламного характера), в который включены в основном прилагательные в превосходных степенях, например: «самый», «новый», «главный», «уникальный» и т.д. Как вы, вероятно, догадываетесь, эти слова также «пауком» будут сочтены за «спам».

Коли речь зашла о «спаме», то стоит упомянуть еще кое-что, что сюда относится: это заголовки и/или ключевые слова, «приправленные» большим количеством слов из самых популярных запросов, а также большие массивы текста, написанные на странице цветом фона или очень мелким шрифтом. Кроме того, что пользователи не очень-то будут рады это видеть, данный трюк еще и увеличивает размер документа и, следовательно, уменьшает в нем контрастность слов, что также влияет на место документа в списке найденного.

В списке результатов поиска «паук» выводит после адреса страницы,как правило:

-    текст, который состоит из заголовка (тэг <title>);

-    описания (тэг <meta name=»Description» content=»...»>);

-    или начало документа (если предыдущего тэга нет);

-    контексты - фрагменты текста веб-страницы, содержащие слова запроса.

Что же может повлиять на место, занимаемое определенной страницей в этом списке? Это зависит от значительного количества факторов, часть из которых была описана выше. Что еще? Давайте посмотрим, что говорит по этому поводу Яндекс - одна из самых популярных поисковых систем:

Во-первых - это «частотные» характеристики, к которым относятся:

-    частота слова в индексной базе;

-    частота слова в документе;

-    размер базы;

-    размер документа.

Далее привилегированное положение слова в документе (например, заголовок) и/или наличие его в списке ключевых слов.

В-третьих, присутствие слова в «авторитетных» ссылках на данный документ.

Следующий фактор - это взвешенный индекс цитирования документа, а также количество и ранг (авторитетность) всех страниц сайта с этим словом.

Яндекс держит в своем индексе следующую информацию о каждом слове текста:

-    номер документа;

-    номер предложения;

-    номер слова в предложении;

-    вес каждого слова.

«...при поиске используется вся имеющаяся информация. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д. Важную роль играет относительное положение слов. Так, например, если запрос из четырех слов не имеет точного ответа в базе данных, будут отранжированы выше предложения, содержащие три слова из запроса, в которых слова стоят точно в той же последовательности (обратите внимание!!! -Н.Г.), что и в запросе. Это дает возможность решать типичную поисковую задачу - искать документ по неточному цитированию».

Как видите, информация весьма скупа, но и ее может оказаться достаточной, чтобы еще раз пересмотреть конструкцию, дизайн и содержание своего сайта. И, заменив ряд элементов, вы с удивлением обнаружите, насколько чаще на ваш ресурс стали заходить посетители, найдя его в первых рядах своих поисковых запросов.