Как устроены поисковые системы.
Во всех поисковиках можно выделить несколько компонентов, которые являются основными.
Spider (c англ. паук) – это программа, задачей которой является
скачивание доступных в Интернете веб-страниц. Способ скачивания подобен
работе браузера пользователя. Отличается тем, что паук «видит» страницу
исключительно как html-текст, а браузер должен отображать то, что
предназначено для пользователя (графические изображения, текст на
странице и др.).
Crawler (путешествующий паук) – программа, настроенная на
автоматическое прохождение по ссылкам, которые обнаруживаются на
страницах. Задачей этой программы является определение дальнейшего пути
паука либо по найденным ссылкам, либо по адресам, список которых был
задан заранее. Таким образом происходит обнаружение документов, которые
поисковой системе еще неизвестны и являются для нее новыми.
Indexer (индексатор) – программа, анализирующая веб-страницы,
которые скачали пауки. При анализе каждая страница делится индексатором
на составные части, каждая из которых разбирается отдельно: теги,
заголовки, текст, особенности структуры и стиля.
Database (база данных или индекс поисковой системы) – это хранилище страниц, которые были скачены и обработаны поисковой системой.
Search engine results engine (система выдачи результатов) – ее
цель – извлекать и выдавать информацию, которая была обнаружена в
результате поиска по базе данных. Ранжируя имеющиеся ресурсы по
определенному алгоритму, система выдает сначала наиболее релевантные,
то есть те, которые полнее отвечают запросу пользователя, а затем и все
остальные страницы, подходящие к введенным в поисковик ключевым словам.
При продвижении сайтов, этот компонент интересует оптимизаторов больше
всего, так как именно система выдачи решает на какую позицию разместить
тот или иной сайт.
Web-server (веб-сервер) – связующее звено между пользователем и
всеми компонентами поисковика. Обычно, на сервере есть html-страница, в
которой имеется поле для ввода термина, по которому будет происходить
поиск интересующей информации. Также, задачей веб-сервера является
выдача пользователю результата в виде страницы, содержащей html-текст.
В разных поисковых системах реализация этих механизмов может немного
отличаться: там, где в одной системе работают три программы,
выполняющие разные действия; в другой, эти же задачи может выполнять
программа, объединяющая функции трех - но общий принцип работы присущ
всем поисковикам.