Что такое Google PageRank.
Google, первая поисковая система, которая получила патент на систему,
осуществляющую учет внешних ссылок. Новый алгоритм был назван PageRank.
PageRank для каждой из страниц рассчитывается отдельно, и PageRank-ом
(или цитируемостью) происходит определение страниц, которые ссылаются
на данную. Очень похоже на замкнутый круг.
Задача же заключается в том, чтобы критерий, который выражает важность
страницы, был найден. Что касается PageRank, то этим критерием стала
теоретическая посещаемость страницы.
Например, пользователь поисковой системы выбирает случайный сайт,
просматривает его, и, обнаружив ссылки, переходит на другие сайты. Есть
вероятность, что посетитель не станет больше возвращаться на
первоначальный сайт, но при этом решит просмотреть другие, случайно
выбранные ресурсы. В PageRank вероятность подобных действий на каждом
из выбранных шагов, принято считать 0.15. Получается, что продолжит
посетитель свои действия (то есть, будет путешествовать и дальше по
имеющимся на выбранном сайте ссылкам) с вероятностью 0.85. При этом
считается, что все ссылки имеют равные права. Таким образом, переходя
по ссылкам бесконечно, пользователь много раз попадет на более
популярные страницы и реже на малоизвестные.
Итак, PageRank веб-страниц можно определить как вероятность нахождения
пользователя на данной веб-странице. Сумма вероятностей по всем
страницам Интернета будет равна единице, так на какой-то из них
пользователь все равно находится.
Но, оперировать вероятностями, это не всегда удобно. Поэтому, после
того, как произойдет ряд преобразований с PageRank, предоставляется
возможность работать конкретными числами. Например, от 0 до 10, как это
можно увидеть в Google ToolBar.
Из всего выше сказанного можно сделать следующие выводы:
- всем страницам в Интернете (даже если они не имеют ни одной внешней
ссылки) изначально присваивается PageRank, больший нуля, но очень
маленький.
- любая страница, с которой делаются ссылки, автоматически передает
некоторую часть присвоенного ей PageRank тем страницам, на которые она
ссылается. При этом PageRank, который передается, будет обратно
пропорционален количеству ссылок со страницы – чем больше будет этих
ссылок, тем наименьший PageRank достанется каждой из них.
- Передается PageRank не полностью, с каждым новым шагом по ссылке он
затухает. Здесь учитывается 15% вероятности, что пользователь начнет
просмотр новой страницы, выбор которой будет случайным.
Итак, каким же образом PageRank влияет на ранжирование результатов при
поиске. Поисковая система находит документы, которые считает
релевантными. После этого с помощью PageRank она их отсортировывает –
те документы, которые имеют более качественные внешние ссылки,
считаются наиболее ценными по информативному содержанию.
Получается, что система выдает первыми те ресурсы, которые и без того
являются популярными.
Однако, нужно заметить, что в настоящее время PageRank, вот так, в
чистом виде, в алгоритме Google не участвует. Объясняется это тем, что
PageRank характеризует лишь качество и численность внешних ссылок на
веб-страницы. При этом сам текст ссылки и информация, которую содержит
страница, сделавшая ссылку, абсолютно не учитывается. Но, ведь, при
ранжировании решающее значение придается именно этим факторам. Есть
предположение, что Google пользуется при ранжировании результатов
тематическим PageRank – ом, то есть учитывает ссылки только со схожих
по смыслу страниц, но как в действительности работает алгоритм,
известно лишь самим разработчикам Google.