MoneyQuakeSerpArchiveSeoDigger
Наши проекты
русскийenglish
 


Особенности поведения выдачи Google в зависимости от тематики запросов.

Бондырев Юрий
Seoquake.com, Seodigger.com, Serparchive.org
Тел: +7 (812) 923-35-77
seoquake@gmail.com

Анализ выдачи поисковой системы
Google в различных нишах.
Исследуется поведение выдачи в зависимости
от тематики, частотности и конкурентности запросов.

...Статистика интересна тем, что иногда данные не соответствуют мироощущениям...

Содержание

1. Введение
2. Эволюция алгоритмов Google
3. Понятия и определения
4. Постановка задачи и исходные данные
5. Программы и сервисы, используемые для обработки данных
6. Краевые эффекты
7. Исходная информация, полученная в результате эксперимента
8. Статистика сайтов в каждой группе
     8.1 "Нестабильные" результаты в каждой группе
     8.2 Сравнение тематик с различным уровнем конкуренции
     8.3 Общее сравнение запросов с различными уровнями конкуренции
     8.4 Разница между англоязычным и русскоязычным сегментом Google
9. Определение основных игроков
     9.1 Определение основных игроков среди "белых" сайтов
     9.2 Анализ основных игроков среди "белых" сайтов
     9.3 Определение основных игроков среди поискового спама
     9.4 Анализ основных игроков среди поискового спама
10. Выводы
11. Заключение

1. Введение

Со времени появления поисковых систем, структура привлечения посетителей на сайт значительно изменилась. На сегодняшний день существенная доля трафика на веб-сайты - это трафик с поисковых систем. Появление поисковых машин практически полностью изменило потребительское поведение в Интернете, позволив пользователям быть инициаторами контакта с фирмой, или веб-сайтом.

В связи с этим широкое развитие получило новое направление деятельности в сети - работа над продвижением сайтов в поисковых системах. Сейчас уже можно говорить о том, что сформирован новый рынок со своей конъюнктурой и уровнем конкуренции. Как и на любом другом рынке, на рынке поисковой оптимизации существуют свои ниши, конкуренция в которых отличается в большую, или меньшую сторону. Ниши формируются в основном по направлениям бизнеса компаний и отражающими этот бизнес ключевыми словами, которые также могут делиться на более, или менее конкурентные. Благодаря тому, что в некоторых нишах конкуренция становится все более сильной, поисковые оптимизаторы постоянно развивают используемые технологии, пытаясь отыскать более эффективный и менее затратный способ продвижения сайтов в топ результатов поиска.

С развитием рынка поисковых технологий, совершенствуются и приемы, используемые поисковыми системами. За счет необходимости удовлетворения потребительских нужд - а именно полной, релевантной выдачи по запросам - поисковые системы постоянно совершенствуют свои алгоритмы, пытаясь приблизиться к оптимальному результату. Оптимизаторам, в свою очередь, также приходится приспосабливаться к изменившимся условиям, меняя технологии продвижения. Стоит отметить, что с самого начала работы с поисковыми системами существовало два крайних полюса оптимизаторской деятельности: это "белая оптимизация" и "поисковый спам".

На сегодняшний день, большинство оптимизаторов работают, скорее где-то между этих границ. Однако, существуют люди, которые профессионально занимаются поисковым спамом (дорвеями). Очевидно, что самые передовые технологии рождаются и применяются в высококонкурентных нишах. Нередко, в первую очередь эти технологии берутся на вооружение в "черных" методах оптимизации. Анализ технологий продвижения солидных ресурсов и дорвеев, а так же их распределение в различных группах запросов поможет лучше понять механизмы работы поисковых машин. В связи с этим, целью данного доклада и будет анализ выдачи ведущей международной поисковой системы Google в зависимости от тематики и частотности запросов.

2. Эволюция алгоритмов Google

Поисковая система Google очень быстро стала популярной среди пользователей, благодаря высокому качеству поиска. За счет введения революционных технологий Google обогнал своих конкурентов и стал предоставлять пользователям наиболее полные и релевантные результаты. Таким образом, эта система стала одним из ведущих источников трафика на веб сайты. В связи с этим, количество оптимизаторов, специализирующихся на продвижении сайтов в Google неуклонно возрастало. Вместе с этим, широкое распространение получали "черные" методы оптимизации. Особенно индустрия поискового спама стала популярной после появления множества партнерских программ и Pay-Per-Click систем.

На технологии "черных" методов продвижения, команда Google отвечала введением новых технологий ранжирования и новыми фильтрами, среди которых известные Trust Runk, Florida, Hilltop и др. В результате введения новых алгоритмов количество недобросовестных ресурсов резко сокращалось, но затем технологии продвижения совершенствовалась, и в выдаче опять появлялся поисковый спам. Стоит отметить, что с введением новых алгоритмов качество поиска неуклонно улучшалось, а технологии создания поискового спама становились все более трудоемкими и затратными. Именно поэтому наиболее быстро эти технологии получали реализацию в высококонкурентных коммерческих нишах. Поскольку вычислительные мощности и совершенство алгоритмов пока еще имеют предел, логично было бы предположить, что высококонкурентным тематикам поисковик должен уделять больше внимания. И, в первую очередь, пытаться распознавать и пресекать поисковый спам в этих группах запросов.

Необходимо отметить, что все-таки русский язык не является основным для Google. И борьба со спамом наиболее активно ведется в англоязычном сегменте. Однако, с повышением платежеспособности российского Интернета разница между технологиями продвижения в этих сегментах должна стираться, впрочем, как и разница в методах борьбы со спамом.

3. Понятия и определения

Для того чтобы провести какой-либо анализ, необходимо ввести определения, для исключения разногласий в толковании промежуточных данных и результатов исследований. На сегодняшний день пока не существует единого глоссария по тематике поисковой оптимизации. К примеру, одно из определений поискового спама, взятое из публичных источников звучит следующим образом:

Дорвей (англ. doorway) - технология, часто используемая как метод поискового спама. Страница сайта, оптимизированная под одну или несколько поисковых фраз с целью попадания на высокие места в результатах поиска. Автоматически созданный дорвей содержит случайный текст, в котором периодически встречается нужная поисковая фраза, и потому не приносит посетителю никакой пользы. Созданный вручную дорвей может быть осмысленной страницей по узкой теме, полезной и нужной пользователю.

Подобные определения не дают четких данных для выявления поисковго спама. А более однозначных определений, увы, нет. Кроме того, с развитием технологий искусственно созданные сайты приобретают все более осмысленный вид. Порой, отличить качественный дорвей от нормального, контентного сайта под силу только профессионалу.

С определением качественных контентных сайтов дело обстоит еще сложнее. Порой обычная HTML страница с текстом обладает большим весом, чем сайт над которым трудятся солидные компании.

Исходя из этого, можно утверждать, что человек, который поставил себе целью выявить в результатах поиска дорвеи, будет руководствоваться скорее субъективными, чем объективными ощущениями.

Однако для поисковых машин такие оценки не уместны. Поисковые машины отделяют поисковый спам от контентных сайтов по множеству признаков. Набор этих признаков и их вес в принятии решения является тайной. Кроме того, технологии определения спама постоянно эволюционируют, используются новые методы оценки.

В силу вышеперечисленных обстоятельств, будет уместно абстрагироваться от популярных определений "белых" и "черных" сайтов. Для нашего анализа будет гораздо удобнее воспользоваться результатами выдачи Google и ввести новые определения с некоторыми допущениями.

"Белыми" сайтами мы будем считать сайты, которые находятся в поисковой выдаче Google значительное время по отношению к времени эксперимента (от 8 дней).

Поисковым спамом (дорвеями) будем называть сайты, которые находились в выдаче короткий промежуток времени (меньше недели).

Данные определения стоит воспринимать скорее как "вероятностные". Очевидно, что вероятность обнаружить дорвеи в первой группе гораздо ниже, чем во второй.

Однако, надо понимать, что эти определения не дают 100% однозначности определения "белых" сайтов и поискового спама. Возможны ситуации, когда в результате изменения результатов выдачи качественные сайты пропадают из поиска. Примером могут служить новостные сайты, которые публикуют материалы по рассматриваемым тематикам. После того, как содержимое страниц изменяется, страницы сайтов, со временем, пропадают из результатов поиска по данным запросам. Так же, среди сайтов, которые находятся в выдаче достаточно давно, можно обнаружить искусно подготовленный поисковый спам.

Однако можно смело утверждать, что влияние этих сайтов на картину в целом не так значительно. Кроме этого, надо учитывать, что при анализе нескольких сотен тысяч запросов невозможно подойти к рассмотрению каждого сайта индивидуально.

4. Постановка задачи и исходные данные

Для постановки эксперимента была использована база, любезно предоставленная компанией Rupoisk, состоящая из 11.5 Млн русскоязычных запросов. Для каждого запроса может быть получена следующая информация:

Из 45 тематик, представленных в первичной базе, для эксперимента были отобраны 8, по следующему принципу:

Конкурентность тематики определялась путем сравнения среднего количества объявлений. Из самого понятия конкурентности следует, что борьба между участниками рынка напряженней там, где среднее количество объявлений выше. Таким образом, после сортировки тематик по этому параметру появилась возможность отобрать ниши из высоко- и низко- конкурентных областей.

Ниша Конкурентность
Недвижимость
Бизнес и финансы
Знакомства
Телефония
 
Билеты (театр, выставки)
Личный вещи, часы, антиквариат
Ремонт
Промышленные товары

Для каждой тематики была сформирована база одно-, двух-, трех- и четырех- сложных запросов
Общая база для анализа 87.5 тысяч запросов.
Ежедневно сохраняются и анализируются первые 20 результатов поисковой выдачи Google по каждому запросу.
Дата начала эксперимента: 4 октября
Дата окончания: 19 октября

Цель эксперимента:

5. Программы и сервисы, используемые для обработки данных

Анализ результатов выдачи производился с помощью сервисов: Seodigger.com, Serparchive.org и Seoquake.com.

Seodigger.com - онлайновый сервис, позволяющий исследовать по каким ключевым словам и фразам сайты находятся в поисковой системе Google на ведущих позициях.
Принцип работы: сервис сохраняет первые 20 результатов выдачи Google по базе из 60 миллионов популярных англоязычных запросов и 11.5 миллионов русскоязычных. После сбора данных строится "обратный индекс" и выводятся следующие данные:

Serparchive.org - онлайновый сервис, который ежедневно сохраняет первые 100 результатов выдачи по указанным пользователем запросам, в различных поисковых системах. Позволяет следить за историей позиций сайтов в поисковых системах, отслеживать изменения в выдаче, просматривать историю позиций как отдельных сайтов, так и выдачи в целом.

Seoquake.com - представлен в двух вариантах: расширение для браузера FireFox и надстройка для Internet Explorer. Предназначен для быстрого просмотра поисковых параметров сайтов непосредственно в результатах поиска ведущих поисковых систем, а также на любых других страницах (документах).

6. Краевые эффекты

С целью уменьшения вероятности получения существенной статистической ошибки в ходе эксперимента учитывались следующие "краевые" эффекты:

  1. Появление "белого" сайта в поисковой выдаче в конце периода наблюдения. В этом случае срок его присутствия в выдаче мог быть меньше 2-х недель. Учесть такие сайты в рамках данного эксперимента невозможно, но согласно предварительным оценкам, доля таких сайтов не велика, и не должна оказать существенного влияния на общую картину.
  2. Нахождение "белых" сайтов на последних местах топ 20 поисковой выдачи. В этом случае если во время исследования позиция сайта колеблется, он может быть причислен к разряду поискового спама, несмотря на то, что является "белым" ресурсом. Для исключения этого краевого эффекта, были построены две базы: основная и дополнительная.

Основная база: состоит из сайтов находящихся на 1-15 позициях поисковой выдачи за весь период рассмотрения.

Дополнительная база: состоит из сайтов, находящихся за весь период наблюдения на 16-20 позициях. Поисковый спам, обнаруженный по используемой методике в первой базе, проверялся на принадлежность к добросовестным сайтом во второй базе. Если было определено, что сайт во второй базе находится достаточно долго, он исключался из списка поискового спама. Далее в докладе используются данные с учетом этого краевого эффекта.

7. Исходная информация, полученная в результате эксперимента

Длительность эксперимента составила 16 дней. За этот период для каждой ключевой фразы с помощью сервиса Serparchive.org ежедневно сохранялись результаты поисковой выдачи Google. Сервис Seodigger.com вычислял, по каким запросам страница находится в результатах поиска.

Все нижеприведенные материалы и анализы будет не что иное, как статистическая обработка полученных данных.

8. Статистика сайтов в каждой группе

Используя данные ранее определения "белых" сайтов и поискового спама, мы будем оценивать статистику присутствия этих сайтов для каждой из выбранных групп ключевых фраз.

Для этого необходимо вычислить количество адресов страниц, которые находились в результатах поиска 1 день, 2 дня, 3 и т.д. вплоть до 16 дней.

Остановимся на этом поподробнее, поскольку это крайне важно для дальнейшего изложения. Допустим, какой то сайт появился в результатах поиска, был там всего один день и, затем пропал. Этому сайту присваивается флаг со значением 1 (единица). Другой сайт был в выдаче 2 дня, а затем пропал. Сайту присваивается флаг со значением 2. Следующий сайт находился в выдаче, допустим, 11 дней. Присваивается флаг 11. В результате мы смотрим, сколько сайтов с флагом 1 в каждой группе, сколько с флагом 2 и т.д. до 16 дней. Результат записываем в таблицу. Изначально таблица строится для 16 дней (длительность эксперимента).

Для более наглядного отображения информации разобьем весь период эксперимента на 4 равных временных отрезка. Для нас наибольший интерес будут представлять первый и последний отрезок. В первом, согласно нашим определениям, будут сосредоточены сайты, относящиеся к поисковому спаму, в последнем - "белые" сайты.

Группа 1 - 4 5 - 8 9 - 12 13 - 16
Бизнес и финансы 1 62 * 453** 228 160 758
Бизнес и финансы 2 2 088 27340 11584 8258 22931
Бизнес и финансы 3 3 785 48630 20020 14378 36380
Бизнес и финансы 4 3 221 41089 16882 11779 29680
Билеты 1 48 279 139 116 653
Билеты 2 1 693 20940 9025 6914 21241
Билеты 3 2 118 24601 10348 7503 22687
Бизнес и финансы 2 2 088 27340 11584 8258 22931
Билеты 4 1 102 12814 5264 3665 10820
Знакомства 1 24 165 72 83 313
Знакомства 2 2 983 45587 16831 11615 30961
Знакомства 3 5 408 67081 23719 16072 42065
Знакомства 4 2 807 43579 14359 9158 21368
Личные вещи 1 60 290 154 140 856
Личные вещи 2 2 344 27755 11768 8799 26783
Личные вещи 3 2 240 23461 9730 6851 21319
Личные вещи 4 1 107 13440 5195 3539 10464
Недвижимость 1 53 302 162 136 716
Недвижимость 2 4 920 66553 26470 19407 51814
Недвижимость 3 8 865 96560 38255 27270 71436
Недвижимость 4 4 982 60663 23147 16046 41599
Промышленные товары 1 217 1091 608 606 3132
Промышленные товары 2 8 509 103460 43424 33163 98111
Промышленные товары 3 6 617 75945 32781 23414 71112
Промышленные товары 4 2 983 39408 16488 11226 32868
Ремонт 1 118 569 296 291 1694
Ремонт 2 5 404 60181 26168 19512 60375
Ремонт 3 4 746 46468 19676 14659 46283
Ремонт 4 2 200 26311 10697 7477 22888
Телефония 1 61 452 205 158 849
Телефония 2 1 424 19605 7898 5511 16799
Телефония 3 2 658 29178 11592 8113 25125
Телефония 4 2 541 27977 10694 7042 20340
Вероятность нахождения <<<< Дорвеи Белые сайты >>>>

Таблица 1. Статистика сайтов по длительности нахождения в выдаче Google

* - первая цифра рядом с группой означают одно, двух, трех и четырехсложные запросы соответственно. Вторая цифра - количество ключевых фраз в данной группе.

** - цифра показывает, общее количество уникальных страниц, которое находилось в выдаче Google указанное количество дней (в данном случае от 1 до 4 дней)

Если посмотреть внимательно на столбцы таблицы можно видеть, что абсолютные значения больше в первом и последнем столбцах с данными. Это легко объяснимо. В правой колонке находятся преимущественно стабильные, общепризнанные сайты, позиция которых не сильно меняется день ото дня. Это явные лидеры своей отрасли, поисковая машина считает эти сайты релевантными обозначенной группе запросов. Если бы поисковая выдача не менялась совсем, то ненулевые числа присутствовали только в последнем столбце.

В первом столбце (1-4 дня) присутствуют "нестабильные" сайты. В принципе, чем чаще меняется поисковая выдача, тем значения в этом столбце больше относительно других групп.

Нужно четко понимать, что общее количество позиций, а именно, сумма позиций по столбцам для данной группы, есть константа. Если бы в каждой строчке поисковых результатов находился уникальный адрес, то общее количество определялось бы формулой:

Количество позиций = 20 х 16 х (количество ключевых фраз)

Где
20 - это количество обрабатываемых результатов выдачи.
16 - длительность эксперимента в днях.

В реальности, сумма всех столбцов оказывается меньше этого значения. Это объясняется тем, что один и тот же web-адрес может присутствовать в результатах поиска по нескольким запросам.

Если мы хотим в результате эксперимента сравнивать "стабильные" и "не стабильные" группы сайтов, из таблицы 1 легко можно выяснить время, необходимое для эксперимента.

Понятно, что при уменьшении количества дней, разница между этими группами будет стираться, точнее мы ее не заметим. При значительном увеличении длительности эксперимента разница будет все более ощутимая, при этом последний столбец будет оставаться примерно постоянным, а значения промежуточных столбцов будет уменьшаться относительно первого столбца.

В нашем случае на периоде 16 дней уже можно делать определенные выводы. Однако, для того что бы продолжить рассмотрение, нам необходимо сделать еще ряд несложных операций.

Итак, в таблице 1 представлено распределение сайтов по длительности вхождения в выдачу за время эксперимента. Мы пока не можем сравнивать эти данные, поскольку группы односложных, двух и трех сложных запросов содержат разное количество кейфраз, и, соответственно, количество сайтов в каждой группе за время эксперимента будет разное.

Для того можно было корректно сравнивать между собой, необходимо пронормировать полученные данные по количеству кейвордов в каждой группе. Будем нормировать все результаты на 1000 кейфраз.

Группа 1 - 4 5 - 8 9 - 12 13 - 16
Бизнес и финансы 1 7306 3677 2581 12226
Бизнес и финансы 2 13094 5548 3955 10982
Бизнес и финансы 3 12848 5289 3799 9612
Бизнес и финансы 4 12757 5241 3657 9215
Билеты 1 5813 2896 2417 13604
Билеты 2 12369 5331 4084 12546
Билеты 3 11615 4886 3542 10712
Бизнес и финансы 2 11628 4777 3326 9819
Билеты 4 6875 3000 3458 13042
Знакомства 1 15282 5642 3894 10379
Знакомства 2 12404 4386 2972 7778
Знакомства 3 12404 4386 2972 7778
Знакомства 4 15525 5115 3263 7612
Личные вещи 1 4833 2567 2333 14267
Личные вещи 2 11841 5020 3754 11426
Личные вещи 3 10474 4344 3058 9517
Личные вещи 4 12141 4693 3197 9453
Недвижимость 1 5698 3057 2566 13509
Недвижимость 2 13527 5380 3945 10531
Недвижимость 3 10892 4315 3076 8058
Недвижимость 4 12176 4646 3221 8350
Промышленные товары 1 5028 2802 2793 14433
Промышленные товары 2 12159 5103 3897 11530
Промышленные товары 3 11477 4954 3538 10747
Промышленные товары 4 13211 5527 3763 11018
Ремонт 1 4822 2508 2466 14356
Ремонт 2 11136 4842 3611 11172
Ремонт 3 9791 4146 3089 9752
Ремонт 4 11960 4862 3399 10404
Телефония 1 7410 3361 2590 13918
Телефония 2 13768 5546 3870 11797
Телефония 3 10977 4361 3052 9453
Телефония 4 11010 4209 2771 8005
Вероятность нахождения <<<< Дорвеи Белые сайты >>>>

Таблица 2. Нормированная статистика стайтов по длительности нахождения в результатх поиска. (Получена путем нормировки таблицы 1.)

Каждая цифра в таблице означает условное количество сайтов нормированное на 1000 ключевых фраз. Теперь, анализируя эти данные, мы можем говорить, для каких групп результаты поисковой выдачи более "подвижные", а где ситуация "стабильнее". Причем сравнивать можно не только группы с разным количеством ключевых фраз, но и группы различных тематик. Это сравнение представляет не только академический интерес. Вероятнее всего, достигнуть определенных результатов по выводу сайта в результаты поиска проще там, где поисковая выдача более подвижна. Исходя из этого, можно планировать стратегию продвижения ресурса.

Теперь попытаемся разобраться в полученных данных.

8.1 "Нестабильные" результаты в различных группах

После того, как была проведена нормировка, мы можем делать корректные сравнения.

Рассмотрим условное распределение "нестабильных" (1 столбец таблицы 2) сайтов на 1000 кейфраз среди одно-, двух-, трех- и четырех- сложных запросов в различных тематиках. Для наглядности, возьмем несколько тематик. Сути это не изменит, но поможет обратить внимание на характерные моменты.

  Знакомства Личные вещи Недвижимость Ремонт
1 6875 4833 5698 4822
2 15282 11841 13527 11136
3 12404 10474 10892 9791
4 15525 12141 12176 11960

Таблица 3. "Нестабильные" результаты среди одно-, двух-, трех- и четырех сложных запросов (русскоязычные тематики)

Из таблицы 3 видно, что наибольшей стабильностью отличаются группы односложных запросов (для всех тематик). Объяснение этому факту очевидно. Односложные запросы, как правило, обладают наибольшей частотностью. Борьба за результаты поиска идет очень тяжелая, и рынок давно определил лидеров. Поисковая выдача "стабильна".

Гораздо более интересный результат мы видим для трехсложных запросов. Из таблицы видно, что группа трехсложных запросов в каждой тематике ведет себя более стабильно, чем группы из двух- и четырех сложных запросов.

Предыдущие подобные исследования делались для нескольких групп англоязычных запросов. Для различных тематик было показано, что в большинстве случаев, чем больше ключевых слов в запросе, тем более "подвижная" выдача (см. таблица 4). Чем же можно объяснить такое различие англоязычной и русскоязычной выдачи одной и той же поисковой машины?

Четкий ответ могут дать только разработчики поисковых машин. Однако, мы рискнем выдвинуть версию, что алгоритмы поиска работают по-разному. В русском языке серьезное влияние может оказывать морфология запроса. Возможна ситуация, когда двух сложный запрос невозможно четко определить к той или иной тематике. Трехсложный - уже проще. В связи с этим ротация результатов и происходит чаще. Что же творится с четырехсложными запросами? Общеизвестный факт, что чем выше количество слов в запросе, тем больше вероятность, в среднем, обнаружить поисковый спам в результатах выдачи. К сожалению, вычислительных мощностей и совершенства поисковых алгоритмов не хватает пока, чтобы преодолеть этот эффект.

8.2 Сравнение тематик с различным уровнем конкуренции

В предыдущем абзаце упоминалось исследование англоязычных запросов. Хочется отметить еще один интересный факт. Среди англоязычных тематик видна существенная разница между "подвижностью" тематик. Особенно между конкурентными и не конкурентными темами. Приведенное количество "нестабильных" запросов для разных ниш может отличаться в разы. Характерная картина подвижностей для англоязычных запросов выглядит так:

Количество слов в запросе Тематики
1 2 3
1 20950 21683 16853
2 58456 22567 18731
3 85298 26964 28525

Таблица 4. "Нестабильные" результаты среди одно-, двух-, трехсложных запросов (англоязычные тематики, приведены по убыванию конкуренции). Видно, что в англоязычных тематиках "подвижности" различных ниш могут отличаться в разы. В русскоязычных тематиках ниши ведут себя одинаково.

В нашей же ситуации, если мы посмотрим на данные таблицы 2 и 3 - разница в поведении тематик на уровне статистической погрешности. И это не смотря на то, что для исследования были взяты ниши с различным уровнем конкуренции (см. раздел 4 Постановка задач и исходные данные). Этот факт говорит о том, что в англоязычном сегменте Google использует алгоритмы с учетом конкурентности запросов. В русскоязычном сегменте на данный момент мы этого не наблюдаем.

Для подтверждения этого заявления, мы можем сделать еще один показательный эксперимент.

8.3 Общее сравнение запросов с разными уровнями конкуренции

В этом разделе мы абстрагируемся от тематик, и будем рассматривать весь список запросов, участвующих в эксперименте (87 тысяч). Напомню, для каждого запроса мы имеем информацию по количеству рекламных объявлений и ценам объявлений.

Выделить среди общей базы конкурентные и не конкурентные запросы мы можем очень просто. Отсортировав все запросы по количеству объявлений, либо по значению средней цены объявления мы, затем, разделим всю базу на примерно равное количество запросов.

Разбивка базы по среднему биду Разбивка базы по количеству объявлений
Цена среднего бида Количество фраз
0,0050 … 0,0140 22 123
0,0141 … 0,0158 21 916
0,0159 … 0,0185 22 151
0,0186 … 0,8046 21 198
Количество объявлений Количество фраз
1 … 10 24 591
11 … 20 19 808
21 … 30 16 030
31 … 40 11 697
41 … 50 15 262

Таблица 5. Разбивка общей базы (87тыс запросов) по цене среднего бида и количеству объявлений (4 и 5 промежутков соответственно).

Далее делаем вычисления, аналогичные вычислениям, сделанным по тематикам. Опять все время эксперимента делим на 4 промежутка и выделяем "стабильные" и "нестабильные" области. Далее, произведя нормировку на 1000 кейфраз, будем сравнивать результаты. Обратите внимание, что база разбита на 4 промежутка в первом и 5 промежутков во втором случае. Сделано это не случайно. Как и в предыдущем случае, используя нормировку, мы можем корректно сравнивать значения.

Разбивка базы по среднему биду Разбивка базы по количеству объявлений
Цена среднего бида Нормированное количество "нестабильных" сайтов
0,0050 … 0,0140 10219
0,0141 … 0,0158 10387
0,0159 … 0,0185 9818
0,0186 … 0,8046 9116
Количество объявлений Нормированное количество "нестабильных" сайтов
1 … 10 10000
11 … 20 10623
21 … 30 11491
31 … 40 11883
41 … 50 9423

Таблица 6. Нормированное количество "нестабильных" сайтов в группах с различным уровнем конкуренции.

Сравнивая нормированное количество "нестабильных" сайтов для каждых групп, мы видим, что опять, отклонения между значениями находятся в пределах статистической погрешности.

Собственно, таблица 6 и подтверждает выводы, сделанные в разделе 8.2: мы видим что алгоритмы Google работают одинаково как для высоко- так и для низко- конкурентных запросов. В англоязычном сегменте это не так.

8.4 Разница между англоязычным и русскоязычным сегментом Google

Что бы завершить вопрос сравнения языковых сегментов, уместно сделать краткий исторический экскурс. Оптимизаторы, которые работали с поисковой системой Google 2-3 года назад, помнят, что успешность появления в результатах поиска в те времена не сильно зависела от тематики. Одни и те же методы продвижения одинаково работали во всех отраслях. Однако, со временем, стали появляться алгоритмы по улучшению качества выдачи. И, чем тематика была более коммерческой, тем эффективнее там работали новые алгоритмы. Там где не справлялись алгоритмы, вводили ручное улучшение качества поиска. Похоже, что в России мы сейчас видим англоязычный Google 3 года назад.

Давайте теперь попробуем ответить на вопрос, можем ли мы в принципе увидеть, чтобы для различных тем в русскоязычном сегменте подвижность отличалась в разы? Ответ: да, можем. Когда мы исследуем большие группы запросов, естественно, данные усредняются. Однако существуют узкие разделы упомянутых тематик, где конкуренция очень высока. Хоть там работают те же поисковые алгоритмы, существенный вклад может вносить "социальная" составляющая выдачи. Проще говоря, владельцы сайтов знают друг друга в лицо и, совместными усилиями, могут пресекать попытки появления поискового спама в тематике. Попросту говоря, сообщать о таких сайтах в службу поддержки поисковой машины. В этом случае, подвижность тематики, очевидно, снижается.

9. Определение и анализ основных игроков

До сих пор мы, в основном, оперировали понятием "стабильные" и "не стабильные" сайты. Понятно, что существенную долю "не стабильной" группы составляет поисковый спам, или, проще говоря, дорвеи. В "стабильной" группе будут преобладать белые сайты.

Имея данные, накопленные за период эксперимента, мы можем выделить основных игроков для каждой ниши среди "белых" сайтов, а так же выявить типичные схемы поискового спама, присущие каждой отдельной нише.

9.1 Определение основных игроков среди "белых" сайтов

Основными игроками среди "белых" сайтов будем считать те, которые расположены в последнем временном промежутке таблицы 1 и находятся по большому количеству поисковых запросов данной тематики.

Для удобства, исключим из рассмотрения различные справочные сайты, наподобие wikipedia.org, которые широко представлены во всех группах.

Ниша Основные игроки среди "белых" сайтов
Бизнес и финансы banki.ru, bankir.ru, quote.ru, klerk.ru
Недвижимость miel.ru, ners.ru, eip.ru, rway.ru
Промышленные товары metalloprokat.ru, neobroker.ru, ukrindustrial.com, msouz.ru
Ремонт shopvira.ru, know-house.ru, stroy-mart.ru, vashdom.ru
Телефония mobiguru.ru, mforum.ru, sotovik.ru, amobile.ru

Таблица 7. Основные игроки в каждой нише среди белых сайтов

Рассматривать все тематики не имеет особого смысла, поскольку ни механизм определения, ни суть, ни выводы, не меняются от ниши к нише. Поэтому все тематики тут и далее мы рассматривать не будем.

9.2 Анализ основных игроков среди "белых" сайтов

Рассмотрим, чем выделяются основные игроки среди "белых" сайтов в различных нишах. Для быстрого решения этой задачи нам понадобится программа seoquake.com. А именно, опция проверки поисковых параметров для списка URL-ов.

Основных игроков будем сравнивать по следующим параметрам:

Сайт G PR G Index G Link G Dmoz Age (archive.org)
banki.ru 5 142,000 1,370 1 Feb 01, 2000
bankir.ru 5 387,000 678,000 1 Jun 07, 2000
quote.ru 6 80,900 2,240 1 Dec 12, 1998
klerk.ru 5 161,000 1,440 2 Feb 02, 2002
miel.ru 6 33,100 2,760 2 Nov 28, 1999
ners.ru 4 98,300 199,000 1 May 24, 2004
eip.ru 5 64,500 193,000 1 May 11, 2000
rway.ru 5 30,600 143,000 No Dec 12, 1998
metalloprokat.ru 3 238,000 5,000 No Oct 18, 2000
neobroker.ru 5 146,000 1,080 1 Oct 16, 2003
ukrindustrial.ru 6 128,000 1,850 2 Aug 18, 2000
msouz.ru 5 34,000 116,000 No Nov 10, 2000
shopvira.ru 5 1,940 118,000 No Jan 11, 2007
know-house.ru 3 14,700 2,000 2 Sep 19, 2000
stroy-mart.ru 5 13,200 230,000 1 Dec 20, 2005
vashdom.ru 4 152,000 2,000 7 May 10, 2000
mobiguru.ru 6 16,600 7,600 No Oct 26, 2003
mforum.ru 5 47,800 580,000 1 Nov 04, 2003
sotovik.ru n/a 73,300 0,000 1 Nov 28, 1999
amobile.ru 5 38,500 73,000 No Dec 03, 2001

Таблица 8. Поисковые параметры сайтов - лидеров

* данные актуальны на время написания доклада (19 октября)

В таблице 8 перечислены параметры, напрямую связанные с результативностью поискового продвижения в Google. Относиться к этой таблице надо с осторожностью. Показания поисковой системы Google, порой, могут сильно меняться день ото дня. Теперь, отвлечемся от тематик, и посмотрим, что между этими сайтами общего.

  1. Наличие высокого Google PR по прежнему является атрибутом лидера в русскоязычном сегменте (в англоязычном сегменте это условие не обязательно)
  2. В списке лидеров почти нет новичков. Хотя мы видим несколько сайтов с датой создания 2005 и 2007 год, подавляющее большинство лидеров старше 2003 года создания.
  3. Каталог Dmoz (и, скорее всего каталог Google) по-прежнему играет существенную роль в русскоязычном сегменте

Остальные выводы требуют существенных допущений, и не совсем очевидны, поэтому предоставим сделать их уважаемым читателям.

9.3 Определение основных игроков среди поискового спама

Определять основных игроков среди поискового спама мы будем по несколько другой методике:

  1. Этот тип сайтов находится в первом временном промежутке (1-4 дня, см. таблицу 1)
  2. Рассматриваются отдельные страницы (а не домены, как в "белых" сайтах). Рассмотрение доменов не имеет смысла, потому как большая часть дорвеев, как мы увидим далее, находится на отдельных страницах привилегированных сайтов.
  3. Лидерами являются те страницы, которые появились по большему количеству поисковых запросов

Лидеры в группе поискового спама в различных тематиках Количество запросов
Бизнес и финансы  
creatureinfor.pochtamt.ru/online23.htm 128*
sander.hut2.ru/guide20.html 122
cleansend.quotaless.com/topic41.html 92
ulay.hop.ru/meta14.htm 99
Знакомства  
macrojf.quotaless.com/section17.htm 165
optimumhx.joolo.com/review19.htm 124
gigabytemorn.pop3.ru/page1.html 119
erine.hop.ru/download4.html 106
Билеты  
sparenesskm.247ihost.com/tag36.html 110
loiojr.vipcentr.ru/subject13.htm 63
ccircle23.hut2.ru/review35.htm 46
creatureinfor.pochtamt.ru/online2.htm 41

Таблица 9. Основные игроки в каждой нише среди сайтов поискового спама

* - количество запросов данной тематики, по которым страница была обнаружена в результатах поисковой выдачи в течении эксперимента
Данные действительны на время написания доклада.

В таблице 9 представлены только 3 тематики. Остальные тематики приводить не имеет смысла, поскольку лидеры в них ничем, по поведению и технологии не отличаются от тех, что приведены.

9.4 Анализ основных игроков среди поискового спама

Можно видеть, что лидеры среди группы сайтов поискового спама очень сильно похожи между собой. Основная идея подобной технологии состоит в том, чтобы обнаружить привилегированный сайт, который по ряду причин имеет преимущество в ранжировании по сравнению с другими сайтами. После этого на сайте размещается страница, или несколько страниц, оптимизированных под определенные запросы. Затем, даже после стандартных операций продвижения, такие страницы появляются в выдаче довольно быстро. Иногда процесс размещения страниц может быть предельно простым, как, например, в случае бесплатного хостинга. Однако часто встречаются сайты, контент на которых расположен явно без ведома владельца. В этом случае речь может идти как о взломе сайта, так и о других нелегальных методах доступа.

В завершении анализа опять стоит упомянуть об англоязычном секторе. Анализ показывает, что лидеры поискового спама так же имеют ряд общих признаков. Однако, в коммерческих нишах борьба идет куда более жесткая, чем мы видим в российском сегменте. Для получения большого объема поискового трафика контентосодержащие страницы размещаются на солидных сайтах, вплоть до правительственных и образовательных доменов (.gov и .edu домены).

10. Выводы

Статистическая обработка данных выдачи поисковой машины Google позволяет нам получить распределение "белых" сайтов и поискового спама для каждой ниши. Кроме этого, в каждой тематике можно выделить основных игроков как в "белых" сайтах так и в дорвеях. Так же возможно оценивать долю поискового спама в каждой группе.

Обрабатывая данные эксперимента, мы столкнулись с тем, что наблюдается значительное отличие алгоритмов работы Google в англоязычном и русскоязычном сегменте. Можно наблюдать прямые аналогии алгоритмов, которые работают в данный момент для русскоязычной части с тем, что было в англоязычной части некоторое время назад.

Наш анализ строился для большого количества запросов в каждой тематике. Понятно, что совсем не обязательно исследовать тематики столь разной направленности и работать с большими объемами данных. Если разбивать каждую тематику на подгруппы можно получать более детальную информацию по конкретным нишам поисковых запросов.

11. Заключение

Все данные для этого доклада были получены и обработаны с помощью проектов Seoquake.com, Seodigger.com и Serparchive.org. При желании, каждый может проделать подобные эксперименты с помощью этих сервисов.

Приведенные методы дают очень широкие возможности для исследований. Вот некоторые из них:

Благодарю Марию Твердохлебову за помощь
в подготовке данной статьи.
 
19.10.2007

Список используемых материалов:

  1. http://www.seoquake.com/articles/ru/article_1.php
    Особенности поведения выдачи Google в зависимости от тематики запросов.
    Англоязычный сегмент. 19 августа 2007 года.

Вы можете обсудить данную статью по этому адресу: http://blog.seoquake.com/?p=78.