Особенности поведения выдачи Google в зависимости от тематики запросов.
Бондырев Юрий
Seoquake.com, Seodigger.com, Serparchive.org
Тел: +7 (812) 923-35-77
seoquake@gmail.com
Анализ выдачи поисковой системы
Google в различных нишах.
Исследуется поведение выдачи в зависимости
от тематики, частотности и конкурентности запросов.
...Статистика интересна тем, что иногда данные не соответствуют мироощущениям...
Содержание
1. Введение
2. Эволюция алгоритмов Google
3. Понятия и определения
4. Постановка задачи и исходные данные
5. Программы и сервисы, используемые для обработки данных
6. Краевые эффекты
7. Исходная информация, полученная в результате эксперимента
8. Статистика сайтов в каждой группе
8.1 "Нестабильные" результаты в каждой группе
8.2 Сравнение тематик с различным уровнем конкуренции
8.3 Общее сравнение запросов с различными уровнями конкуренции
8.4 Разница между англоязычным и русскоязычным сегментом Google
9. Определение основных игроков
9.1 Определение основных игроков среди "белых" сайтов
9.2 Анализ основных игроков среди "белых" сайтов
9.3 Определение основных игроков среди поискового спама
9.4 Анализ основных игроков среди поискового спама
10. Выводы
11. Заключение
Со времени появления поисковых систем, структура привлечения посетителей на сайт значительно изменилась. На сегодняшний день существенная доля трафика на веб-сайты - это трафик с поисковых систем. Появление поисковых машин практически полностью изменило потребительское поведение в Интернете, позволив пользователям быть инициаторами контакта с фирмой, или веб-сайтом.
В связи с этим широкое развитие получило новое направление деятельности в сети - работа над продвижением сайтов в поисковых системах. Сейчас уже можно говорить о том, что сформирован новый рынок со своей конъюнктурой и уровнем конкуренции. Как и на любом другом рынке, на рынке поисковой оптимизации существуют свои ниши, конкуренция в которых отличается в большую, или меньшую сторону. Ниши формируются в основном по направлениям бизнеса компаний и отражающими этот бизнес ключевыми словами, которые также могут делиться на более, или менее конкурентные. Благодаря тому, что в некоторых нишах конкуренция становится все более сильной, поисковые оптимизаторы постоянно развивают используемые технологии, пытаясь отыскать более эффективный и менее затратный способ продвижения сайтов в топ результатов поиска.
С развитием рынка поисковых технологий, совершенствуются и приемы, используемые поисковыми системами. За счет необходимости удовлетворения потребительских нужд - а именно полной, релевантной выдачи по запросам - поисковые системы постоянно совершенствуют свои алгоритмы, пытаясь приблизиться к оптимальному результату. Оптимизаторам, в свою очередь, также приходится приспосабливаться к изменившимся условиям, меняя технологии продвижения. Стоит отметить, что с самого начала работы с поисковыми системами существовало два крайних полюса оптимизаторской деятельности: это "белая оптимизация" и "поисковый спам".
На сегодняшний день, большинство оптимизаторов работают, скорее где-то между этих границ. Однако, существуют люди, которые профессионально занимаются поисковым спамом (дорвеями). Очевидно, что самые передовые технологии рождаются и применяются в высококонкурентных нишах. Нередко, в первую очередь эти технологии берутся на вооружение в "черных" методах оптимизации. Анализ технологий продвижения солидных ресурсов и дорвеев, а так же их распределение в различных группах запросов поможет лучше понять механизмы работы поисковых машин. В связи с этим, целью данного доклада и будет анализ выдачи ведущей международной поисковой системы Google в зависимости от тематики и частотности запросов.
Поисковая система Google очень быстро стала популярной среди пользователей, благодаря высокому качеству поиска. За счет введения революционных технологий Google обогнал своих конкурентов и стал предоставлять пользователям наиболее полные и релевантные результаты. Таким образом, эта система стала одним из ведущих источников трафика на веб сайты. В связи с этим, количество оптимизаторов, специализирующихся на продвижении сайтов в Google неуклонно возрастало. Вместе с этим, широкое распространение получали "черные" методы оптимизации. Особенно индустрия поискового спама стала популярной после появления множества партнерских программ и Pay-Per-Click систем.
На технологии "черных" методов продвижения, команда Google отвечала введением новых технологий ранжирования и новыми фильтрами, среди которых известные Trust Runk, Florida, Hilltop и др. В результате введения новых алгоритмов количество недобросовестных ресурсов резко сокращалось, но затем технологии продвижения совершенствовалась, и в выдаче опять появлялся поисковый спам. Стоит отметить, что с введением новых алгоритмов качество поиска неуклонно улучшалось, а технологии создания поискового спама становились все более трудоемкими и затратными. Именно поэтому наиболее быстро эти технологии получали реализацию в высококонкурентных коммерческих нишах. Поскольку вычислительные мощности и совершенство алгоритмов пока еще имеют предел, логично было бы предположить, что высококонкурентным тематикам поисковик должен уделять больше внимания. И, в первую очередь, пытаться распознавать и пресекать поисковый спам в этих группах запросов.
Необходимо отметить, что все-таки русский язык не является основным для Google. И борьба со спамом наиболее активно ведется в англоязычном сегменте. Однако, с повышением платежеспособности российского Интернета разница между технологиями продвижения в этих сегментах должна стираться, впрочем, как и разница в методах борьбы со спамом.
Для того чтобы провести какой-либо анализ, необходимо ввести определения, для исключения разногласий в толковании промежуточных данных и результатов исследований. На сегодняшний день пока не существует единого глоссария по тематике поисковой оптимизации. К примеру, одно из определений поискового спама, взятое из публичных источников звучит следующим образом:
Дорвей (англ. doorway) - технология, часто используемая как метод поискового спама. Страница сайта, оптимизированная под одну или несколько поисковых фраз с целью попадания на высокие места в результатах поиска. Автоматически созданный дорвей содержит случайный текст, в котором периодически встречается нужная поисковая фраза, и потому не приносит посетителю никакой пользы. Созданный вручную дорвей может быть осмысленной страницей по узкой теме, полезной и нужной пользователю.
Подобные определения не дают четких данных для выявления поисковго спама. А более однозначных определений, увы, нет. Кроме того, с развитием технологий искусственно созданные сайты приобретают все более осмысленный вид. Порой, отличить качественный дорвей от нормального, контентного сайта под силу только профессионалу.
С определением качественных контентных сайтов дело обстоит еще сложнее. Порой обычная HTML страница с текстом обладает большим весом, чем сайт над которым трудятся солидные компании.
Исходя из этого, можно утверждать, что человек, который поставил себе целью выявить в результатах поиска дорвеи, будет руководствоваться скорее субъективными, чем объективными ощущениями.
Однако для поисковых машин такие оценки не уместны. Поисковые машины отделяют поисковый спам от контентных сайтов по множеству признаков. Набор этих признаков и их вес в принятии решения является тайной. Кроме того, технологии определения спама постоянно эволюционируют, используются новые методы оценки.
В силу вышеперечисленных обстоятельств, будет уместно абстрагироваться от популярных определений "белых" и "черных" сайтов. Для нашего анализа будет гораздо удобнее воспользоваться результатами выдачи Google и ввести новые определения с некоторыми допущениями.
"Белыми" сайтами мы будем считать сайты, которые находятся в поисковой выдаче Google значительное время по отношению к времени эксперимента (от 8 дней).
Поисковым спамом (дорвеями) будем называть сайты, которые находились в выдаче короткий промежуток времени (меньше недели).
Данные определения стоит воспринимать скорее как "вероятностные". Очевидно, что вероятность обнаружить дорвеи в первой группе гораздо ниже, чем во второй.
Однако, надо понимать, что эти определения не дают 100% однозначности определения "белых" сайтов и поискового спама. Возможны ситуации, когда в результате изменения результатов выдачи качественные сайты пропадают из поиска. Примером могут служить новостные сайты, которые публикуют материалы по рассматриваемым тематикам. После того, как содержимое страниц изменяется, страницы сайтов, со временем, пропадают из результатов поиска по данным запросам. Так же, среди сайтов, которые находятся в выдаче достаточно давно, можно обнаружить искусно подготовленный поисковый спам.
Однако можно смело утверждать, что влияние этих сайтов на картину в целом не так значительно. Кроме этого, надо учитывать, что при анализе нескольких сотен тысяч запросов невозможно подойти к рассмотрению каждого сайта индивидуально.
4. Постановка задачи и исходные данные
Для постановки эксперимента была использована база, любезно предоставленная компанией Rupoisk, состоящая из 11.5 Млн русскоязычных запросов. Для каждого запроса может быть получена следующая информация:
Из 45 тематик, представленных в первичной базе, для эксперимента были отобраны 8, по следующему принципу:
Конкурентность тематики определялась путем сравнения среднего количества объявлений. Из самого понятия конкурентности следует, что борьба между участниками рынка напряженней там, где среднее количество объявлений выше. Таким образом, после сортировки тематик по этому параметру появилась возможность отобрать ниши из высоко- и низко- конкурентных областей.
| Ниша | Конкурентность |
| Недвижимость Бизнес и финансы Знакомства Телефония Билеты (театр, выставки) Личный вещи, часы, антиквариат Ремонт Промышленные товары |
![]() |
Для каждой тематики была сформирована база одно-, двух-, трех- и четырех- сложных запросов
Общая база для анализа 87.5 тысяч запросов.
Ежедневно сохраняются и анализируются первые 20 результатов поисковой выдачи Google по каждому запросу.
Дата начала эксперимента: 4 октября
Дата окончания: 19 октября
Цель эксперимента:
5. Программы и сервисы, используемые для обработки данных
Анализ результатов выдачи производился с помощью сервисов: Seodigger.com, Serparchive.org и Seoquake.com.
Seodigger.com - онлайновый сервис, позволяющий исследовать по каким ключевым словам и фразам сайты находятся в поисковой системе Google на ведущих позициях.
Принцип работы: сервис сохраняет первые 20 результатов выдачи Google по базе из 60 миллионов популярных англоязычных запросов и 11.5 миллионов русскоязычных. После сбора данных строится "обратный индекс" и выводятся следующие данные:
Serparchive.org - онлайновый сервис, который ежедневно сохраняет первые 100 результатов выдачи по указанным пользователем запросам, в различных поисковых системах. Позволяет следить за историей позиций сайтов в поисковых системах, отслеживать изменения в выдаче, просматривать историю позиций как отдельных сайтов, так и выдачи в целом.
Seoquake.com - представлен в двух вариантах: расширение для браузера FireFox и надстройка для Internet Explorer. Предназначен для быстрого просмотра поисковых параметров сайтов непосредственно в результатах поиска ведущих поисковых систем, а также на любых других страницах (документах).
С целью уменьшения вероятности получения существенной статистической ошибки в ходе эксперимента учитывались следующие "краевые" эффекты:
Основная база: состоит из сайтов находящихся на 1-15 позициях поисковой выдачи за весь период рассмотрения.
Дополнительная база: состоит из сайтов, находящихся за весь период наблюдения на 16-20 позициях. Поисковый спам, обнаруженный по используемой методике в первой базе, проверялся на принадлежность к добросовестным сайтом во второй базе. Если было определено, что сайт во второй базе находится достаточно долго, он исключался из списка поискового спама. Далее в докладе используются данные с учетом этого краевого эффекта.
7. Исходная информация, полученная в результате эксперимента
Длительность эксперимента составила 16 дней. За этот период для каждой ключевой фразы с помощью сервиса Serparchive.org ежедневно сохранялись результаты поисковой выдачи Google. Сервис Seodigger.com вычислял, по каким запросам страница находится в результатах поиска.
Все нижеприведенные материалы и анализы будет не что иное, как статистическая обработка полученных данных.
8. Статистика сайтов в каждой группе
Используя данные ранее определения "белых" сайтов и поискового спама, мы будем оценивать статистику присутствия этих сайтов для каждой из выбранных групп ключевых фраз.
Для этого необходимо вычислить количество адресов страниц, которые находились в результатах поиска 1 день, 2 дня, 3 и т.д. вплоть до 16 дней.
Остановимся на этом поподробнее, поскольку это крайне важно для дальнейшего изложения. Допустим, какой то сайт появился в результатах поиска, был там всего один день и, затем пропал. Этому сайту присваивается флаг со значением 1 (единица). Другой сайт был в выдаче 2 дня, а затем пропал. Сайту присваивается флаг со значением 2. Следующий сайт находился в выдаче, допустим, 11 дней. Присваивается флаг 11. В результате мы смотрим, сколько сайтов с флагом 1 в каждой группе, сколько с флагом 2 и т.д. до 16 дней. Результат записываем в таблицу. Изначально таблица строится для 16 дней (длительность эксперимента).
Для более наглядного отображения информации разобьем весь период эксперимента на 4 равных временных отрезка. Для нас наибольший интерес будут представлять первый и последний отрезок. В первом, согласно нашим определениям, будут сосредоточены сайты, относящиеся к поисковому спаму, в последнем - "белые" сайты.
| Группа | 1 - 4 | 5 - 8 | 9 - 12 | 13 - 16 |
| Бизнес и финансы 1 62 * | 453** | 228 | 160 | 758 |
| Бизнес и финансы 2 2 088 | 27340 | 11584 | 8258 | 22931 |
| Бизнес и финансы 3 3 785 | 48630 | 20020 | 14378 | 36380 |
| Бизнес и финансы 4 3 221 | 41089 | 16882 | 11779 | 29680 |
| Билеты 1 48 | 279 | 139 | 116 | 653 |
| Билеты 2 1 693 | 20940 | 9025 | 6914 | 21241 |
| Билеты 3 2 118 | 24601 | 10348 | 7503 | 22687 |
| Бизнес и финансы 2 2 088 | 27340 | 11584 | 8258 | 22931 |
| Билеты 4 1 102 | 12814 | 5264 | 3665 | 10820 |
| Знакомства 1 24 | 165 | 72 | 83 | 313 |
| Знакомства 2 2 983 | 45587 | 16831 | 11615 | 30961 |
| Знакомства 3 5 408 | 67081 | 23719 | 16072 | 42065 |
| Знакомства 4 2 807 | 43579 | 14359 | 9158 | 21368 |
| Личные вещи 1 60 | 290 | 154 | 140 | 856 |
| Личные вещи 2 2 344 | 27755 | 11768 | 8799 | 26783 |
| Личные вещи 3 2 240 | 23461 | 9730 | 6851 | 21319 |
| Личные вещи 4 1 107 | 13440 | 5195 | 3539 | 10464 |
| Недвижимость 1 53 | 302 | 162 | 136 | 716 |
| Недвижимость 2 4 920 | 66553 | 26470 | 19407 | 51814 |
| Недвижимость 3 8 865 | 96560 | 38255 | 27270 | 71436 |
| Недвижимость 4 4 982 | 60663 | 23147 | 16046 | 41599 |
| Промышленные товары 1 217 | 1091 | 608 | 606 | 3132 |
| Промышленные товары 2 8 509 | 103460 | 43424 | 33163 | 98111 |
| Промышленные товары 3 6 617 | 75945 | 32781 | 23414 | 71112 |
| Промышленные товары 4 2 983 | 39408 | 16488 | 11226 | 32868 |
| Ремонт 1 118 | 569 | 296 | 291 | 1694 |
| Ремонт 2 5 404 | 60181 | 26168 | 19512 | 60375 |
| Ремонт 3 4 746 | 46468 | 19676 | 14659 | 46283 |
| Ремонт 4 2 200 | 26311 | 10697 | 7477 | 22888 |
| Телефония 1 61 | 452 | 205 | 158 | 849 |
| Телефония 2 1 424 | 19605 | 7898 | 5511 | 16799 |
| Телефония 3 2 658 | 29178 | 11592 | 8113 | 25125 |
| Телефония 4 2 541 | 27977 | 10694 | 7042 | 20340 |
| Вероятность нахождения | <<<< Дорвеи | Белые сайты >>>> | ||
Таблица 1. Статистика сайтов по длительности нахождения в выдаче Google
* - первая цифра рядом с группой означают одно, двух, трех и четырехсложные запросы соответственно. Вторая цифра - количество ключевых фраз в данной группе.
** - цифра показывает, общее количество уникальных страниц, которое находилось в выдаче Google указанное количество дней (в данном случае от 1 до 4 дней)
Если посмотреть внимательно на столбцы таблицы можно видеть, что абсолютные значения больше в первом и последнем столбцах с данными. Это легко объяснимо. В правой колонке находятся преимущественно стабильные, общепризнанные сайты, позиция которых не сильно меняется день ото дня. Это явные лидеры своей отрасли, поисковая машина считает эти сайты релевантными обозначенной группе запросов. Если бы поисковая выдача не менялась совсем, то ненулевые числа присутствовали только в последнем столбце.
В первом столбце (1-4 дня) присутствуют "нестабильные" сайты. В принципе, чем чаще меняется поисковая выдача, тем значения в этом столбце больше относительно других групп.
Нужно четко понимать, что общее количество позиций, а именно, сумма позиций по столбцам для данной группы, есть константа. Если бы в каждой строчке поисковых результатов находился уникальный адрес, то общее количество определялось бы формулой:
Количество позиций = 20 х 16 х (количество ключевых фраз)
Где
20 - это количество обрабатываемых результатов выдачи.
16 - длительность эксперимента в днях.
В реальности, сумма всех столбцов оказывается меньше этого значения. Это объясняется тем, что один и тот же web-адрес может присутствовать в результатах поиска по нескольким запросам.
Если мы хотим в результате эксперимента сравнивать "стабильные" и "не стабильные" группы сайтов, из таблицы 1 легко можно выяснить время, необходимое для эксперимента.
Понятно, что при уменьшении количества дней, разница между этими группами будет стираться, точнее мы ее не заметим. При значительном увеличении длительности эксперимента разница будет все более ощутимая, при этом последний столбец будет оставаться примерно постоянным, а значения промежуточных столбцов будет уменьшаться относительно первого столбца.
В нашем случае на периоде 16 дней уже можно делать определенные выводы. Однако, для того что бы продолжить рассмотрение, нам необходимо сделать еще ряд несложных операций.
Итак, в таблице 1 представлено распределение сайтов по длительности вхождения в выдачу за время эксперимента. Мы пока не можем сравнивать эти данные, поскольку группы односложных, двух и трех сложных запросов содержат разное количество кейфраз, и, соответственно, количество сайтов в каждой группе за время эксперимента будет разное.
Для того можно было корректно сравнивать между собой, необходимо пронормировать полученные данные по количеству кейвордов в каждой группе. Будем нормировать все результаты на 1000 кейфраз.
| Группа | 1 - 4 | 5 - 8 | 9 - 12 | 13 - 16 |
| Бизнес и финансы 1 | 7306 | 3677 | 2581 | 12226 |
| Бизнес и финансы 2 | 13094 | 5548 | 3955 | 10982 |
| Бизнес и финансы 3 | 12848 | 5289 | 3799 | 9612 |
| Бизнес и финансы 4 | 12757 | 5241 | 3657 | 9215 |
| Билеты 1 | 5813 | 2896 | 2417 | 13604 |
| Билеты 2 | 12369 | 5331 | 4084 | 12546 |
| Билеты 3 | 11615 | 4886 | 3542 | 10712 |
| Бизнес и финансы 2 | 11628 | 4777 | 3326 | 9819 |
| Билеты 4 | 6875 | 3000 | 3458 | 13042 |
| Знакомства 1 | 15282 | 5642 | 3894 | 10379 |
| Знакомства 2 | 12404 | 4386 | 2972 | 7778 |
| Знакомства 3 | 12404 | 4386 | 2972 | 7778 |
| Знакомства 4 | 15525 | 5115 | 3263 | 7612 |
| Личные вещи 1 | 4833 | 2567 | 2333 | 14267 |
| Личные вещи 2 | 11841 | 5020 | 3754 | 11426 |
| Личные вещи 3 | 10474 | 4344 | 3058 | 9517 |
| Личные вещи 4 | 12141 | 4693 | 3197 | 9453 |
| Недвижимость 1 | 5698 | 3057 | 2566 | 13509 |
| Недвижимость 2 | 13527 | 5380 | 3945 | 10531 |
| Недвижимость 3 | 10892 | 4315 | 3076 | 8058 |
| Недвижимость 4 | 12176 | 4646 | 3221 | 8350 |
| Промышленные товары 1 | 5028 | 2802 | 2793 | 14433 |
| Промышленные товары 2 | 12159 | 5103 | 3897 | 11530 |
| Промышленные товары 3 | 11477 | 4954 | 3538 | 10747 |
| Промышленные товары 4 | 13211 | 5527 | 3763 | 11018 |
| Ремонт 1 | 4822 | 2508 | 2466 | 14356 |
| Ремонт 2 | 11136 | 4842 | 3611 | 11172 |
| Ремонт 3 | 9791 | 4146 | 3089 | 9752 |
| Ремонт 4 | 11960 | 4862 | 3399 | 10404 |
| Телефония 1 | 7410 | 3361 | 2590 | 13918 |
| Телефония 2 | 13768 | 5546 | 3870 | 11797 |
| Телефония 3 | 10977 | 4361 | 3052 | 9453 |
| Телефония 4 | 11010 | 4209 | 2771 | 8005 |
| Вероятность нахождения | <<<< Дорвеи | Белые сайты >>>> | ||
Таблица 2. Нормированная статистика стайтов по длительности нахождения в результатх поиска. (Получена путем нормировки таблицы 1.)
Каждая цифра в таблице означает условное количество сайтов нормированное на 1000 ключевых фраз. Теперь, анализируя эти данные, мы можем говорить, для каких групп результаты поисковой выдачи более "подвижные", а где ситуация "стабильнее". Причем сравнивать можно не только группы с разным количеством ключевых фраз, но и группы различных тематик. Это сравнение представляет не только академический интерес. Вероятнее всего, достигнуть определенных результатов по выводу сайта в результаты поиска проще там, где поисковая выдача более подвижна. Исходя из этого, можно планировать стратегию продвижения ресурса.
Теперь попытаемся разобраться в полученных данных.
8.1 "Нестабильные" результаты в различных группах
После того, как была проведена нормировка, мы можем делать корректные сравнения.
Рассмотрим условное распределение "нестабильных" (1 столбец таблицы 2) сайтов на 1000 кейфраз среди одно-, двух-, трех- и четырех- сложных запросов в различных тематиках. Для наглядности, возьмем несколько тематик. Сути это не изменит, но поможет обратить внимание на характерные моменты.
| Знакомства | Личные вещи | Недвижимость | Ремонт | |
| 1 | 6875 | 4833 | 5698 | 4822 |
| 2 | 15282 | 11841 | 13527 | 11136 |
| 3 | 12404 | 10474 | 10892 | 9791 |
| 4 | 15525 | 12141 | 12176 | 11960 |
Таблица 3. "Нестабильные" результаты среди одно-, двух-, трех- и четырех сложных запросов (русскоязычные тематики)
Из таблицы 3 видно, что наибольшей стабильностью отличаются группы односложных запросов (для всех тематик). Объяснение этому факту очевидно. Односложные запросы, как правило, обладают наибольшей частотностью. Борьба за результаты поиска идет очень тяжелая, и рынок давно определил лидеров. Поисковая выдача "стабильна".
Гораздо более интересный результат мы видим для трехсложных запросов. Из таблицы видно, что группа трехсложных запросов в каждой тематике ведет себя более стабильно, чем группы из двух- и четырех сложных запросов.
Предыдущие подобные исследования делались для нескольких групп англоязычных запросов. Для различных тематик было показано, что в большинстве случаев, чем больше ключевых слов в запросе, тем более "подвижная" выдача (см. таблица 4). Чем же можно объяснить такое различие англоязычной и русскоязычной выдачи одной и той же поисковой машины?
Четкий ответ могут дать только разработчики поисковых машин. Однако, мы рискнем выдвинуть версию, что алгоритмы поиска работают по-разному. В русском языке серьезное влияние может оказывать морфология запроса. Возможна ситуация, когда двух сложный запрос невозможно четко определить к той или иной тематике. Трехсложный - уже проще. В связи с этим ротация результатов и происходит чаще. Что же творится с четырехсложными запросами? Общеизвестный факт, что чем выше количество слов в запросе, тем больше вероятность, в среднем, обнаружить поисковый спам в результатах выдачи. К сожалению, вычислительных мощностей и совершенства поисковых алгоритмов не хватает пока, чтобы преодолеть этот эффект.
8.2 Сравнение тематик с различным уровнем конкуренции
В предыдущем абзаце упоминалось исследование англоязычных запросов. Хочется отметить еще один интересный факт. Среди англоязычных тематик видна существенная разница между "подвижностью" тематик. Особенно между конкурентными и не конкурентными темами. Приведенное количество "нестабильных" запросов для разных ниш может отличаться в разы. Характерная картина подвижностей для англоязычных запросов выглядит так:
| Количество слов в запросе | Тематики | ||
| 1 | 2 | 3 | |
| 1 | 20950 | 21683 | 16853 |
| 2 | 58456 | 22567 | 18731 |
| 3 | 85298 | 26964 | 28525 |
Таблица 4. "Нестабильные" результаты среди одно-, двух-, трехсложных запросов (англоязычные тематики, приведены по убыванию конкуренции). Видно, что в англоязычных тематиках "подвижности" различных ниш могут отличаться в разы. В русскоязычных тематиках ниши ведут себя одинаково.
В нашей же ситуации, если мы посмотрим на данные таблицы 2 и 3 - разница в поведении тематик на уровне статистической погрешности. И это не смотря на то, что для исследования были взяты ниши с различным уровнем конкуренции (см. раздел 4 Постановка задач и исходные данные). Этот факт говорит о том, что в англоязычном сегменте Google использует алгоритмы с учетом конкурентности запросов. В русскоязычном сегменте на данный момент мы этого не наблюдаем.
Для подтверждения этого заявления, мы можем сделать еще один показательный эксперимент.
8.3 Общее сравнение запросов с разными уровнями конкуренции
В этом разделе мы абстрагируемся от тематик, и будем рассматривать весь список запросов, участвующих в эксперименте (87 тысяч). Напомню, для каждого запроса мы имеем информацию по количеству рекламных объявлений и ценам объявлений.
Выделить среди общей базы конкурентные и не конкурентные запросы мы можем очень просто. Отсортировав все запросы по количеству объявлений, либо по значению средней цены объявления мы, затем, разделим всю базу на примерно равное количество запросов.
| Разбивка базы по среднему биду | Разбивка базы по количеству объявлений | ||||||||||||||||||||||
|
|
Таблица 5. Разбивка общей базы (87тыс запросов) по цене среднего бида и количеству объявлений (4 и 5 промежутков соответственно).
Далее делаем вычисления, аналогичные вычислениям, сделанным по тематикам. Опять все время эксперимента делим на 4 промежутка и выделяем "стабильные" и "нестабильные" области. Далее, произведя нормировку на 1000 кейфраз, будем сравнивать результаты. Обратите внимание, что база разбита на 4 промежутка в первом и 5 промежутков во втором случае. Сделано это не случайно. Как и в предыдущем случае, используя нормировку, мы можем корректно сравнивать значения.
| Разбивка базы по среднему биду | Разбивка базы по количеству объявлений | ||||||||||||||||||||||
|
|
Таблица 6. Нормированное количество "нестабильных" сайтов в группах с различным уровнем конкуренции.
Сравнивая нормированное количество "нестабильных" сайтов для каждых групп, мы видим, что опять, отклонения между значениями находятся в пределах статистической погрешности.
Собственно, таблица 6 и подтверждает выводы, сделанные в разделе 8.2: мы видим что алгоритмы Google работают одинаково как для высоко- так и для низко- конкурентных запросов. В англоязычном сегменте это не так.
8.4 Разница между англоязычным и русскоязычным сегментом Google
Что бы завершить вопрос сравнения языковых сегментов, уместно сделать краткий исторический экскурс. Оптимизаторы, которые работали с поисковой системой Google 2-3 года назад, помнят, что успешность появления в результатах поиска в те времена не сильно зависела от тематики. Одни и те же методы продвижения одинаково работали во всех отраслях. Однако, со временем, стали появляться алгоритмы по улучшению качества выдачи. И, чем тематика была более коммерческой, тем эффективнее там работали новые алгоритмы. Там где не справлялись алгоритмы, вводили ручное улучшение качества поиска. Похоже, что в России мы сейчас видим англоязычный Google 3 года назад.
Давайте теперь попробуем ответить на вопрос, можем ли мы в принципе увидеть, чтобы для различных тем в русскоязычном сегменте подвижность отличалась в разы? Ответ: да, можем. Когда мы исследуем большие группы запросов, естественно, данные усредняются. Однако существуют узкие разделы упомянутых тематик, где конкуренция очень высока. Хоть там работают те же поисковые алгоритмы, существенный вклад может вносить "социальная" составляющая выдачи. Проще говоря, владельцы сайтов знают друг друга в лицо и, совместными усилиями, могут пресекать попытки появления поискового спама в тематике. Попросту говоря, сообщать о таких сайтах в службу поддержки поисковой машины. В этом случае, подвижность тематики, очевидно, снижается.
9. Определение и анализ основных игроков
До сих пор мы, в основном, оперировали понятием "стабильные" и "не стабильные" сайты. Понятно, что существенную долю "не стабильной" группы составляет поисковый спам, или, проще говоря, дорвеи. В "стабильной" группе будут преобладать белые сайты.
Имея данные, накопленные за период эксперимента, мы можем выделить основных игроков для каждой ниши среди "белых" сайтов, а так же выявить типичные схемы поискового спама, присущие каждой отдельной нише.
9.1 Определение основных игроков среди "белых" сайтов
Основными игроками среди "белых" сайтов будем считать те, которые расположены в последнем временном промежутке таблицы 1 и находятся по большому количеству поисковых запросов данной тематики.
Для удобства, исключим из рассмотрения различные справочные сайты, наподобие wikipedia.org, которые широко представлены во всех группах.
| Ниша | Основные игроки среди "белых" сайтов |
| Бизнес и финансы | banki.ru, bankir.ru, quote.ru, klerk.ru |
| Недвижимость | miel.ru, ners.ru, eip.ru, rway.ru |
| Промышленные товары | metalloprokat.ru, neobroker.ru, ukrindustrial.com, msouz.ru |
| Ремонт | shopvira.ru, know-house.ru, stroy-mart.ru, vashdom.ru |
| Телефония | mobiguru.ru, mforum.ru, sotovik.ru, amobile.ru |
Таблица 7. Основные игроки в каждой нише среди белых сайтов
Рассматривать все тематики не имеет особого смысла, поскольку ни механизм определения, ни суть, ни выводы, не меняются от ниши к нише. Поэтому все тематики тут и далее мы рассматривать не будем.
9.2 Анализ основных игроков среди "белых" сайтов
Рассмотрим, чем выделяются основные игроки среди "белых" сайтов в различных нишах. Для быстрого решения этой задачи нам понадобится программа seoquake.com. А именно, опция проверки поисковых параметров для списка URL-ов.
Основных игроков будем сравнивать по следующим параметрам:
| Сайт | G PR | G Index | G Link | G Dmoz | Age (archive.org) |
| banki.ru | 5 | 142,000 | 1,370 | 1 | Feb 01, 2000 |
| bankir.ru | 5 | 387,000 | 678,000 | 1 | Jun 07, 2000 |
| quote.ru | 6 | 80,900 | 2,240 | 1 | Dec 12, 1998 |
| klerk.ru | 5 | 161,000 | 1,440 | 2 | Feb 02, 2002 |
| miel.ru | 6 | 33,100 | 2,760 | 2 | Nov 28, 1999 |
| ners.ru | 4 | 98,300 | 199,000 | 1 | May 24, 2004 |
| eip.ru | 5 | 64,500 | 193,000 | 1 | May 11, 2000 |
| rway.ru | 5 | 30,600 | 143,000 | No | Dec 12, 1998 |
| metalloprokat.ru | 3 | 238,000 | 5,000 | No | Oct 18, 2000 |
| neobroker.ru | 5 | 146,000 | 1,080 | 1 | Oct 16, 2003 |
| ukrindustrial.ru | 6 | 128,000 | 1,850 | 2 | Aug 18, 2000 |
| msouz.ru | 5 | 34,000 | 116,000 | No | Nov 10, 2000 |
| shopvira.ru | 5 | 1,940 | 118,000 | No | Jan 11, 2007 |
| know-house.ru | 3 | 14,700 | 2,000 | 2 | Sep 19, 2000 |
| stroy-mart.ru | 5 | 13,200 | 230,000 | 1 | Dec 20, 2005 |
| vashdom.ru | 4 | 152,000 | 2,000 | 7 | May 10, 2000 |
| mobiguru.ru | 6 | 16,600 | 7,600 | No | Oct 26, 2003 |
| mforum.ru | 5 | 47,800 | 580,000 | 1 | Nov 04, 2003 |
| sotovik.ru | n/a | 73,300 | 0,000 | 1 | Nov 28, 1999 |
| amobile.ru | 5 | 38,500 | 73,000 | No | Dec 03, 2001 |
Таблица 8. Поисковые параметры сайтов - лидеров
* данные актуальны на время написания доклада (19 октября)
В таблице 8 перечислены параметры, напрямую связанные с результативностью поискового продвижения в Google. Относиться к этой таблице надо с осторожностью. Показания поисковой системы Google, порой, могут сильно меняться день ото дня. Теперь, отвлечемся от тематик, и посмотрим, что между этими сайтами общего.
Остальные выводы требуют существенных допущений, и не совсем очевидны, поэтому предоставим сделать их уважаемым читателям.
9.3 Определение основных игроков среди поискового спама
Определять основных игроков среди поискового спама мы будем по несколько другой методике:
| Лидеры в группе поискового спама в различных тематиках | Количество запросов |
| Бизнес и финансы | |
| creatureinfor.pochtamt.ru/online23.htm | 128* |
| sander.hut2.ru/guide20.html | 122 |
| cleansend.quotaless.com/topic41.html | 92 |
| ulay.hop.ru/meta14.htm | 99 |
| Знакомства | |
| macrojf.quotaless.com/section17.htm | 165 |
| optimumhx.joolo.com/review19.htm | 124 |
| gigabytemorn.pop3.ru/page1.html | 119 |
| erine.hop.ru/download4.html | 106 |
| Билеты | |
| sparenesskm.247ihost.com/tag36.html | 110 |
| loiojr.vipcentr.ru/subject13.htm | 63 |
| ccircle23.hut2.ru/review35.htm | 46 |
| creatureinfor.pochtamt.ru/online2.htm | 41 |
Таблица 9. Основные игроки в каждой нише среди сайтов поискового спама
* - количество запросов данной тематики, по которым страница была обнаружена в результатах поисковой выдачи в течении эксперимента
Данные действительны на время написания доклада.
В таблице 9 представлены только 3 тематики. Остальные тематики приводить не имеет смысла, поскольку лидеры в них ничем, по поведению и технологии не отличаются от тех, что приведены.
9.4 Анализ основных игроков среди поискового спама
Можно видеть, что лидеры среди группы сайтов поискового спама очень сильно похожи между собой. Основная идея подобной технологии состоит в том, чтобы обнаружить привилегированный сайт, который по ряду причин имеет преимущество в ранжировании по сравнению с другими сайтами. После этого на сайте размещается страница, или несколько страниц, оптимизированных под определенные запросы. Затем, даже после стандартных операций продвижения, такие страницы появляются в выдаче довольно быстро. Иногда процесс размещения страниц может быть предельно простым, как, например, в случае бесплатного хостинга. Однако часто встречаются сайты, контент на которых расположен явно без ведома владельца. В этом случае речь может идти как о взломе сайта, так и о других нелегальных методах доступа.
В завершении анализа опять стоит упомянуть об англоязычном секторе. Анализ показывает, что лидеры поискового спама так же имеют ряд общих признаков. Однако, в коммерческих нишах борьба идет куда более жесткая, чем мы видим в российском сегменте. Для получения большого объема поискового трафика контентосодержащие страницы размещаются на солидных сайтах, вплоть до правительственных и образовательных доменов (.gov и .edu домены).
Статистическая обработка данных выдачи поисковой машины Google позволяет нам получить распределение "белых" сайтов и поискового спама для каждой ниши. Кроме этого, в каждой тематике можно выделить основных игроков как в "белых" сайтах так и в дорвеях. Так же возможно оценивать долю поискового спама в каждой группе.
Обрабатывая данные эксперимента, мы столкнулись с тем, что наблюдается значительное отличие алгоритмов работы Google в англоязычном и русскоязычном сегменте. Можно наблюдать прямые аналогии алгоритмов, которые работают в данный момент для русскоязычной части с тем, что было в англоязычной части некоторое время назад.
Наш анализ строился для большого количества запросов в каждой тематике. Понятно, что совсем не обязательно исследовать тематики столь разной направленности и работать с большими объемами данных. Если разбивать каждую тематику на подгруппы можно получать более детальную информацию по конкретным нишам поисковых запросов.
Все данные для этого доклада были получены и обработаны с помощью проектов Seoquake.com, Seodigger.com и Serparchive.org. При желании, каждый может проделать подобные эксперименты с помощью этих сервисов.
Приведенные методы дают очень широкие возможности для исследований. Вот некоторые из них:
Благодарю Марию Твердохлебову за помощь
в подготовке данной статьи.
19.10.2007
Список используемых материалов:
Вы можете обсудить данную статью по этому адресу: http://blog.seoquake.com/?p=78.