Особенности поведения выдачи Google в зависимости от тематики запросов.
Бондырев Юрий
Seoquake.com, Seodigger.com, Serparchive.org
Тел: +7 (812) 923-35-77
seoquake@gmail.com
Анализ выдачи поисковой системы
Google в различных нишах.
Исследуется поведение выдачи в зависимости
от тематики и частотности запросов.
Содержание
1. Введение
2. Эволюция алгоритмов Google
3. Понятия и определения
4. Постановка задачи и исходные данные
5. Программы и сервисы, используемые для обработки данных
6. Краевые эффекты
7. Исходная информация, полученная в результате эксперимента
8. Статистика сайтов в каждой группе
8.1 Распределение дорвеев в каждой нише
8.2 Количество дорвеев в каждой тематике
9. Определение основных игроков
9.1 Анализ основных игроков среди белых сайтов
10. Выводы
11. Заключение
Поисковый трафик традиционно считается наиболее ценным с момента появления поисковых машин в сети Интернет. Тысячи вебмастеров ежедневно трудятся над оптимизацией сайтов, с целью получения нужных позиций в результатах поиска. Не секрет, что трудозатраты и стоимость продвижения сайта очень сильно зависят от тематики и частотности запросов. Более того, для различных ниш присущи различные механизмы продвижения. Естественно, что серьезным двигателем появления новых технологий продвижения является конкуренция между игроками рынка.
С появлением новых механизмов конвертации трафика грань между коммерческими и некоммерческими запросами стала размываться. Однако и сейчас можно утверждать, что существуют области запросов, где идет напряженная борьба между участниками рынка, а есть тематики, где поисковый трафик менее привлекателен.
Поисковые машины, тоже, в свою очередь не стоят на месте. Постоянно совершенствуются механизмы ранжирования, наращиваются серверные мощности, вводится модерация поисковой выдачи и так далее. Это приводит к тому, что технологии, которые давали гарантированный результат вчера, сегодня могут быть уже не актуальными.
Однако количество пользователей сети Интернет неуклонно растет. Растет и объем информации, представленной на сайтах. Сложно сказать, когда объем вычислительных мощностей поисковиков будет достаточно велик, что бы обеспечить релевантную выдачу по всем тематикам и запросам, интересующим пользователей. На данный момент, изучая результаты поиска можно увидеть как серьезные, контентные сайты, так и поисковый спам (дорвеи). В различных тематиках соотношение между этими группами будет различно. Мы не будем касаться этических и экономических аспектов поискового спама. Это тема для отдельной дискуссии.
Целью данного доклада будет анализ выдачи ведущей поисковой системы Google в зависимости от тематики и частотности запросов.
Поисковая система Google довольно быстро стала популярной благодаря качеству поиска. Во многом благодаря революционной технологии Page Rank'а. За короткий промежуток времени Google обогнал по посещаемости всех конкурентов, став мощнейшим источником трафика для сайтов. Естественно, что появилось много вебмастеров, специализирующихся на оптимизации сайтов под Google.
В частности, широкое распространение получили "черные" методы оптимизации. Особенно индустрия поискового спама стала популярной после появления множества партнерских программ и Pay-Per-Click систем.
Для любой поисковой системы проблема "спама" является одной из самых насущных. Для борьбы со спамом Google стал принимать энергичные меры. Так, многие помнят нашумевшие технологии Florida, Hilltop, Trust Rank и др. В результате введения новых алгоритмов количество недобросовестных ресурсов резко сокращалось. Затем, технологии продвижения совершенствовалась, и в выдаче опять появлялись "дорвеи".
Справедливости ради, надо сказать, что с введением всех этих алгоритмов качество поиска Google неизменно улучшалось. А продвижение "недобросовестных" ресурсов все более ресурсоемко и экономически затратно. Наиболее быстро усилия по преодолению новых фильтров и алгоритмов реализуются в коммерческих нишах. Соответственно, со стороны Google этим направлениям и тематикам уделяется пристальное внимание.
С некоторого времени становится очевидно, что в различных тематиках поисковые результаты Google ведут себя по-разному.
Перед началом анализа нам необходимо ввести некоторые определения, что бы исключить разногласия в толковании результатов. Задача не из легких, поскольку Интернет общественность так и не пришла к единому мнению, что считать качественным сайтом, а что считать поисковым спамом.
Начнем с поискового спама (дорвеев). Определений данной технологии давалось очень много. Вот одно из них:
Дорвей (англ. doorway) - технология, часто используемая как метод поискового спама. Страница сайта, оптимизированная под одну или несколько поисковых фраз с целью попадания на высокие места в результатах поиска. Автоматически созданный дорвей содержит случайный текст, в котором периодически встречается нужная поисковая фраза, и потому не приносит посетителю никакой пользы. Созданный вручную дорвей может быть осмысленной страницей по узкой теме, полезной и нужной пользователю.
Подобные определения не дают четких данных для выявления дорвеев. А более однозначных определений, увы, нет. Кроме того, с развитием технологий искусственно созданные сайты приобретают все более осмысленный вид. Порой, отличить качественный дорвей от нормального, контентного сайта под силу только профессионалу.
С определением качественных контентных сайтов дело обстоит еще сложнее. Порой обычная HTML страница с текстом обладает большим весом, чем сайт над которым трудятся солидные компании.
Исходя из этого, можно утверждать, что человек, который поставил себе целью выявить в результатах поиска дорвеи, будет руководствоваться скорее субъективными, чем объективными ощущениями.
Однако для поисковых машин такие оценки не уместны. Поисковые машины отделяют поисковый спам от контентных сайтов по множеству признаков. Набор этих признаков и их вес в принятии решения является тайной. Кроме того, технологии определения спама постоянно эволюционируют, используются новые методы оценки.
В силу вышеперечисленных обстоятельств, будет уместно абстрагироваться от популярных определений "белых" и "черных" сайтов. Для нашего анализа будет гораздо удобнее воспользоваться результатами выдачи Google и ввести новые определения с некоторыми допущениями.
"Белыми" сайтами мы будем считать сайты, которые находятся в поисковой выдаче Google значительное время по отношению к времени эксперимента (от 18 дней).
Поисковым спамом (дорвеями) будем называть сайты, которые находились в выдаче короткий промежуток времени (меньше недели).
Данные определения стоит воспринимать скорее как "вероятностные". Очевидно, что вероятность обнаружить дорвеи в первой группе гораздо ниже, чем во второй.
Однако, надо понимать, что эти определения не дают 100% однозначности определения "белых" сайтов и поискового спама. Возможны ситуации, когда в результате изменения результатов выдачи качественные сайты пропадают из поиска. Примером могут служить новостные сайты, которые публикуют материалы по рассматриваемым тематикам. После того, как содержимое страниц изменяется, страницы сайтов, со временем, пропадают из результатов поиска по данным запросам. Так же, среди сайтов, которые находятся в выдаче достаточно давно, можно обнаружить искусно подготовленный поисковый спам.
Однако можно смело утверждать, что влияние этих сайтов на картину в целом не так значительно. Кроме этого, надо учитывать, что при анализе нескольких сотен тысяч запросов невозможно подойти к рассмотрению каждого сайта индивидуально.
4. Постановка задачи и исходные данные
Для исследования поведения Google в различных тематиках нами были взяты 6 ниш.
Для каждой ниши была сформирована база одно-, двух- и трех сложных запросов (источник - wordtracker.com)
Общее количество запросов в каждой базе - 30.000
Общая база для анализа 30.000 х 6 = 180.000 запросов.
Ежедневно сохраняются и анализируются первые 20 результатов поисковой выдачи по каждому запросу.
Дата начала эксперимента: 12 июля
Дата окончания: 19 августа
Цель эксперимента:
5. Программы и сервисы, используемые для обработки данных
Анализ результатов выдачи производился с помощью сервисов: Seodigger.com, Serparchive.org и Seoquake.com.
Seodigger.com - сервис, который позволяет исследовать по каким ключевым словам и фразам сайты находятся в поисковой системе Google.
Принцип работы: Сервис сохраняет первые 20 результатов выдачи Google по 44 миллионам популярных запросов. После сбора данных строятся соответствия:
Serparchive.org - сервис, который ежедневно сохраняет первые 100 результатов выдачи по указанным запросам в различных поисковых системах. Позволяет следить за историей позиций сайтов в поисковых системах.
Seoquake.com - расширение для браузера FireFox. Предназначен для быстрого просмотра параметров сайтов в результатах поиска ведущих поисковых систем , а также на любых других страницах (документах).
Для того, что бы наш анализ был до конца корректным, нам необходимо учесть "краевые" эффекты.
7. Исходная информация, полученная в результате эксперимента
Длительность эксперимента составила 36 дней. За этот период для каждой ключевой фразы с помощью сервиса Serparchive.org ежедневно сохранялись результаты поисковой выдачи Google. Сервис Seodigger.com вычислял, по каким запросам страница находится в результатах поиска.
Все нижеприведенные материалы и анализы будет не что иное, как статистическая обработка полученных данных.
8. Статистика сайтов в каждой группе
Используя данные ранее определения "белых" сайтов и поискового спама, мы будем оценивать статистику присутствия этих сайтов для каждой из выбранных групп ключевых фраз.
Для этого необходимо вычислить количество адресов страниц, которые находились в результатах поиска 1 день, 2 дня, 3 и т.д. вплоть до 36 дней. Для более наглядного отображения информации разобьем весь период эксперимента на 6 равных временных отрезков. Для нас наибольший интерес будут представлять первый и последний отрезок. В первом, согласно нашим определениям, будут сосредоточены сайты, относящиеся к поисковому спаму, в последнем - "белые" сайты.
| Группа | 1 - 6 | 7 - 12 | 13 - 18 | 19 - 24 | 25 - 30 | 31 - 36 |
| Adults 1 | 838** | 241 | 159 | 127 | 152 | 402 |
| Adults 2 | 503250 | 58910 | 29515 | 22410 | 24176 | 84909 |
| Adults 3 | 1947145 | 156474 | 13963 | 14883 | 25320 | 116502 |
| Cars 1 | 5616 | 1810 | 939 | 651 | 699 | 2896 |
| Cars 2 | 281164 | 70326 | 37187 | 27751 | 29255 | 154664 |
| Cars 3 | 647145 | 145474 | 73969 | 53883 | 57320 | 286902 |
| Casino 1 | 9955 | 3311 | 1834 | 1293 | 1450 | 5067 |
| Casino 2 | 196810 | 52148 | 28561 | 22326 | 23272 | 117990 |
| Casino 3 | 538990 | 132745 | 74220 | 55579 | 57562 | 295333 |
| Dating 1 | 1666 | 463 | 264 | 150 | 173 | 616 |
| Dating 2 | 88139 | 21638 | 11826 | 8802 | 9368 | 43310 |
| Dating 3 | 721208 | 128039 | 64727 | 46641 | 47790 | 200827 |
| Gifts 1 | 573 | 203 | 113 | 71 | 87 | 426 |
| Gifts 2 | 49843 | 12672 | 6821 | 5499 | 5875 | 35720 |
| Gifts 3 | 635098 | 133249 | 69386 | 52307 | 54656 | 265006 |
| Pills 1 | 1056 | 185 | 90 | 100 | 80 | 505 |
| Pills 2 | 234692 | 23225 | 10795 | 8049 | 7414 | 35713 |
| Pills 3 | 303830 | 29824 | 13618 | 10018 | 9660 | 43894 |
| <<<< Дорвеи | Белые сайты >>>> | |||||
Таблица 1. Статистика сайтов по длительности нахождения в выдаче Google
* - цифры рядом с группой означают одно, двух и трех сложные запросы соответсвенно.
** - цифра показывает, общее количество уникальных страниц, которое находилось в выдаче Google указанное количество дней
В таблице 1 представлено распределение сайтов по длительности вхождения в выдачу за время эксперимента. Однако мы пока не можем сравнивать эти данные, поскольку группы односложных, двух и трех сложных запросов содержат разное количество кейфраз, и, соответственно, количество сайтов в каждой группе за время эксперимента будет разное.
Для того можно было корректно сравнивать между собой, необходимо пронормировать полученные данные по количеству кейвордов в каждой группе. Будем нормировать все результаты на 1000 кейфраз.
| Группа | 1 - 6 | 7 - 12 | 13 - 18 | 19 - 24 | 25 - 30 | 31 - 36 |
| Adults 1 | 20950* | 6025 | 3975 | 3175 | 3800 | 10050 |
| Adults 2 | 58456 | 6843 | 3428 | 2603 | 2808 | 9863 |
| Adults 3 | 85298 | 6520 | 582 | 537 | 847 | 4438 |
| Pills 1 | 27077 | 4744 | 2308 | 2564 | 2051 | 12949 |
| Pills 2 | 67421 | 6672 | 3101 | 2312 | 2130 | 10259 |
| Pills 3 | 69288 | 6801 | 3106 | 2285 | 2203 | 10010 |
| Dating 1 | 27767 | 7717 | 4400 | 2500 | 2883 | 10267 |
| Dating 2 | 24161 | 5931 | 3242 | 2413 | 2568 | 11872 |
| Dating 3 | 38864 | 6900 | 3488 | 2513 | 2575 | 10822 |
| Cars 1 | 21683 | 6988 | 3625 | 2514 | 2699 | 11181 |
| Cars 2 | 22567 | 5645 | 2985 | 2227 | 2348 | 12414 |
| Cars 3 | 26964 | 6061 | 3082 | 2245 | 2388 | 11954 |
| Gifts 1 | 16853 | 5971 | 3324 | 2088 | 2559 | 12529 |
| Gifts 2 | 18731 | 4762 | 2563 | 2067 | 2208 | 13424 |
| Gifts 3 | 28525 | 5985 | 3116 | 2349 | 2455 | 11902 |
| Casino 1 | 20071 | 6675 | 3698 | 2607 | 2923 | 10216 |
| Casino 2 | 20600 | 5458 | 2989 | 2337 | 2436 | 12350 |
| Casino 3 | 22458 | 5531 | 3093 | 2316 | 2398 | 12306 |
| <<<< Дорвеи | Белые сайты >>>> | |||||
Таблица 2. Нормированная статистика стайтов по длительности нахождения в результатх поиска. (Получена путем нормировки таблицы 1.)
- Таблица построена в порядке убывания дорвеев в нишах.
Таким образом, каждая цифра в таблице означает условное количество сайтов нормированное на 1000 кейфраз. Скажем, из таблицы, мы можем сказать, что для группы Adult 1 количество дорвеев на 1000 фраз составило 20950 за время эксперимента (левый столбец).
Теперь попытаемся разобраться в полученных данных.
8.1 Распределение дорвеев в различных нишах
После того, как была проведена нормировка, мы можем корректно сравнивать количество поискового спама и белых сайтов в различных нишах.
Рассмотрим условное распределение дорвеев на 1000 кейфраз среди одно-, двух- и трех- сложных запросов в различных нишах.
| Количество запросов | Adult | Pills | Dating | Cars | Gifts | Casino |
| 1 | 20950 | 27077 | 27767 | 21683 | 16853 | 20071 |
| 2 | 58456 | 67421 | 24161 | 22567 | 18731 | 20600 |
| 3 | 85298 | 69288 | 38864 | 26964 | 28525 | 22458 |
Таблица 3. Количество дорвеев в различных нишах среди одно-, двух-, и трехсложных запросов
* - данные в таблице получены с учетом нормировки.
Из таблицы 3 видно, что существуют ниши, где количество дорвеев среди односложных односложных запросов гораздо меньше чем среди двух-, и трех- сложных запросов (ниши Adult и Pills), а есть ниши, где количество дорвеев примерно одинаковое (Gifts, Cars).
Механизмов у этого эффекта может быть несколько:
Для наглядности нам будет полезно сравнить распределение дорвеев в подгруппах на графике.

Рис.1. Количество дорвеев среди одно-, двух- и трех- сложных запросов
Следует отметить, что различные ниши отличаются между собой не только абсолютными значениями количества дорвеев (высота столбцов) но и наклоном огибающих. Ели мы мысленно проведем огибающею прямую (как это сделано для Adult и Pills на рисунке) для всех ниш, то увидим, что наклон у этих прямых различен. Косвенно, по этому наклону можно судить о конкуренции в нише.
Если мы захотим по тому же методу построить распределение "белых" сайтов, то увидим обратную картину. Очевидно, "белых" сайтов будет больше среди групп, где количество дорвеев меньше.
8.2 Количество дорвеев в каждой тематике
Не представляет труда сосчитать общее количество дорвеев в каждой нише. Сравним между собой все тематики.
| Тематика | Общее количество дорвеев в тематике на 1000 запросов |
| Adult | 164704 |
| Pills | 163786 |
| Dating | 90792 |
| Cars | 71214 |
| Gifts | 64109 |
| Casino | 63129 |
Таблица 4. Общее количество дорвеев в каждой тематике.
* - Общее количество дорвеев в тематике получено суммированием количества дорвеев для одно-, двух- и трех- сложных подгрупп.
По этой таблице косвенно можно судить о конкурентной борьбе в этих нишах среди сайтов поискового спама, а так же о "легкости" попадания сайтов в результаты поиска. Вероятно, получить поисковый трафик будет легче там, где выдача поисковых машин более "подвижна". Однако гарантированно утверждать это нельзя, поскольку ситуация зависит от многих факторов как то: количество игроков в данной нише, объем кейфраз, относящихся к данной тематике и так далее.
9. Определение основных игроков
Имея данные, накопленные за период эксперимента, мы можем выделить основных игроков для каждой ниши среди "белых" сайтов, а так же выявить типичные схемы поискового спама, присущие каждой отдельной нише.
Основными игроками среди "белых" сайтов будем считать те, которые расположены в последнем временном промежутке таблицы 1 и находятся по большому количеству поисковых запросов данной тематики.
Для удобства, исключим из рассмотрения различные справочные сайты, на подобие wikipedia.org и answers.com которые широко представлены во всех группах, которые мы рассматриваем.
| Ниша | Основные игроки среди "белых" сайтов |
| Adult | pichunter.com, youngerbabes.com, 3pic.com, penisbot.com |
| Cars | edmunds.com, kbb.com, utotrader.com, nadaguides.com |
| Casino | harrahs.com, casino.com, gonegambling.com, alottery.com |
| Dating | adultfriendfinder.com, swinglifestyle.com, swingtowns.com, match.com |
| Gifts | patagoniagifts.com, gifts.com, antiquingonline.com, bernardine.com |
| Pills | drugs.com, druginfonet.com, crazymeds.org, coreynahman.com |
Таблица 5. Основные игроки в каждой нише среди белых сайтов
Определять основных игроков среди поискового спама мы будем по несколько другой методике:
| Ниша | Лидеры среди дорвеев | Количество запросов |
| Adult | http://hgfkjhg.blog.drecom.jp/archive/1 http://php.scripts.psu.edu/juw107/seminars/php-may2006/uploadedfiles/hardcore.html http://newmedia.cdws.ucf.edu/wiki/img/amateur-girls.html http://jabsom.hawaii.edu/images/amateur-teens.html |
423* 285 261 251 |
| Cars | http://theframegw.iifree.net/index-auto-parts.html http://aivt.1sweethost.com/index-auto-parts.html http://www.2000twe.happyhost.org/index-auto-parts.html http://2000bns.free-site-host.com/index-auto-parts.html |
22 22 20 18 |
| Casino | http://www.mathematics.pitt.edu/?2:12 http://www.umc.pitt.edu/tour/tour1-12.html http://alison73.wordpress.com http://baccaratnew.blogspot.com |
130 57 38 19 |
| Dating | http://php.scripts.psu.edu/juw107/seminars/php-may2006/uploadedfiles/amateur.html http://reddot.uark.edu/UserFiles/File/amateur.html http://mcobit.business.nd.edu/kb/images/Research/amateur.html http://eclassrooms.coe.uh.edu/attachments/amateur.html |
601 513 507 451 |
| Pills | http://pills.hornbeckboats.com/zoloft http://smallschools.ischool.washington.edu:8000/d_www/buy-soma.html http://web.cfa.arizona.edu:8082/d_www/buy-valium-online.html http://ccgb.umn.edu:8002/d_www/buy-valium-online.html |
133 48 43 41 |
Таблица 6. Основные игроки в каждой нише среди сайтов поискового спама
* - количество запросов данной тематики, по которым страница была обнаружена в результатах поисковой выдачи в течении эксперимента
Если присмотреться внимательно, мы увидим схожесть технологий спама в различных нишах. Видно, что наибольший поисковый трафик концентрируется на дорвеях, расположенных в зонах .edu и .gov.
Так же надо заметить, что в конкурентных нишах, таких как Adult и Dating существенная часть трафика аккумулируется на дорвеях. В нишах Cars и Gifts доля трафика, приходящегося на поисковый спам существенно меньше (в таблице ниша Gifts отсутствует, поскольку сколько-нибудь значимых дорвеев там обнаружить не удалось). Косвенно, эти данные подтверждает таблица 1. Если посчитать отношение между белыми сайтами и поисковым спамом (столбец 6 и 2 соответственно) мы увидим подтверждение этих слов.
9.1 Анализ основных игроков среди белых сайтов
Как мы обнаружили в предыдущем разделе, дорвейные технологии на данный момент сосредоточены вокруг правительственных и образовательных сайтов. Основная задача для реализации этой схемы заключается в том, что бы разместить контентосодержащие страницы на .edu и .gov ресурсах. Далее на дорвей проставляются ссылки, и страница быстро попадает в результаты поиска. Надо сказать, что пропадает она из результатов тоже достаточно быстро.
Гораздо интересней посмотреть, чем выделяются основные игроки среди "белых" сайтов в конкурентных нишах. Для решения этой задачи нам понадобится программа Seoquake.com.
Будем сравнивать основных игроков по нескольким параметрам:
| Url | Google pagerank | Google index | Google links | Dmoz | Webarchive age |
| Adult | |||||
| http://pichunter.com/ | 5 | 36600 | 947 | No | Apr 10 2001 |
| http://youngerbabes.com/ | 3 | 101 | 1 | No | Nov 28 1999 |
| http://3pic.com/ | 5 | 15 | 291 | No | Mar 03 2000 |
| http://penisbot.com/ | 5 | 27400 | 1290 | No | Aug 2000 |
| Casino | |||||
| http://harrahs.com/ | 6 | 6020 | 638 | 20 | Feb 05 1997 |
| http://casino.com/ | 5 | 2190 | 67 | 36 | May 30 1997 |
| http://gonegambling.com/ | 1 | 22700 | 0 | 1 | Nov 11 1998 |
| http://alottery.com/ | 3 | 86 | 23 | 1 | Apr 11 2000 |
| Dating | |||||
| http://adultfriendfinder.com/ | 7 | 131000 | 2050 | No | Aug 1998 |
| http://swinglifestyle.com/ | 4 | 338000 | 122 | No | Sep 24 2001 |
| http://swingtowns.com/ | 0 | 82400 | 0 | No | Feb 20 2001 |
| http://match.com/ | 7 | 1170000 | 11300 | 152 | Jan 12 1998 |
| Pills | |||||
| http://drugs.com/ | 6 | 336000 | 6830 | 13 | Dec 23 1996 |
| http://druginfonet.com/ | 6 | 1990 | 282 | 12 | Dec 22 1996 |
| http://crazymeds.org/ | 4 | 13600 | 135 | 2 | Nov 18 2003 |
| http://coreynahman.com/ | 6 | 219 | 2320 | 9 | May 11 2000 |
Таблица 7. Анализ основных игроков среди белых сайтов
Учитывая то, что показания поисковой системы Google могут меняться день о то дня и, порой, отличаться на порядки, относиться к этой таблице надо с осторожностью. Однако некоторые зависимости, тем не менее, видны с первого взгляда.
Остальные выводы требуют существенных допущений, и не совсем очевидны, поэтому предоставим сделать их уважаемым читателям.
Статистическая обработка данных выдачи поисковой машины Google позволяет нам получить распределение "белых" сайтов и поискового спама для каждой ниши. Кроме этого, в каждой тематике можно выделить основных игроков как в "белых" сайтах так и в дорвеях.
Исследуя поисковый спам, можно видеть, что в конкурентных нишах, таких как Adult, Dating - существенная часть трафика приходится на дорвеи (см. табл 6). В менее конкурентных нишах доля этого трафика меньше.
Однако, исследуя направление Casino, мы столкнулись с несколько иной статистикой распределения "белых" сайтов и дорвеев. На наш взгляд основная причина отличия статистической картины - высокая конкуренция ниши. Скорее всего, технологии спама, которые активно используются в других конкурентных нишах, в направлении Casino будут работать менее эффективно.
Наш анализ строился для большого количества запросов в каждой тематике. Понятно, что совсем не обязательно исследовать тематики столь разной направленности и работать с большими объемами данных. Если разбивать каждую тематику на подгруппы можно получать более детальную информацию по конкретным нишам поисковых запросов.
Все данные для этого доклада были получены и обработаны с помощью проектов Seodigger.com, Serparchive.org и Seoquake.com. При желании, каждый желающий может проделать подобные эксперименты с помощью этих сервисов.
Приведенные методы дают очень широкие возможности для исследований. Вот некоторые из них:
24.08.2007
Вы можете обсудить данную статью по этому адресу: http://blog.seoquake.com/?p=77.
[*] В части таблицы, касающейся наличия сайтов в каталоге Dmoz допущена ошибка. В тематиках Adult и Dating обращение к каталогу осуществляется с помощью специальных (не стандартных запросов). Таким образом, сайты этих тематик присутствуют в каталоге Dmoz. Общие выводы относительно присутствия лидеров в каталоге, следовательно, можно считать не верными, или, верными частично.
Подробнее:
http://forum.searchengines.ru/showthread.php?t=177927.