|
|
Цели, задачи и методы На сегодняшний день авторитетность веб-сайта является очень важной его характеристикой: от авторитетности зависят позиции в выдаче поисковых систем, рекламные поступления сайтов и многое другое. Предложенная Google модель авторитетности сайта основывается на индексе цитирования: чем больше ссылаются на сайт, тем он авторитетнее и тем больший вес имеет ссылка с него на другой сайт. Информацию об индексе цитирования можно получить непосредственно от поисковых систем:
Задачами настоящего исследования были:
Данные Анализировались индексы цитирования для WWW-сайтов в доменах второго уровня в TLD .RU и .SU. Список доменов был зафиксирован на момент начала исследования (24 сентября 2006 года) - 477494 сайта, отвечающих следующим условиям:
Получение Google PageRank производилось до начала массового пересчета индекса цитирования, которое началось 28-29 сентября 2006 г. Получение тематического ИЦ Яндекса производилось в начале октября 2006 г. для того же списка доменов. Google PageRank в Рунете Определение Google PageRank производилось путем запроса к toolbarqueries.google.com. В случае, когда у www.site.ru и site.ru были разные PR, бралось большее значение. Далее в тексте Toolbar PageRank, PageRank и PR употребляются как синонимы. Распределение величины Google PR для отобранных доменов выглядит следующим образом:
* единственный сайт с PR=9 был создан специально для накачки PR как зеркало сайта php.net. После октябрьского пересчета Google индекса цитирования Google он имеет PR=3 Считается, что величина PageRank, отдаваемая Google в виде целого числа в диапазоне 0-10 — это логарифм истинного значения PageRank, используемого при ранжировании. Анализ распределения PR по сайтам Построим график в координатах PR/количество сайтов. По горизонтальной оси - Toolbar PageRank (уже логарифмическая величина), по вертикальной - логарифм количества сайтов с таким PR: Обычное для WWW-страниц распределение цитируемости выглядит в логарифмических координатах как прямая линия (см статью о видах сетей, где примеры зависимостей подробно разбираются), однако для головных страниц сайтов Рунета получается зависимость, характерная для цитирования в научных работах: значительно меньшая доля документов с экстремально низкими индексами цитирования. В обоих случаях изменение вида распределения может быть объяснено самоцитированием (ученые ссылаются на собственные работы, вторые страницы сайтов - на головную страницу). Шум в области PR 0—2 объясняется, по всей видимости, округлениями величины PR после логарифмирования (см. ниже раздел об индексе цитирования Яндекса). Несмотря на шум, полином второго порядка (в логарифмических координатах) описывает получаемые данные с коэффициентом корреляции 0.98. Яндекс.тИЦ индекс цитирования Яндекса (далее в тексте ТИЦ) был получен путем ручного просмотра всех 477494 сайтов браузером с установленным Yandex.Bar (лицензия Яндекса запрещает автоматическое обращение к их сервису). Работу выполняла тысяча китайцев, которые разделили черный квадрат на подквадратики и честно их прокликали. 272969 сайтов (из рассматриваемых 477494) имеют ТИЦ менее 10, остальные значения ТИЦ лежат в диапазоне от 10 до 110000. Для удобства сравнения с Google PR, данные были разложены на 9 логарифмических классов по формуле: Lcy = ROUND(ln(cy)/1.375),1). Распределение величин ТИЦ для рассматриваемых сайтов выглядит следующим образом:
Из таблицы видно, что логарифмирование исходно-линейного индекса цитирования приводит к шуму в области малых значений. В то же время, распределение сайтов по логарифмическим классам практически точно повторяет аналогичный график для PageRank (см. ниже). Корреляция ТИЦ и PR Выведем на график в логарифмических координатах одновременно распределение сайтов по PR и по логарифму ТИЦ. Как видно из графика, для первых пяти (из девяти) логарифмических классов, имеется практически точное совпадение функций распределения (сайтов по классам). Это позволяет утверждать, что Toolbar PageRank получен путем логарифмирования целых значений индекса цитирования, а шум в области малых значений вызван, в первую очередь, ошибками округления. В области высоких значений индекса цитирования два графика распределения значимо расходятся (на диаграмме приведены графики полиномов второго порядка, описывающих, соответственно, распределение сайтов по PR и по ТИЦ, каждый из них имеет коэффициент корреляции с исходными данными на уровне 0.98). Как мы видим, количество сайтов с высоким ТИЦ падает быстрее, чем количество сайтов с высокими значениями PR. Это может объясняться рядом причин:
Другими словами, получить высокий ТИЦ труднее, чем высокий PR, а следовательно почетнее. Медианные значения ТИЦ Для сайтов с положительными PR и ТИЦ (всего таких сайтов 162941) была построена таблица медианных значений ТИЦ для заданного PR:
* Данных по сайтам с PR=8 недостаточно для рассчета статистически-достоверного значения медианного ТИЦ Сравнивая данные индексов цитирования конкретного сайта с данной таблицей можно определить "международность" или "рунетность" данного сайта: у "более рунетного" сайта ТИЦ будет больше медианного. Выводы
Интересные новости интернет:
Yahoo и Google играю с Microsof |
Интернет в целом |
Вебстроительство |
Оптимизация |
Интернет-реклама |
Яndex | |
Все поисковики | |
Rambler | |
Aport | |
Bing | |
Затрудняюсь ответить | |
С 30 сентября начинают действовать новые правила госаккредитации для всех компаний в области информационных технологий. Предыдущие критерии автоматически стали недействительными. Аккредитацию также смогут получить компании, созданные менее чем за год до подачи заявления. Их доход должен превышать 1 миллион рублей, а доля выручки от деятельности в сфере информационных технологий должна составлять не менее 30%. Ранее глава Минцифры Максут Шадаев заявил, что госаккредитацию компании нужно будет подтверждать каждый год...
03.04.2022Яркие сниппеты в топе выдачи привлекут больше кликов и больше трафика, а значит и больше клиентов. У Яндекса в выдаче есть колдунщики — специальные модули, которые дают ответ на запрос из сервисов Яндекса или сторонних официальных сайтов. ..
12.12.2019С 2017 года популярные браузеры ужесточили политики безопасности. И если прежде отсутствие защищенного соединения с сайтом грозило только понижением позиций в результатах поиска, теперь оно может привести к росту недоверия посетителей к сайту и компании, увеличению процента отказов и снижению конверсии...
17.10.2019Такую информацию приводит портал «Домены России». Сегодня количество доменов, зарегистрированных в зоне .РФ, достигает 763 тыс. единиц. Два года назад их было около 900 тыс. По данным исследования, в первой половине 2019 года национальная доменная зона ежемесячно сокращалась на 5 тыс. имён...
04.10.2019Поисковый гигант Google объявил через свой официальный блог о скором изменении алгоритма ранжирования сайтов в SERP. Теперь владельцы всех ресурсов, обеспечивающих передачу данных по протоколу HTTPS, могут рассчитывать на улучшение позиций в поисковой выдаче...
все новости » | |
Пн | Вт | Ср | Чт | Пт | Сб | Вс |
26 | 27 | 28 | 29 | 30 | 31 | 1 |
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 1 | 2 | 3 | 4 | 5 | 6 |