Долго не продолжалась цепочка статей про прогнозирование трафика, как и других постов тоже не было. Другие статьи не публиковались, поскольку хотелось не разрывать серию и чтобы все статьи шли одна за одной, исключением явился только уже завершившийся конкурс BestMasterиZация, но другого выбора не было — нужно было писать. Теперь к сути нашего анализа и аналитики.
Что было сделано?
Я перебрал очень много мыслей в голове о том, как в рамках своих проектов и проектов своих клиентов сделать как можно более масштабный анализ ключевых фраз. Поскольку сервисом Google Analytics я пользуюсь уже не первый год и сайты там «обслуживаются» тоже не первый год, то по каждому сайту можно было собрать все фразы, по которым приходили из поиска за весь промежуток времени.
Таким образом, я собрал фразы на темы: туризм, свадьба, недвижимость, автомобили, кино, женские сайты, эротика, строительные материалы, мебель, SEO и т.д. Всего для эксперимента было привлечено 40 хороших, с относительно средней посещаемостью, сайтов и их 428000 поисковых фраз.
Из всех собранных фраз пришлось выбирать отдельные, поскольку по самому низко посещаемому сайту было более 2500 поисковых фраз, а вся масса анализу не подлежит. Отбирались они так: сначала удалили все оптимизаторские фразы, фразы с ошибками, случайные какие-то фразы — т.е. так, чтобы оставались только адекватные, хорошие фразы. После этого этапа все фразы перемешали по их популярности (определялось количеством показов по Google — главное нужно было их просто упорядочить, на суть эксперимента ни коим образом не влияет) и начиная с их середины с шагом в 10 фраз вправо и влево (чтобы были и НЧ и ВЧ, а в общей массе — СЧ фразы) отбирались в отдельный список, который был уже окончательным для длительного анализа.
Усилиями всех наших операций над фразами мы отобрали 40000 абсолютно различных фраз, начиная с самых НЧ заканчивая вполне солидными ВЧ фразами, на разные тематики, которые были приведены выше, по разным типам: т.е. фразы, которые относятся к транзакционным, навигационным и информационным запросам (читать здесь).
По отобранным 40000 фразам ежедневно на протяжении двух месяцев определялись позиции по разным (своим) гео-направлениям. Например, регион проверки позиций определялся по наложенным данным на карту в Google Analytics — брались два лидирующих региона. Все данные по позициям сохранялись, приводились к среднему значению, что логично — все данные усредненные.
После истечения экспериментального периода по каждой из всех фраз по Google Analytics было проверено, какое количество переходов было из поиска, т.е. исследовался исключительно organic-трафик. Фразы, у которых средняя позиция за все время была >10 отсеялись, во внимание брались только фразы, которые находились в ТОП-10, при этом они разбились на 10 групп, переходы по ним просуммировались, а также в общую сумму были сложены показы по версии Яндекса, чтобы вывести одну общую, среднюю цифру.
Чем было сделано?
Для более детального анализа полученных фраз нам не подходили такие сервисы, как Яндекс.Вебмастер, http://www.seorate.ru/, http://netchart.ru/ и даже в некоторой степени Google Analytics был беспомощен. Как хорошо, что Арина любезно предоставила Pro аккаунт в http://ru.semrush.com/. С его помощью мы просмотрели каждый анализируемый сайт, например статистика для блога — http://ru.semrush.com/info/aistkafe.ru+(by+organic). Как раз нас и интересуют только ключевые слова из поисковой выдачи. В бесплатном доступе ничего интересного увидеть, практически, нельзя, поэтому рекомендую приобрести себе Pro аккаунт и проанализировать хотя бы свои сайты, чтобы выжать из них еще больше, чем сейчас получается.
Позиции, традиционно, определялись semonitor с прокси-листом в 50 IP-адресов разных стран, преимущественно России и Украины.
Единственно, в чем была «запара» — это экспорт фраз из Google Analytics. Тогда фразы были собраны самописным php-парсером, который нужно было постоянно подталкивать, потому что он постоянно уставал и отказывался работать, но с горем пополам все было сделано. Вчера, кстати, хотел поинтересоваться, каким образом можно сделать экспорт фраз из GA в XLS (CSV), но никто так и не ответил. Конечно, для меня это уже не актуально, но иногда какая-то программка или какой-то оптимальный способ экспорта просто необходим для экономии времени, чтобы не проделывать это все руками.
Что получили в итоге?
Чтобы долго еще раз не рассказывать, как трудно было все это организовать, отсортировать, проверить и т.д. — хочу сразу привести таблицу, которая была получена для распределения трафика в выдачи ТОП-10:
Номер позиции |
Процент кликов |
1 позиция |
27-32% |
2 позиция |
16-19% |
3 позиция |
9-12% |
4 позиция |
8-9% |
5 позиция |
5-8% |
6 позиция |
5-8% |
7 позиция |
4-6% |
8 позиция |
3-5% |
9 позиция |
3-4% |
10 позиция |
4-5% |
Что интересного?!
Если сравнить с теми результатами, которые были приведены ранее на основе различных экспериментов и анализов, то с результатами по эксперименту с Google вообще никак ничего не вяжется. За то там же есть результаты экспериментов по Яндексу и по типам поисковых запросов, с которыми наши результаты вполне сопоставимы. Конечно, они разнятся, но они очень близки.
Самая большая схожесть результатов нашего эксперимента и анализа наблюдается с анализом Сережи Кокшарова — тут разница в 1-2%, что я считаю очень большой точностью (именно в совпадении данных). Кстати, это является очень интересным фактом даже с той стороны, что шли мы с ним разными путями, у него был намного проще анализ по панели Яндекс.Вебмастер, у меня более масштабный, с большим количеством сайтов, фраз, данных, периодом проведения, а результаты практически одинаковые.
Меня уже год не покидает мысль написать программу, которая будет ежедневно парсить мой Google Analytics и сразу по каждой фразе проверять ее позицию, смотреть сколько человек перешло на сайт и вносить это в базу. Имея несколько сотен посещаемых сайтов в радиусе действия этой программы — можно получить очень полезную статистику и, как всегда, данные для анализа — пища для размышлений.
Дорогие друзья, можно сказать, что мы уже подошли к финалу. Анализировать больше нечего, я думаю, мы и без этого провели огромнейшую работу: начиная от подбора фразы, понимая какие цифры откуда берутся и заканчивая окончательным разбросом деления долей скликивания. Конечно, хотелось бы эти коридоры по каждой позиции максимально сузить, но мне, пока что, даже ничего и не подсказывает, как это сделать. Поэтому нам остается только собрать факторы, которые играют в ту или иную сторону по распределению кликов и рассмотреть их более детально. Таким образом, хочу сказать, что будет еще одна статья с теми самыми факторами и потом завершающая статья нашего марафона, в которой будут подведены итоги, рассмотрен кратко каждый этап, идеализация потока (как можно все поставить на конвейер), построение грез и их разрушение.
Оставайтесь с нами на волне, если хотите знать больше про прогнозирование трафика! :)