автор Дмитрий Иванов
Прогнозная аналитика
в поисковом маркетинге
На примере использования в SEO.

самая лучшая вещь о которой вы не слышали

Прогнозная аналитика

Это прогнозирование поведения людей, событий и алгоритмов, основанное на данных.
SEO — это именно та самая из отраслей, где предсказать можно абсолютно всё: поведение людей, эффективность посадочной страницы, трафик и позиции через пол года: всё основывается на Big Data. Можно выявить, какой запрос вероятнее всего приведет человека к конверсии, у какого товара больше шансов быть проданным, какое количество трафика ожидается на сайт через полгода и т.д.
95% ниш конкурентны и за одни и те же запросы бьются десятки компаний. Очень важно анализировать поисковые фразы для выявления тех, по которым можно получить быстрый результат без серьезных затрат. Можно сказать, что прогнозная аналитика - это самый сильный инструмент оптимизации, позволяющий не наступать на старые грабли и обходить новые.
Алгоритм работы в трех шагах
  1. Собрать все возможные статистические данные, на их основе построить модель, которая поможет достичь нужных результатов, цель выбираете вы сами.
  2. Настроить алгоритм на базе машинного обучения или методе пристального взгляда (экспертное мнение специалиста)
  3. Прогнозирование: либо машина сама обрабатывает все данные и на выходе даёт прогноз, либо это делает написанная специалистом функция.
Задачи для ПА в SEO
Некоторые задачи, имеющие наибольшую значимость в поисковом маркетинге.
  • Поиск лучших запросов
    Какие запросы продвигать, чтобы получить максимальное количество целевого трафика с максимальным показателем конверсии при минимальных затратах ?
  • Поиск лучших товаров
    Какие товары нужно рекламировать и по каким запросам, чтобы заработать как можно больше выручки и сбыть запылившиеся на складе экземпляры?
  • Всевозможные прогнозы
    Как спрогнозировать позиции и поисковый трафик по запросам приоритетной категории на год вперед, при условии поискового продвижения сайта ?
  • Анализ аудитории
    Как выделить целевую аудиторию с максимальной конверсией и средним чеком выше среднего на 80-100% с группировкой по полу, возрасту и интересам ?
  • Оптимизация расходов
    Как сократить бюджет на ссылочную массу в три раза и какие запросы исключить из контекстной рекламы за низкий показатель возврата инвестиций ?
  • Скоринг
    Как оценить риски ухода клиентов по историческим данным или ранжировать эффективность менедежеров SEO специалистов внутреннего отдела ?
Мы используем прогнозную аналитику, практически, в каждом шаге продвижения сайта. Самой главной и нами любимой особенностью ПА является ее эффективность в применении. Сколько раз мы видели анализы которые невозможно использовать. Их умеют делать практически все диванные аналитики. Но получив, например, скоринг поисковых запросов просто невозможно не внедрить полученные знания. Это некий наркотик. Мы больше не представляем себе SEO продвижение без возможностей прогнозной аналитики.

Иванов Дмитрий
Генеральный директор
шаг 1
Сбор данных
Каждый из вас знает минимум 10-20-30 источников, откуда можно получить данные. В зависимости от решаемых задач, вы можете использовать хоть все из них. Разберем задачу выявления эффективных запросов и товаров.
Товары - Выгрузка с сайта / 1C

  • цена товара в магазине — чем дороже товар, тем сложнее продать;
  • себестоимость — чем выше себестоимость, тем меньше;
  • чистая маржа — чем выше доход с продажи, тем выше интерес;
  • остатки на складе — чем больше остатки, тем больше можно продать;
  • продаж за месяц — чем больше продаж, тем больше спрос на продукт;
  • процент реализованных заявок — чем меньше людей отказалось от товара, тем лучше;
  • разброс цен за месяц — чем меньше колбасит цену, тем устойчивее итоговые оценки;
  • анализ цен конкурентов — чем конкурентнее цена, тем больше шансов продать;
  • ... еще 12 менее очевидных параметров являются коммерческой тайной.
Запросы - KeyCollector / Яндекс Метрика / MOAB

  • частотность запроса с сезонными данными для определения спроса по запросу;
  • конверсионность на исследуемом сайте чем больше, тем очевиднее лучше;
  • стоимость клика в Директе чем выше цена, тем больше конкурентность;
  • стоимость продвижения секретная оценка, определяет относительную цену продвижения;
  • текущая позиция чем ближе к ТОПу, тем меньше усилий потребуется на продвижение;
  • количество анкоров с точным вхождением у конкурентов для оценки уровня глупости конкурентов;
  • поведенческие группа показателей, начиная от глубины просмотра до показателя отказа;
  • ... еще 17 менее очевидных параметров являются коммерческой тайной.
Необходимо привести все данные к одному виду.
Выполнить процедуру стандартизации данных.
После того как мы собрали все данные, их необходимо стандартизировать, привести к единому виду, другими словами, избавиться от мусора: заполнить пустоты, убрать коррелированные данные и бесполезную информацию.

Например, у нас есть данные по поисковым запросам, где одни параметры в минутах, другие в долларах, а третьи в процентах, нам необходимо привести их к одним единицам измерения, желательного одного порядка. Математика придумала множество таких способов. Представим, что нужно отнормировать столбец A:A в Excel:
1. LN – натуральный логарифм

с вариациями LN(A:1+1) или LN(A:1+1) * 2

2. Бальная оценка от 1 до 10 или 100.

(A2-МИН(A:A))/(МАКС(A:A)-МИН(A:A))*10

3. Z-Score

((измеренная величина) - (среднее арифметическое))/среднеквадратическое отклонение

Использовав любой из способов, мы получим численные значения каждого из параметров, не имеющие единиц измерения и находящиеся в одном численном диапазоне. Прежде чем отдать готовые данные для прогнозов машине, необходимо определиться с ожидаемым результатом, после чего поставить задачу для машинного обучения.
В итоге, данные могут выглядеть так :
шаг 2
Обработка данных
Из полученных данных нам необходимо получить решения наших задач для продвижения сайта. И тут мы используем либо машину, либо квалифицированного специалиста.
Дальше все зависит от важного момента. Будем ли мы использовать "учителя" или нет. Если мы разметим вручную часть запросов на хорошие и плохие и попросим машину, на основе наших стандартизованных данных разметить остальные, то мы будем "учителем". Дальше машина попробует найти закономерности и зависимости между качеством запроса и его показателями.
Нужно понять, что мы хотим получить в итоге.
Машинное обучение

Размечаем несколько сотен маркерных запросов по десятибалльной шкале. Где 10 - самые коммерческие/конверсионные/крутые/лучшие, а 1 - нет. Шкала субъективна. Дальше, необходимо применить Data и Text Mining к нашим запросам и данным, после чего составить модель машинного обучения для автоматической классификации наших отсавшихся запросов. В этом варианте машина решает все за вас.
Модель нужно выбрать самим.
Метод пристального взгляда

Специалист может самостоятельно написать формулу, ранжирующую запросы по известному ему принципу. Факторам, которые на его взгляд отражают положительную суть запроса (делают его более крутым) присваивается бОльший вес значимости. Для расчетов можно использовать простую линейную функцию для многих переменных. После получения оценки - ранжируем по ней запросы, после чего подгоняем нашу функцию под тот вид, который хотим получить.
Очень простой пример
score(a) = A*k1 + B*k2 + C*k3 ...
Линейная функция для многих параметров необходимая для составления формулы ранжирования. Где A,B,C - нормированные показатели запроса, а k1,k2,k3 - весовые коэффициенты добавленные специалистом.
Существует несколько алгоритмов, которые позволяют выполнить все эти задачи. Использование специализированных программ даёт возможность обойтись без формул, написанных вручную, достаточно нажать на кнопку. Невероятно крутая программа Statistica позволяет подготовить данные, выполнив факторный анализ, для того чтобы определить какие параметры сильно между собой коррелированы. Нет смысла брать все такие параметры, достаточно выбрать самые значимые. Совокупности некоторых из них образуют факторы. Есть значимые, а есть не очень. Statistica позволяет определить и те и те. Затем Statistica может составить несколько моделей и позволит выбрать лучшую. Так же программа способна интеллектуальным способом устанавливать пороги отсечения и даже указывать на запросы, которые принесут максимальную прибыль. Каждую финальную модель можно проверять на «нынешнем поколении». Рынок нестабилен и постоянно меняется. Одна и та же модель должна быть настроена на текущее состояние аудитории. Все из перечисленного очень важно и возможно к реализации в программе Statistica.
шаг 3
Получение результатов
Из полученных данных нам необходимо достать решения для наших задач продвижения сайта. И тут мы используем либо машину, либо квалифицированного специалиста.
Скоринг
Если мы решали эту задачу, то ответ будет на поверхности.
Возможно, вы встречались с этим понятием в банковской система, когда банк оценивает клиента, и на основе этой оценки определяет, стоит предоставлять кредит или нет. В интернет-маркетинге скоринг отлично работает для анализа эффективности запросов и ранжировании чего угодно по результатам оценки.
Scoring – подсчет очков в игре. За каждое выполненное или невыполненное условие, оцениваемый объект получает баллы. Далее сравнивается с остальными по совокупности этих баллов, очень просто. Объектом может быть, что и кто угодно. Клиенты, поисковые запросы, посадочные страницы. Все, для чего мы сможем собрать статистику. Имея исторические данные, а также четко понимая кто плохой клиент/запрос/страница и наоборот, можно построить модель, которая с невероятной точностью сможет выявить только лучших из лучших путем подсчета очков.
Здесь представлены ключевые слова с относительной низкой стоимостью в Яндекс Директе, высоким спросом по WordStat, обладающие высокой конверсией и отказоустойчивостью, ключевые слова, которые ведут на товары, залежавшихся на складе и маржа более 30%. Данные собирались из 1С, Key Collector, Google Anaylitcs, в итоге 300 000 ключевых слов для интернет-магазина, каждое из которых имеет 43 параметра.
После реализации скоринга было выбрано около 1000 ключевых слов, которые окупались с первого дня запуска Яндекс.Директ, без точной настройки и корректировки заголовков объявлений. За месяц, кампания из нашего списка ключевых слов сделала оборот ~ 14 миллионов рублей в сравнении с 5 миллионами в прошлом месяце
скоринг
Скоринг позволяет найти лучшее в общем массиве данных по совокупности множества показателей.
Классификация
Задача отнести объект к одному из известных классов.
Еще во времена правления "ссылочного бога" узкому количеству специалистов был доступен инструмент, позволяющий определить качество ссылочного донора по ряду параметров сайта. Если быть точным по 56 факторам сайта. Для создания такого алгоритма потребовалось несколько месяцев работы, тысячи сайтов размеченные на "плохие" и "хорошие", а так-же алгоритм нейросети, который обучался на всех этих данных. С вероятностью до 90% такой алгоритм мог определить качество донора в разрезе тематики. А все начиналось с простой формулы в Excel. Ныне эта система не существует.





Классифицировать можно и тексты, например выявляя относятся ли они к группе спамных или нет. Мечта для SEO специалиста - генерировать интеллектуальные, не спамные тексты с высокой релевантностью. Поскольку каждый текст обладает как минимум сотней различных показателей, можно составить алгоритм, способный классифицировать его по историческим данным. Мы уже проводили такой эксперимент, к сожалению он не привел к успеху. Откровенно говоря, пытаться победить поисковую систему не стоит, как и спамить в текстах :)
классификация
Классификация позволяет отнести оцениваемый объект к одному из известных классов на основе их похожести.
Сегментация и кластеризация
Группировка объектов по разным классам
Перейдём к примеру сегментации клиентов.
Стоимость одного письма составляет 50 руб, в эту стоимость входят: стоимость сервиса для e-mail рассылки, заработная плата маркетолога. База состоит из 1 000 000 подписчиков, средний чек 10000 руб, конверсия 1%, в итоге получили 5млн руб. прибыли.
(1 000 000*0,01)*10 000 - 1 000 000*50 = 5 000 000

Если мы применим сложные аналитические расчёты, классифицируем клиентов и оставим только четверть из них, то прибыль вырастет в 12 раз. Секрет в том, что мы сегментируем пользователей и находим ту самую группу, которая купит товар при получении письма. После рассылки конверсия выросла в три раза, в прибыль составила уже 62 млн руб.
(250 000*0,03)*10 000-250 000*50 = 62 500 000






Пример выдуман, но четко отражает идею. Сегментация данных напоминает процесс бурения. Мы углубляемся в данные в поисках сегмента, который как можно лучше отвечает нашему условию. В нашем примере мы искали людей, которые вероятно купят товар, если им отправить письмо, отделяя нас от людей, которые товар не купят. А на самом деле от : тех кто купит, даже если письмо не получит, не купит если получит письмо и тех, кто не купит в любом случае.

Сегментация позволяет найти целую группу наблюдаемых объектов, которые будут иметь похожие признаки. Сегмент товаров с большей конверсией, запросы с лучшим уровнем коммерции, авторов текстов с лучшими оценками от заказчика итд.
сегментация
Кластеризация способна сегментировать наблюдаемые объекты по схожести их признаков.
Прогнозирование
Предсказание событий
Прогнозирование - предсказание вероятности возникновения ожидаемого события на основе статистики или экспертного мнения. Мы пытаемся заглянуть в будущее и узнать, что произойдет в случае, если события сложатся определенным образом. Можно сказать, что изучается влияние одних событий на другие и не обязательно во времени.

В целом, SEO плохо прогнозируемая отрасль. Алгоритмы ранжирования меняются, конкуренты появляются и умирают. Слишком много факторов, которые могут испортить прогноз. Однако прогнозирование в SEO позволяет увидеть вектор, узнать потолок возможностей и получить преимущество перед теми, кто не использует эту технологию.
Кроме того, что сложно получить адекватную точность, сложно делать и сами прогнозы. Простая, казалось бы, зада прогнозирования трафика на самом деле разбивается на 4 задачи:

  1. Понять какой спрос будет у запроса через год, прогнозирование временных рядов на основе Wordstat.
  2. Оценить сложность продвижения запроса — его конкурентность. Приходится учитывать больше десятка параметров.
  3. Основываясь на текущих данных, спрогнозировать CTR через год. Мы для это сделали свою нейросеть.
  4. Спрогнозировать позицию с учетом продвижения и естественного роста, а также усилий конкурентов. Самая рандомная часть, которая лучше всего прогнозируется эвристикой.
На деле получается очень сложно. Но если заниматься этим много лет, то можно получать вот такие результаты:
смотрите видео
Прогнозная аналитика в SEO
Молодой я рассказываю о технологии прогнозной аналитики на СПИК2015.
Таких видео много по этой ссылке.

Рассылка без спама и партнеров