Определение "коммерческости" поисковых запросов при помощи машинного обучения
Работа с текстовым анализом и нейросетевым машинным обучением. Не является единственно правильным методом или истиной в первой инстанции.
лирическое отступление
Проблема интерпретации
Какой запрос назвать коммерческим и есть ли единые правила и стандарты для каждой ниши? Бывает ли, что один запрос может быть смешанным?
Как хотим мы
Средний уровень крутости

По нашим меркам, запрос будет коммерческим тогда, когда он подразумевает покупку товара/услуги у человека, который его задает.


Люди на основе своего опыта и логики пытаются догадаться о намерении человека по запросу.


  • Плюсы: просто интерпретировать, легко определить по вхождению определенных маркерных слов (купить, цена...), очень легко повторить самому на коленке
  • Минусы: не работает с подсознанием, не учитывает интент(реальное желание пользователя), часто упускаются запросы без маркерных слов, но при этом коммерческие
  • Пример: купить Iphone, пластиковые окна цена, дешевые летние платья

Как хочет поисковик
Высокий уровень крутости

По меркам поисковика, запрос будет коммерческим тогда, когда он должен привести пользователя на страницу с коммерческим содержанием по его собственному желанию.

Поисковая система, на основе опыта запросов миллионов людей пытается уловить интент пользователя и определить коммерческость запроса.

  • Плюсы: классификация на основе статистики, учитывает интент, делается за секунды, с большой долей вероятности классифицируется верно
  • Минусы: сложно сделать самому, порой невозможно определить коммерческость наверняка, без исторических данных работает очень криво

  • Пример: наушники для Iphone, заменить пластиковые окна, платье mon blanc
Как есть на самом деле
Высокий уровень крутости

Запрос можно назвать коммерческим тогда, когда он с высокой вероятностью приведет человека к покупке товара или услуги.


Двух мнений быть не может, одни запросы с большей вероятностью продадут, другие - с меньшей.


  • Плюсы и минусы: вероятностная модель оставляет на откуп человеку/машине решение по уровню коммерческости запроса, можно подключить сторонние факторы для классификации, можно сделать самому на коленке




  • Пример: Iphone, пластиковые окна цена, летние платья

Понятие коммерческости поисковых запросов не бинарно. Лучше говорить "скорее коммерческий/некоммерческий" или "не определено"
В SEO кругах принято подгонять под поисковик
Как правило, смотрят выдачу Googgle и/или Яндекс, считают количество явно коммерческих сайтов в выдаче и выносят вердикт в пользу большинства. Данная методика хромает т.к. не определяет уровень коммерческости запроса, а пытается его классифицировать. Кроме того существует огромное количество запросов, где поисковые системы сами еще не сформировали понимание, что нужно людям, коммерция или нет.
определение коммерческости поисковых запросов
Этапность
Я предлагаю один из вариантов определения уровня коммерческости запросов, основанный на внешних данных по запросу и текстовом анализе. Данный метод выведен опытным путем на основе долгой работы с интернет-магазинами и сайтами услуг (больше 50 проектов)
Разметить несколько сотен запросов
Собрать внешние данные по запросам
Выполнить текстовый анализ
натравить нейросетку
Шаг 1
Разметка поисковых запросов
Каждому запросу можно присвоить либо бинарную оценку 0-1 в случае коммерческости/нет. Либо оценить каждый запрос по 10-ти балльной шкале. Чем выше, тем "продажнее".
Методом пристального взгляда
Берем опытного человека и просим вручную его разметить каждый запрос в Экселе, проставляя напротив каждого запроса нужную оценку. 0-1 либо 1-10, в зависимости от идейности будущей модели.
Поисковой выдачей
Анализируем поисковую выдачу и присуждаем каждому запросу количество явно коммерческих сайтов от 1 до 10. Либо придумываем другую оценку, можно бинарную.
шаг 2
Сбор внешних данных по запросу
Делаем предположение, что если множество других людей тратит на определенные запросы деньги (контекст, ссылки), то такие запросы с бОльшей вероятностью окажутся коммерческими. Эти данные мы легко можем собрать.
Бюджеты Яндекс Директ
Бюджеты Google Adwords
Ссылочные агрегаторы
Рекламные сервисы
шаг 3
Текстовый анализ
В каждый запрос вшита природа коммерческости или ее отсутсвие. Чтобы достать из запроса его потенциальную "продажную" сущность необходимо его оцифровать. Построить текстовые концепты. Делать будем это в программном комплексе - Statistica.

Как это сделать рассказывается в видео по ссылке :
https://youtu.be/ZYG7lXI26qA
-1-
Препроцессинг
Удаление стоп слов, приведение слов в один регистр / язык, чистка от инородных символов.
-2-
Индексация текстов
Сохранение текста и запись каждого слова в базу данных.
-3-
Построение матрицы встречаемости слов
Классическая матрица обратной встречаемости каждого слова в оцениваемой семантике (IDF)
-4-
Уменьшение размерности
Сингулярное разложение матрицы (SVD) для уменьшения ее размерности для более удобного анализа.
-5-
Настройка анализа
Задаем настройки анализа в системе Statistica. Язык, условия для анализа, преобразования.
-6-
Построение концептов
Оцифровка каждого запроса и создание текстовых концептов по каждому запросу.
Концепты полученные в результате текстового анализа являются оцифрованными запросами и могут быть самостоятельной единицей для исследований и измерений.
шаг 4
Нейросеть
"Нейросеть – это обучаемая система. Она действует не только в соответствии с заданным алгоритмом и формулами, но и на основании прошлого опыта" © habrahabr. Строить нейросети мы будем в программном комплексе - Statistica.

Как это сделать рассказывается в видео по ссылке :
https://youtu.be/Bhx9H9PCaS0 - классификация
https://youtu.be/laYZtE1AFRA - регрессия
построение моделей
Нейросети c настройками по-умолчанию
В качестве целевой переменной выбираем столбец с классификацией. В качестве предикторов выбираем все остальные столбцы (данные по запросу + концепты). Можно оставить все настройки по-умолчанию. Statistica сама разобьет выборку на тестовую и контрольную.

В итоге получаем заданное нами количество сетей с точностью классификации от 80 до 90%. Немного повозившись с настройками можно увеличить это значение до 95%.
Разные настройки
=
разный резльтат
Пример регрессии. Каждая нейросеть по-разному определяет целевую переменную, которая находится в диапазоне 1-10.
Вероятность верной классификации
Обучающая и тествоая выборки - 1000 запросов
Валидационная выборка - 3500 запросов
88%
обучающая выборка
90%
тестовая выборка
90%
валидационная выборка
Важность показателей запроса по шкале 1-100
Нормированная степень важности каждого показателя в нейросети. В данном случае в модели участвовали только текстовые концепты и данные снятые по Яндекс Директ.
  • Показы [YD]
    82
  • Бюджет [YD]
    91
  • Concept 2,4,8
    88
  • Частотность
    76
  • Переход [YD]
    54
  • CTR [YD]
    52
итоговая логика в ДВУХ предложенииях
В каждом запросе пользователей к поисковым системам зашито скрытое желание (интент), которое может иметь коммерческое основание. Оцифровывая запрос, мы пытаемся извлечь интент и в совокупности с некоторыми характеристиками запроса, при помощи нейросети, пытаемся найти это основание на примере исторических данных.
Все вышеперечисленное :
  • готовится под конкретный проект
  • выше 85% вероятность определения коммерческих запросов
  • не требует серьезных навыков на старте
  • можно повторить самому
  • применяется на практике в моей компании
  • не является единственным способом определения коммерческости
Дима Иванов, CEO & Founder Ivanov-seo
вероятность определения коммерческости запросов
По тематикам
В разных отраслях совершенно непредсказуемая точность определения коммерческости запроса.
Свяжитесь со мной:
Санкт-Петербург, пр-т Испытателей 39 ТЦ Миллер