Компании, продукты которых находятся в фазе активного роста, выделяют большие бюджеты на привлечение новой аудитории, что в терминологии маркетологов называется закупкой трафика. Для привлечения аудитории трафик-баеры размещают рекламные кампании на различных рекламных площадках, где они оплачивают просмотры рекламных баннеров. В зависимости от попадания в целевую аудитории, привлекательности картинки или интересности текста, эти рекламные кампании приносят разное количество кликов, установок и новых пользователей, которые в последующем еще и по-разному ведут себя в продукте. Все вместе это называется качеством трафика.
Получается, что задача менеджеров по закупке трафика состоит в том числе в привлечении наиболее целевой аудитории с рекламных кампаний при минимизации затрат. Или перераспределение рекламного бюджета с кампаний с плохим перформансом на кампании, которые приводят качественный трафик. При этом, чем раньше получится оценить качество трафика, тем быстрее будет возможность перераспределить бюджет, привлечь больше целевой аудитории и повысить эффективность работы отдела маркетинга.
Тем не менее, зачастую оценить качество новых пользователей продукта, например мобильного приложения, в короткие сроки не получается. Ждать хотя бы неделю для оценки трафика – слишком дорого. Тогда возникает задача прогнозирования долгосрочного поведения пользователя на основе данных о его первых сессиях в продукте. Для решения данной задачи далее будет проанализирована эффективность использования библиотеки lifetimes на языке программирования python.
Библиотека lifetimes – бесплатная библиотека, автором которой является Кэмерон Дэвидсон-Пилон – СЕО и основатель компании Pioreactor, бывший Директор по Data Science в Shopify, а также автор книги «Bayesian Methods for Hackers: Probabilistic Programming and Bayesian Inference». Библиотека предназначена для прогнозирования вероятности совершения следующей активности: захода приложение, покупки или любого другого действия.
Для определения вероятности используется модель BG/NBD – Beta Geometric / Negative Binomial distribution model. Модель учитывает количество и частоту совершения определенных событий и, на основе этих данных, рассчитывает вероятность того, что пользователь продолжит пользоваться продуктом.
Модель бета-геометрического / отрицательного биномиального распределения была введена в 2004 году, как усовершенствование модели Парето / NBD (первый BTYD), разработанной Schmittlein et al. в 1987 году. Когда пользователь активен, количество его транзакций за период t описывается распределением Пуассона с параметром транзакций λ:
,
где k – количество событий, λ – математическое ожидание случайной величины (среднее количество событий за фиксированный промежуток времени), k! обозначает факториал числа k и e=2,718281828… – основание натурального логарифма.
Рис. 1. Функция вероятностей Пуассона
Для начала перед работой с библиотекой необходимо подготовить data-set формата: id пользователя, дата его активности. Открываем любой удобный для работы ноутбук, устанавливаем библиотеку и загружаем наши данные в ноутбук.
Рис. 2. Установка библиотеки lifetimes и загрузка данных
Теперь нам надо обучить модель на исторических данных и проверить ее эффективность на части из них. Для этого мы задаем дату, по которой данные обрезаются для обучения, в переменную colibration_period_end, и определяем дату проверочного периода в переменной observation_period_end.
Рис. 3. Обучение модели
Строим прогноз с использованием обученной нами модели для того отрезка данных, который мы оставили для проверки.
Рис. 4. Построение предсказания
Визуализируем, как выглядит прогноз, построенный нами, в сравнении с фактическими данными.
Рис. 5. Сравнение фактических и прогнозных данных
Как мы видим, графики совпадают довольно сильно. Посчитаем, насколько сильно ошибается наша модель.
Рис. 6. Оценка ошибки предсказания в количестве активностей
Количество фактических активностей превысило количество прогнозируемых на 6%. Проверим похожий показатель, но уже в пользователях.
Рис. 7. Оценка ошибки предсказания в количестве активных пользователей
Фактически в проверяемый период было активно на 22,85% меньше пользователей, чем предсказала наша модель. Для целей быстрой оценки качества трафика эти показатели приемлемы, учитывая скорость оценки активности новых пользователей. Последним шагом необходимо поставить прогнозирование активности на расписание и интегрировать данные с системой закупки трафика, чтобы агрегированные показатели стали доступны маркетологам при принятии решения о перераспределении бюджета между рекламными кампаниями.
В результате проведенного анализа была рассмотрена библиотека lifetimes и алгоритм ее применения. Обученная модель показала высокий уровень точности предсказания вероятности следующей активности для новых пользователей продукта. Таким образом, применение данной модели для оптимизации закупки трафика позволит существенно повысить эффективность использования маркетингового бюджета и привлечь больше целевой аудитории.