Прогноз ймовірності конверсії

імовірність
похибка
Пулінг
м'який пулінг
багаторівневий пулінг
Таблиця
регресійний аналіз
зважена оцінка
динамічне зважування
Модель прихованих відмов
Зважування по зворотній дисперсії

Автор: Андрій Бєлоусов, керуючий партнер HTraffic.ru

Для правильного визначення ставок важливо якомога точніше обчислити вірогідність конверсії для кожного ключового слова. Однак, при невеликому числі кліків, показнику конверсії не можна довіряти - він володіє значною похибкою. У цій статті я приведу декілька простих методів підвищення точності оцінки ймовірності конверсії.

імовірність

Не слід плутати показник конверсії з її ймовірністю. Наприклад, якщо у нас 1 клік і 0 конверсій, то показник дорівнює нулю, але це не означає що і ймовірність покупки теж нульова.

Імовірність за визначенням - це частота на нескінченності. Іншими словами, якби число кліків було б нескінченно великою, то показник і ймовірність конверсії були б рівні. При великому числі кліків ці два числа приблизно рівні. Але при малому - вони можуть істотно відрізнятися.

похибка

Завдяки теорії ймовірності, легко обчислити середню помилку яку має показник конверсії. Це число показує, на скільки, в середньому, показник конверсії відрізняється від її ймовірності:

σ = √ ((p (1-p)) / n)

Де p ймовірність конверсії, n - число кліків. Наприклад, при конверсії = 1% і 100 кліки ми отримуємо

σ = √ ((1% * 99%) / 100) ≈0.995%

На перший погляд, це невелика похибка, але шукане число (ймовірність конверсії) теж мало і за умовами прикладу дорівнює 1%. Іншими словами, при 100 кліки похибка приблизно дорівнює показнику конверсії.
Тому, для наочності, перейдемо до відносної похибки, розділивши похибка на ймовірність конверсії. Отримаємо 99.5%.

Формула для відносної похибки:

σ / p = √ ((p (1-p)) / n) / p = √ ((p * (1-p)) / (p ^ 2 * n)) = √ (((1-p)) / pn)

Ми можемо розрахувати відносну похибку в залежності від числа кліків і показника конверсії. отримаємо:

отримаємо:

Легко бачити, що при низькому числі кліків похибка виходить просто астрономічною. При одному натисканні і 1% конверсії відносна похибка дорівнює 995,0%. Тобто, похибка майже в 10 разів перевищує ймовірність конверсії.

Насправді це оцінка похибки знизу. В реальності похибка буде вище, оскільки на показник конверсії може вплинути, наприклад, те, що по чистій випадковості все 5 кліків ключового слова сталися вночі.

Пулінг

Як ми з'ясували, в більшості випадків, повністю покладатися на показник конверсії не можна. Нам потрібно знайти додаткове джерело інформації. Найбільш очевидний спосіб - використовувати показник конверсії оголошення, кампанії або URL.

У статистиці це називається ПУЛІНГ (від англійського to pool - об'єднувати). Більш зрозумілий термін - усереднення, ми усереднювати дані ключового слова і деякої групи ключових слів, наприклад, оголошення. Чим більше у ключового слова кліків, тим менше ми усереднюються.

У статистиці для оцінки ймовірності прийнято використовувати бета-біноміальними модель. Її, наприклад, використовує Marin Software, якщо вірити їх патенту. Ми в К50 , Теж використовуємо схожу схему.

Імовірність конверсії ≈ (Переходи + A) / (Кліки + A / M)

M - показник конверсії оголошення
A - ступінь ПУЛІНГ, деяке число. Висловлює ступінь подібності ключових слів в групі.

Ступінь ПУЛІНГ, по суті, це той обсяг інформації, який несе група, і яку ми додаємо до інформації ключового слова. У статистиці А прийнято вимірювати в псевдоуспехах або, в нашому випадку, псевдоконверсіях. Ставлення А / М це число псевдонаблюденій або, в нашому випадку, псевдокліков.

У підсумку цю формулу легко запам'ятати: конверсії + псевдоконверсіі, поділені на кліки + псевдоклікі.

м'який пулінг

Теоретична оцінка знизу A = 1. Що підтверджується практикою. За винятком великих інтернет-магазинів, які торгують усім - від памперсів до холодильників. Якщо у них за групу прийняти всі їхні ключові слова, то оптимальний A близько 0.7. І навіть в цьому випадку, 0.7 ближче до 1 ніж до 0. Отже, м'який пулінг не гірше, ніж повна відсутність ПУЛІНГ.

У підсумку наша формула:

Імовірність конверсії ≈ (Переходи + 1) / (Кліки + 1 / M)

Наприклад, в оголошенні показник конверсії дорівнює 1%, у ключового слова було 100 кліків і 2 конверсії. Тоді оцінка буде дорівнює (2 + 1) / (100 + 1/1%) = 3/200 = 1.5%.

Інший приклад: у ключового слова було 10 кліків і жодної конверсії, оцінка дорівнює (0 + 1) / (10+ 1/1%) = 1/110 = 0.91%

Щоб зрозуміти адекватність цього методу, ми побудуємо таблицю:

Як ми бачимо, оцінки виходять досить адекватними. При невеликому числі кліків, оцінка - значно краще за показник конверсії, при великому - вони майже не відрізняються.

Ми можемо порахувати максимальну похибку, яка буде при м'якому ПУЛІНГ і порівняти її з похибкою без ПУЛІНГ:

багаторівневий пулінг

Показник конверсії оголошення теж має досить високою похибкою. Тому його теж можна «пуліть» і використовувати це оцінку для розрахунку ключового слова.

Наприклад, показник конверсії у кампанії 1%. У оголошення 300 кліків і 2 конверсії. У ключового слова була 1 конверсія і 70 кліків. Вважаємо оцінку ймовірності конверсії оголошення (2 + 1) / (300 + 1/1%) = 3/400 = 0.75%. Використовуємо оцінку оголошення для оцінки конверсії ключового слова (1 + 1) / (70 + 1 / 0.75%) = 2/203 = 0.985%

Таблиця

за цим посиланням таблиця в Google Docs, яка оцінює ймовірність конверсії методом багаторівневого ПУЛІНГ. Скопіюйте її собі на Google диск або збережіть як файл для Microsoft Excel.

У таблиці є чотири рівні: Аккаунт (всі ключові слова), Кампанія, Оголошення і Ключове слово. Назви рівнів умовні. Наприклад, ви можете, замість оголошення підставити URL.

Більш того, можна порахувати оцінку не тільки ймовірності конверсії, а й, наприклад, ймовірність відмови. Потрібно просто підставити замість числа конверсій число відмов.

Найпростіше порахувати дані по м'якому ПУЛІНГ. Для цього потрібно просто скопіювати в таблицю дані за ключовими словами.

Також ця таблиця вважає похибка, яку ви можете знизити, підібравши оптимальний ступінь ПУЛІНГ. Для цього потрібно вставити статистику по двом періодам.

Загалом, щоб підібрати ступінь ПУЛІНГ, потрібно:

Розбити дані на два непересічних періоду. Наприклад, весна і літо 2015 року та вставити ці дані в таблицю.
Спробувати змінити ступінь ПУЛІНГ «оголошення-> ключевік» (H4). так щоб мінімізувати помилку (D9)
Спробувати змінити ступінь ПУЛІНГ «Кампанія-> Оголошення» (F4). так щоб мінімізувати помилку (D9)
Спробувати змінити ступінь ПУЛІНГ «Аккаунт-> Кампанія» (D4). так щоб мінімізувати помилку (D9)
Повернутися на другий крок і ще пару раз пройти цей цикл. І, в кінцевому підсумку, ви знайдете оптимальні коефіцієнти ПУЛІНГ. Це може зайняти до півгодини, але для кожного сайту це потрібно зробити один раз в житті.
Вставте сумарні дані за весь період, і таблиця вважатиме досить точні оцінки конверсії.

Помилка (D9) навіть при ідеальному прогнозі ніколи не буде нульовою. Справа в тому, що в контрольному місяці число кліків не безкінечна велике, а ми порівнюємо наш прогноз з показником конверсії контрольного місяці, який відображає ймовірність конверсії з дуже великою похибкою.

Тому зниження помилки, наприклад, з 40% до 36% підвищить ефективність ставок набагато вище, ніж на 10%.

регресійний аналіз

У математичній статистиці є цілий розділ, який вивчає взаємозв'язок між змінними і дозволяє прогнозувати значення однієї змінної при наявності відомих значень інших. Цей розділ називається «регресійний аналізом».

Припустимо, у нас конверсія дорівнює 1%, а показник відмов близько 50%. Використовуючи таблицю, дану на початку статті, можна зрозуміти, що похибка у показника відмов в 10 разів нижче, ніж у показника конверсії при однаковому числі кліків.

При цьому, ці змінні мають сильну зворотну кореляцію. Залежно від сайту - від 60% до 90%. Грубо кажучи, це означає, що ми можемо відновити ймовірність конверсії з точністю 60% -90%, знаючи ймовірність відмов.

Загалом, ми можемо в кілька разів знизити похибка оцінки конверсії, завдяки додаванню інформації, яку несе показник відмов.

Але для цього потрібно побудувати статистичну модель. Завдяки формулі повної ймовірності, ми можемо розкласти ймовірність конверсії так:

P [конверсія] = K * (1-P [відмову])

де:

P [конверсія] - ймовірність конверсії
P [відмову] - ймовірність відмови
K - ймовірність того, що відбудеться конверсія, в разі якщо не було відмови.

Для простоти припустимо, що K - це деяка постійна, однакова для всіх ключових слів. Це припущення може бути досить грубим, але на практиці навіть така проста модель має досить високою точністю.

K можна оцінити як:

K≈ (показатель_конверсіі_аккаунта) / (1 - показатель_отказов_аккаунта)

P [конверсія] ≈ (показатель_конверсіі_аккаунта) / (1 - показатель_отказов_аккаунта) * (1-P [відмову])

Імовірність відмови ми можемо оцінити за допомогою ПУЛІНГ. Потрібно просто в таблицю, замість числа конверсій, підставити число відмов. Далі, підставимо оцінку ймовірності відмови в цю формулу і отримаємо ще одну оцінку конверсії. Назвемо її оцінкою з відмов.

зважена оцінка

Оцінку по відмовах можна об'єднати з оцінкою отриманої з ПУЛІНГ. І, таким чином, отримати фінальну оцінку з похибкою меншою ніж у двох проміжних оцінок. Наприклад, так:

Фінальная_оценка = w * Оценка_із_пулінга + (1-w) * Оценка_по_отказам

Де w - число від 0 до 1 і підбирається також як і ступінь ПУЛІНГ, шляхом мінімізації похибки оцінки. Для цього в тій же таблиці є другий лист. Ви можете скопіювати туди дві оцінки і підібрати w так, щоб мінімізувати похибку.

Підсумкова оцінка буде краще, ніж пулінг, і краще, ніж оцінка по відмовах. Ну, по крайней мере, не гірше. Наприклад, якщо оцінка по відмовах буде дуже поганий, набагато гірше ПУЛІНГ, то оптимальний w дорівнюватиме 1. І підсумкова оцінка буде дорівнює оцінці ПУЛІНГ.

динамічне зважування

Проблема минулого методу в тому, що w не залежить від числа кліків. Хоча оцінка з ПУЛІНГ точніше для високочастотних ключових слів, а оцінка з відмов - для низькочастотних.

Ми врахували це на четвертому аркуші. Там теж потрібно підібрати тільки один коефіцієнт - S, відносну систематичну похибку моделі. Завдяки першому листу, оцініть ПУЛІНГ ймовірність конверсії і скопіюйте оцінку і її очікувану похибка на четвертий лист. Завдяки першому листу, оцініть ПУЛІНГ ймовірність відмови і скопіюйте оцінку і її очікувану похибка на четрвертий лист. Підберіть настройку S таким чином, щоб мінімізувати середньозважену відносну помилку.

Модель прихованих відмов

Показник відмов занижений. Оскільки той факт, що користувач перейшов на другу сторінку, не говорить про те, що він був зацікавлений в ваш товар або послугу. Він це міг зробити з простої цікавості, або, не зрозумівши, що йому конкретно пропонують.

Припустимо, що існує деякий прихований показник відмов. Імовірність помилково негативного спрацьовування лічильника відмов. Коли до вас прийшов незацікавлений користувач і лічильник відмов не визначив такого користувача.

Загалом: Показник відмов занижений. Це впливає на якість прогнозу. Ми можемо це вплив компенсувати, побудувавши модель. Параметри моделі можна підібрати так щоб якості прогнозу було максимально високим.

Очевидним є той факт, що чим більше явних відмов, тим більше повинно бути прихованих. З іншого боку, як і будь-яка інша ймовірність, ймовірність прихованого відмови повинна бути менше 1. Тому можна побудувати наступну модель:

P [прихований відмова] = erf (L * P [відмову])

Де L деяка позитивна константа. А erf - це функція помилки. Вона завжди менше 1. Ця функція є в Ексель.

В результаті отримаємо:

Імовірність конверсії = K * (1 - P [відмову]) * (1-erf (L * P [відмову]))

Де K і L підбираються вже знайомим нам способом мінімізації похибки. Початковий K можна взяти з минулого методу, а в якості початкового - використовувати L = 0.5. Для цього в таблиці є третій лист.

Модель прихованих відмов досить добре описує реальні дані. У ній всього два параметри. Практика показує, що ця модель працює також добре, як і моделі, засновані на поліномі з 4-6 параметрами.

Зважування по зворотній дисперсії

Ось фінальна схема для досить точної оцінки конверсії: Считаем ПУЛІНГ (перший лист) оцінку конверсії і копіюємо оцінку і помилку на четвертий лист. Вважаємо ПУЛІНГ (перший лист) оцінку ймовірності відмови. Ми копіюємо помилку на четвертий лист, а оцінку -на третій лист. Вважаємо третій лист і копіюємо повну ймовірність відмов в четвертий лист, як оцінку ймовірності відмов. Вважаємо четвертий лист і отримуємо досить точну оцінку ймовірності конверсії.

Дана схема є найбільш точною з тих, що можна порахувати вручну без специфічних знань в матстатистику.

В автоматичних системах на кшталт К50 і Marin Software використовуються кілька більш складні схеми ПУЛІНГ, але без елементів регресійного аналізу. Якість їх прогнозу, скоріше за все, буде вище, ніж у цієї схеми, але не набагато. Всі ці системи економлять масу часу і позбавляють від людських помилок.

Ми в К50 Labs використовуємо більш складні моделі. Тому, оцінку похибки описаного в статті методу ми порахували тільки для 1 клієнта. Ми взяли 10 тисяч ключових слів з статистики одного великого рекламодавця і розділили дані на 3 періоди: два періоди по місяцю для навчання і один довжиною півроку для тесту.

Ми взяли 10 тисяч ключових слів з статистики одного великого рекламодавця і розділили дані на 3 періоди: два періоди по місяцю для навчання і один довжиною півроку для тесту

Показник конверсії. Ми вважаємо що показник конверсії = ймовірності конверсії.
Пулінг з підбором - перший лист в таблиці.
Зважена оцінка - підсумковий метод з цієї статті. Але для прискорення роботи підбір коефіцієнтів автоматичний, в R Studio.
K50 Labs - це індивідуальна статистична модель зроблена мною в R Studio. Вона заточена під цей сайт. Крім відмов були використані наступні дані:

Текст ключового слова (довжина, число слів, наявність слів купити / ціна і інших).
CTR в спецрозміщенні і гарантії і їх відношення (як ознака гарячих тематик).
Ціни кліка на пошуку в залежності від позицій
Час і глибина перегляду
Час додавання ключового слова (оцінка по ID)

MCMC Sampling - це приблизно така ж модель, але в Stan Sampler. Вважається все точніше, але потрібно дуже багато обчислювальної потужності - розрахунок посів 8 годин для 10К ключових слів. Тому цей метод ми використовує тільки у виняткових випадках.
Теоретичний мінімум виникає, оскільки у нас тестовий період пошукові роботи не дорівнює нескінченності і, тому, показник конверсії на ньому не дорівнює ймовірності. У дужках похибка мінус теоретичний мінімум, це число краще відображає реальну похибка.