Incrementality Test: 衡量線上廣告成效的測試方式
這篇文章介紹幾種常見的 Incrementality test 方式,包含意向分析測試 (Intent-to-Treat,ITT),公益廣告測試 (Public Service Announcement,PSA),幽靈廣告 (Ghost Ads) 及幽靈出價 (Ghost Bid)。
什麼是 Incrementality test?
Incrementality test,中文稱為增量測試,用來判斷廣告對營收或是品牌好感度是否產生因果影響的方法。核心概念很簡單:比較看過廣告的用戶與沒看過廣告的用戶,他們的營收差異就是廣告所帶來的「增量」。這樣的測試能幫助我們確認廣告是否真的發揮了作用。
Incrementality test 之所以重要,在於他能夠評估廣告的實際影響。將「因廣告而發生的營收」與「本來就會發生的營收」分開來考慮。例如,很多被再行銷廣告觸及的消費者,即使沒有看到廣告,也可能會完成購買。曾有研究發現,只有 10% 的再行銷廣告帶來的營收是真正的增量營收。也就是說,如果將所有產生的營收都歸因於廣告,就會大大高估廣告的成效。
理想的測試方式
一個科學化的廣告測試會有兩個主要特徵:明確定義的目標群體以及對廣告曝光對象的精準控制。一個廣告活動不可能觸及目標受眾中的所有用戶,因為用戶是否看到特定廣告,取決於多種因素,例如用戶行為、各個廣告主之間的競價結果,以及不同廣告版位對於廣告曝光的需求。結果是,想要實驗的目標群體中,可能會有一大部分的用戶是看不到廣告的 (如下圖中的第 2 和第 4 組用戶)。

為了衡量廣告的 incrementality,我們希望回答一個簡單的問題:「相比於沒有顯示廣告,廣告的投放是否改變了用戶的行為?」上圖用來說明實驗設計的概念。由於用戶的購買行為存在差異,例如我們有兩類不同的用戶:第一類用戶是轉換率較高的用戶,第二類用戶則是轉換率較低的用戶。我們希望比較的實驗組和對照組,必須擁有相同的一二類用戶的組成比例,否則結果就像在比較「蘋果與橘子」,缺乏可比性。
我們隨機將目標用戶主要分為兩組:一組是我們嘗試展示廣告的群體,另一組則完全避免接觸廣告的群體。但在線上廣告的測試中,事實上我們可能不會觸及目標受眾中的所有用戶,所以又可再分為廣告可接觸到以及不可接觸到的用戶。因此,用科學術語來說,這樣的劃分創建了四組實驗目標:
實驗組 (深藍色):實際接觸到廣告的用戶。共有 10 個用戶,5 個一類用戶,5 個二類用戶。
實驗組 (深灰色):想接觸,但沒有接觸到廣告的用戶。共有 12 個用戶,6 個一類用戶,6 個二類用戶。
對照組 (淡藍色):我們本可以讓其接觸廣告但選擇不展示的用戶。與第一組相同,共有 10 個用戶,5 個一類用戶,5 個二類用戶。
對照組 (淡灰色):接觸不到,且最終也沒有展示廣告的用戶。與第二組相同,共有 12 個用戶,6 個一類用戶,6 個二類用戶。
這樣的實驗設計讓我們可以比較「實際曝光廣告的用戶」與「本應曝光但未曝光廣告的用戶」之間的的行為差異,也就是圖中的第一組和第三組後續購買的差異。
現今的廣告系統讓我們有辦法針對每個個別用戶追蹤廣告曝光以及後續轉換。我們可以統計成類似下方的表格。實驗組中總共有 22 個用戶,10 位廣告實際有接觸的用戶。第一類和第二類用戶各半。而其中有 4 位看到廣告的用戶最終轉換產生購買的行為。回到我們最初的問題:「我們怎麼知道這 4 位用戶是因為廣告而轉換,還是本來就打算購買?」
因此我們必須和對照組做比較:對照組中有完全相同的用戶組成,唯一的差別是沒有對用戶做廣告的展示。而最終有 1 位用戶在沒有看到廣告的情況下,完成了購買。
因此,我們可以將實驗組與對照組的結果整理成下表做比較。假設我們花了 $30 美金做廣告的投放,平均轉化的單價是 $15 美金的話,最終實驗組產生了 $60 美金的營收,對照組則產生了 $15 美金的營收。兩者之間的差別為 $45 美金,這就是廣告所帶來的 incrementality。
當我們對這個理想的實驗設計有了基本的認識後,下個問題是,我們要如何在現實狀況中,完成這樣的 incrementality test?
在衡量 incrementality 時,兩種最常見的實驗設計是使用公益廣告測試 PSA (Public Service Announcement) 作為對照組,以及意向分析測試 ITT (Intent-to-Treat)。這兩種方法本質上是 A/B 測試,目的是觀察群組之間的行為差異,而它們的差別主要在於分配實驗組和對照組的方式。
PSA (Public Service Announcement,公益廣告測試)
PSA 類似於醫學臨床的安慰劑測試,將對照組的受眾名單分成兩半,針對要展示廣告的受眾設置一個與廣告商無關的廣告活動,例如紅十字會的宣傳廣告,或是「禁止酒後駕車」的廣告。這也是為什麼這個測試方式被稱為公益廣告測試的原因。如此一來,我們就得到了四組實驗目標:
實驗組 (深藍色):實際接觸到廣告的用戶。共有 10 個用戶,5 個一類用戶,5 個二類用戶。
實驗組 (深灰色):想接觸,但沒有接觸到廣告的用戶。共有 12 個用戶,6 個一類用戶,6 個二類用戶。
對照組 (淡藍色):展示公益廣告的用戶。共有 10 個用戶,8 個一類用戶,2 個二類用戶。
對照組 (淡灰色):接觸不到我們的廣告,也接觸不到公益廣告的用戶。共有 12 個用戶,3 個一類用戶,9 個二類用戶。
因此,PSA 的第一個問題是,實驗組與對照組的受眾分配並不一致。這是由於廣告平台的優化機制造成實驗組與對照組之間受眾組成會有差異,這在之後會做進一步詳述。
我們也可以把針對每一位用戶所做的實驗用下表來顯示。實驗組與對照組的用戶組成完全相同。而與上述理想實驗最大的差別在於,對於淡藍色的對照組的用戶,我們還是會顯示廣告,只是展示的廣告為公益廣告,而非廣告主的廣告。因此,那唯一一個轉換的用戶 (Control-001),我們可以說他是本來就對我們的產品感興趣的用戶。
Incrementality test 要比較的,是第一組和第三組的用戶所帶來的轉換結果,可用下表來說明。假設我們在實驗組和對照組各花了 $30 美金做廣告的投放,平均轉化的單價是 $15 美金的話,最終實驗組產生了 $60 美金的營收,對照組則產生了 $45 美金的營收 (但用戶看到的是公益廣告)。兩者之間的差別為 $15 美金,這就是廣告所帶來的 incrementality。
這邊需要注意的是,為了將公益廣告展示在對照組的受眾面前,我們也需要支付廣告成本。另外,如果是單純用 CPM 計價的話,或許還不會有問題。但現今的廣告系統的機制通常是優化 CPC 或是 CPA 的模式,就會扭曲 PSA 測試的結果。例如,如果遊戲下載的廣告比紅十字會廣告有更好的點擊率,廣告系統就會自動選擇把 CTR 高的素材更頻繁地展示給更有可能點擊的用戶。而選擇點擊遊戲下載的用戶,可能與點擊公益廣告的用戶截然不同 — 這最終會導致所謂「蘋果比橘子」的結果。因此,這類 PSA 測試可能產生過於樂觀或完全負面的錯誤結論。
總之,雖然 PSA 測試在理論上能消除待會要介紹的 ITT 會有的雜訊問題,但其高成本、不準確性和潛在的實驗設計缺陷,限制了它作為長期 incremetality test 的可行性。
ITT (Intent-to-Treat,意向分析測試)
另一個直覺的做法是:如果我們隨機將目標受眾分成兩組,只向其中一組展示廣告,我們就可以比較這兩組所有用戶 (不僅是看到廣告的用戶) 的行為,來衡量廣告的因果影響。
這個方法稱為「意向分析測試」(Intent-to-Treat, ITT),能夠科學地進行比較,確保實驗組中實際被曝光的用戶與對照組中本應被曝光的用戶之間的公平對比。然而,由於實驗組中也包含了無法被廣告接觸的用戶,這些用戶增加了數據中的雜訊,可能掩蓋廣告實際帶來的增量效果。
可以透過下圖來解釋 ITT 的實驗方法。他將實驗目標分為兩組:
左邊的實驗組。深藍色「可接觸到廣告的用戶」與深灰色「想接觸,但沒有接觸到廣告的用戶」被視為一組。共有22 個用戶,11 個一類用戶,11 個二類用戶。
右邊的對照組 (淡灰色):不論這些用戶有沒有辦法透過廣告接觸到,一率不做廣告曝光。共有22 個用戶,11 個一類用戶,11 個二類用戶。

ITT 的問題在於,沒有考慮到左下方「想接觸,但沒有接觸到廣告的用戶」,以為廣告仍可接觸到他們。這些用戶增加了數據中的雜訊,可能掩蓋廣告實際帶來的增量效果。
用以下表格可以更清楚地解釋 ITT 的缺陷。實驗組中有 22 位用戶,總共 6 位轉換的用戶中,只有 4 位有辦法透過廣告接觸到,另外 2 位轉換的用戶即使沒有看到廣告,也會被認列近廣告的成效中。
因此,若比較實驗組和對照組的成效,其中就參雜了這些無法透過展示廣告接觸到的用戶所帶來的雜訊 (如下列表格)。在實際狀況中,無法透過廣告接觸到的用戶人數會遠大於可透過廣告接觸到的用戶數,這也讓測量結果會因數據中的雜訊而變得不精準。
實務上, ITT 因為實施起來相對比較簡單,最被廣泛使用在 incrementality test 中,他也不需要與廣告合作夥伴的廣告投放系統整合。但大部分的情況是,實驗組中只有一小部分用戶實際接觸到廣告,這可能由於供應渠道上的目標受眾可用性較低,或程序化競價的得標率低所導致,但這也讓測量結果會因數據中的雜訊而變得非常不精準。
Ghost Ads (幽靈廣告)
為了解決 PSA 和 ITT 的問題,現任教於波士頓大學的 Garrett Johnson 在 2017 年提出了幽靈廣告 (Ghost Ads) 的測量方法。在 Ghost Ads 的實驗設計中,廣告平台對於要展示在對照組面前中的廣告並沒有實際展示,而是記錄在 log 中,確保對照組中「本應被廣告曝光的用戶」與實驗組中「實際有廣告曝光的用戶」具有可比性。由於不使用兩組不同的素材,廣告平台能對實驗組和對照組的用戶進行相同處理,即使在 CPC 或按行動付費 CPA 的優化模式下,也能避免 PSA 測試中常見的失真問題。此外,Ghost Ads 還可以篩選出未曾有機會看到廣告的用戶,解決 ITT 雜訊過高的問題,其準確度比 ITT 高出 50 倍。
下圖解釋了 Ghost Ads 的設計概念,他非常接近理想的測試方式,可以有效地將實驗組與對照組中,能否接觸到廣告的用戶分開來考量。而在對照組中,也可以針對「本應被曝光的用戶」做標記,但又不實際做廣告的展示,因此不會有額外的廣告費用產生。
Ghost Ads 的運作原理可以以下圖來解釋。針對實驗組的用戶,廣告競價正常進行,並選出贏家,可能是目標廣告,也有可能是其他的廣告。
但針對對照組中的用戶,廣告競價會排除掉目標廣告,所以用戶並不會看到。但同時,在背後會進行一次模擬拍賣。模擬拍賣時就會將目標廣告包含在內,不過只進行模擬,而不會影響實際拍賣選出的廣告。模擬拍賣的結果會記錄在 log 中。

Ghost Ads 的評估方法準確又不增加額外的廣告成本,所以已經開始被廣告平台給採用,例如 Google 的 Conversion Lift,以及 Meta 在廣告平台上優化 incrementality 的工具。Ghost Ads 在廣告主能控制廣告分配機制時最為有效,但當廣告主無法控制廣告分配的機制,例如在 RTB 有多方參與競價的環境下,就需要找尋其他的方法。
Ghost Bids (幽靈競價)
Ghost Bids 為 Ghost Ads 的改良版。因為在有多方參與競價,尤其是再行銷廣告的場景時,有多個廣告主參與競價,想要將廣告呈現在用戶面前。此時,單一廣告平台無法完全控制廣告是否最後有呈現在實驗組的用戶前,造成實驗進行的困難。
Ghost Bids 的運作機制是,記錄廣告主在實驗組中的所有競價,以及其在對照組中可能進行的競價。當實驗結束後,將實驗組中競價的用戶行為與對照組中可能競價的用戶行為進行比較。他和 Ghost Ads 的概念幾乎完全相同,最大的差別是 Ghost Ads 比較「實際有廣告曝光的實驗組用戶」與「模擬應被廣告曝光的對照組用戶」的購買行為差異;而 Ghost Bids 比較「實際有參與廣告競價的實驗組用戶」與「模擬應該會參與廣告競價的對照組用戶」。因為 Ghost Bids 是基於競價的紀錄而不是實際的廣告展示,有參與競價不代表最終用戶會看到廣告,因此數據的雜訊會比 Ghost Ads 來得大,精準度也比較低。
總結
行銷人員總會不斷思考所花費的高額廣告費用是否真的帶來實質上的業務成長,尤其是再行銷的場景中,消費者是因為看到廣告而購買,還是原本就有購買的意圖。這也是為什麼 incrementality measurement 在最近幾年越來越重要。這篇文章試著整理幾種常見的 incrementality test 方法,適用的場景,以及其優點和限制。
參考資料
Ghost Ads: Improving the Economics of Measuring Online Ad Effectiveness [LINK]
A Revolution in Measuring Ad Effectiveness: Knowing Who Would Have Been Exposed [LINK]
Incrementality Tests 101: Intent-to-treat, PSA and Ghost Bids [LINK]
Understanding incrementality: The key to measuring a campaign’s true impact [LINK]











