Web Tracking 的角色、用途與分類

Web Tracking 的角色、用途與分類 #

在開始討論具體技術之前,我還想額外討論 web tracking 常見的用途以及試圖解決的問題。畢竟 web tracking 這個領域存在各種不同技術是一回事,它們為何存在、當初發明它是想解決什麼,又是另一回事。我希望藉由這篇文章去讓大家了解到 web tracking 到底想解決什麼問題,而這個問題又為何會重要,甚至是需要被解決。

從不同使用情境,我們又可以把 web tracker 做分類,不同類型的 web tracker(追蹤器)可能有不同的特性與危害。雖然這與 web tracking 技術沒有直接相關,但可以讓我們更了解 web tracking 的生態。

Web Tracking 與廣告投放 #

若論 web tracking 的用途,基本上不外乎是用於廣告,在前面我們也有非常簡短地討論過兩者的關係。此處我們將稍微更仔細一點地討論 web tracking 與廣告投放的關係,以及這為何是個問題。

在傳統廣告的世界,廣告主只知道某個特定媒介有著特定類型的觀眾,例如百貨公司旁的公車站充滿了喜歡時尚潮流的人,閱讀親子雜誌的人多半是有小孩的人,每天晚上準時收看鄉土劇的人多半是年長者,

這些對於媒介與其客群的認識使廣告主可以粗略地投放廣告,例如親子雜誌上可能會有書籍與數位學習工具的廣告。然而,不同於傳統廣告分析其客群的普遍性質,數位廣告可以做到針對個人的分析,這項成就的一大背景來自於無所不在的行為追蹤與分析。

使用者若是安裝任何一個 adblocker,例如 uBlock origin、Ghostery等,並且瀏覽隨意一個網站。這些 adblocker 便會告訴使用者它攔截了多少 tracker,這些tracker 來自哪裡,以及對於一些更進階的 adblocker 而言:什麼資料被拿走了。舉例來說,當我造訪 Forbes 的網站時,可以看到非常多看 Forbes 應該沒什麼關聯的請求,這些請求都是由 tracker 發出的。

由此可見,當我們使用那些裝有 tracker 的網站時,瀏覽器不只會將資訊傳給該網站,還會將其傳給廣告商或追蹤者,畢竟瀏覽器下載一堆程式碼並執行它,而 tracking scripts 的確表明了應該把資訊傳給廣告商或追蹤者,瀏覽器只是按照指令做事。結果是,當使用者瀏覽各種看似無害的網站時,在台面下有著許多蠢蠢欲動的 tracker 正在嘗試蒐集資料,而使用者很可能完全不會感覺到它們的存在。而這些 tracker 的來源從熟悉的企業(例如 Google、Adobe)到很可能完全沒聽過的公司(例如 Forbes 上有個請求是送給一間名為 Sharethrough 的公司)。

不過,為什麼這些網站要接受他們植入 tracker 呢?網站所有者之所以同意廣告商與追蹤者植入這些 tracker,在於廣告商與追蹤者付費給網站所有者,讓他們可以在網站上插入廣告、植入 tracker。以前例來說,決定 Forbes 的網站上顯示哪些廣告的其實不完全是 Forbes 自身,而是這些付錢給 Forbes 的廣告平台(ad networks),這些廣告平台買了網站上的廣告欄位,再轉手賣給希望投放廣告的人。簡言之,這些廣告平台的工作是媒合網站上的廣告欄位與想要投放廣告的人(廣告主)。這麼做對 Forbes 的好處是,他們不用花費心力處理廣告投放,只需要把欄位給廣告平台,讓他們去處理即可。對於廣告平台而言,他們不只可以將這個廣告欄位轉賣給需要的人,還可以藉此在網站上插入 tracker。當足夠多網站都被廣告平台插入 tracker 時,他們也就有足夠多的資訊去媒合到更好的廣告主,藉此增加收益。

不只廣告平台,也有一些追蹤者只單純收集資料並轉賣這些資料。因為廣告商可能需要很多不同資料來做出好的判斷,於是有個產業稱為資料仲介(data broker)來幫忙整合這些資料。資料仲介可能會向多個追蹤者購買資料,可能他們自己同時也是追蹤者,他們蒐集到或買到資料後會為每個使用者建立 profile,把這些資料賣給需要資料的公司。

所以這些廣告商或追蹤者都在蒐集些什麼?以前面提到的 Sharethrough 為例,他們蒐集的內容包含各種 identifier、 地理位置資訊、網路流量、瀏覽過的頁面、瀏覽時間、錯誤信息、點擊的連結、點擊或檢視的廣告、廣告顯示的時間長短、系統與瀏覽器的各種資訊等。這些資訊會用於決定投放哪些廣告、用於廣告競標等。

在決定要把廣告欄位賣給哪個廣告主時,通常有幾種策略。

第一種是直接買斷,也就是廣告主直接與廣告平台談好價格,例如千次曝光(CPM)或點擊(CPC)的價格,然後廣告平台根據其對使用者的認識以及廣告主的出價投放廣告。

第二種是經過一段名為「即時競標」(real-time bidding, RTB)的過程,也就是廣告平台將廣告欄位資訊公告出來,供不同人競標。可以想像:網站要賣掉一個廣告欄位,而廣告主想買到一個廣告欄位投放廣告,於是多個廣告主便會去競標一個欄位。這個過程通常有幾個身分:Ad-exchange (ADX) 是競標的市場所在;Supply-Side Platform (SSP) 為賣方(也就是網站)服務,負責加入不同的 ad-exchange 找到出價最高者;Demand-Side Platform (DSP) 為買方(廣告主)服務,負責使用一些演算法協助從 ad-exchange 那邊競標到最划算的欄位。當使用者造訪網站時,SSP 會先蒐集使用者資訊,將廣告請求交給 ADX,接著 ADX 會將使用者資訊分享給各個 DSP,DSP 看過使用者資訊後出價競標該欄位,得標後 ADX 會再將資訊回傳給網站,網站顯示廣告並找 DSP 收錢。這整個過程可能只在幾百毫秒內由程式完成,使用者幾乎毫無感覺。

在這整個環節中,對使用者的認識非常重要。在傳統買斷的廣告投放中,如果廣告平台對使用者沒有認識,可能就會投放錯廣告而無法收到廣告點擊的收益 ,而且廣告主也可能發現投放在這個廣告平台上的廣告都比較少點擊,而不再願意使用該平台。同樣的,在 RTB 中如果 DSP 誤估了使用者的偏好與消費能力等,可能就會開出不合理的價格。上面的討論省略了非常多細節(例如 ADX 不一定只會做 RTB)1,但此處的重點在於呈現為何廣告商會對使用者資料感興趣。

Web Tracking 的角色 #

在 web tracking 的資料中,大概可以分成四個角色:使用者、網站管理員、追蹤者、資料使用者。

使用者是資料的來源,他們在網站上的使用行為會被記錄下來。網站管理員就是網站管理員(?),通常他們會和追蹤者合作,在網站中埋入追蹤者的 tracker,讓使用者在他的瀏覽器中執行 web tracking 的 code。網站管理員可能基於許多誘因與追蹤者合作,例如藉此使用追蹤者提供的服務(e.g. Facebook 的 Like 按鈕、Google Analytics),或是有經濟誘因。追蹤者則是主要開發與部屬 tracker 的單位,他們蒐集到資料後,會賣給或分享給資料使用者,也就是最後需要用這些資料的單位。資料使用者則會利用這些資料去投放廣告或提供服務。在許多情境中,資料使用者和追蹤者可能是同一個單位,一方面蒐集資料一方面使用資料,像是 Facebook。甚至可能資料使用者就是網站管理員自己,藉由這些追蹤者從網站上拿到的資料,網站管理員可以更加了解使用者如何操作自己的網站,網站可以如何改善。


另外,因為分析者可能需要很多不同來源的資料,希望有人可以幫忙 aggregate 好整包一起賣,於是有個產業叫做 data broker(資料仲介)。Data broker 可能會跟追蹤者買資料,可能他們自己就同時也是追蹤者,他們蒐集到或買到資料後會為每個使用者建立 profile,把這些資料賣給需要資料的人,像是廣告商。

這個故事做了許多簡化。在真正的廣告產業中,還有非常多不同單位,像是有負責整理廣告 demand 的,有負責處理廣告欄位 supply 的,也幫忙做 bidding(廣告欄位競標)的。 廣告產業的複雜程度簡直是場災難,我只挑出了與 tracking 密切相關的角色,其餘的就被我簡化掉了。

Web Tracking 的用途 #

廣告投放 #

如同前面一再提及,web tracking 最常見與投放廣告相關。Web tracking 最早便是為了投放廣告而出現的。藉由追蹤使用者造訪過哪些網頁,推測使用者可能對什麼有興趣,藉此投放廣告。至今 web tracking 最常見的用途仍然是為了蒐集資料做廣告投放,在可預見的未來大概也不會改變。

當今整個廣告產業有很大一部份著重在精準投放,甚至可以說,如果有一天精準投遞消失了,廣告產業雖然不會消失,但肯定和現在很不一樣。舉個簡單的例子,Apple 之前在 iOS 14.5 加上 App Tracking Transparency 功能,就讓 Facebook 跑出來 哀號說他們會損失 10B 的利潤。題外話亂扯個,這個案例比起說是在講 tracking 對廣告產業多重要,更重要的可能是 Apple 的壟斷地位到底有多恐怖,一個小功能可以造成這麼大的影響。

聯盟行銷(Affliate marketing) #

另一個同樣與廣告有關的是聯盟行銷,或有時稱為夥伴計畫(Affiliate / Referral Program)等,其運作方式是,如果使用者可能會在網站 A 上看到某個商品的宣傳,於是他從網站 A 藉由點擊連結或任何其他方式轉跳到某個電商 B,則當使用者在電商 B 消費時,網站 A 可能會獲得分潤之類的。此時電商 B 需要有個方法使其知道使用者是從網站 A 來的,web tracking 在此便可派上用場。

個人化推薦 #

類似於投放廣告,個人化推薦為透過分析使用者瀏覽網頁的行為來找到使用者的偏好並藉此推薦文章、影片、商品、搜尋紀錄等。舉例來說,如果 Facebook 發現我在瀏覽偏好某個政黨的新聞,他可能就會想推薦給我跟支持此政黨有關的貼文等。

網站分析(Web Analytics) #

對於網站擁有者而言,使用者進入這個網站之前與之後發生了什麼事是很重要的,例如流量來源、逗留時間、轉換率等,都是重要的資訊。為了讓使用者在網站上的行為可以被連貫地分析,例如找到重複瀏覽者等,必須使用 web tracking 技術來輔助。

另外一個與之類似的是 usability tests,在於分析網站的可用性,例如追蹤使用者的滑鼠移動與點擊,藉此了解使用者究竟是如何使用這個網站,他們的使用方式是否符合期待,或是可能網站設計無法使他們正確了解如何操作等。

許多網站會做 A/B test,此時 web analytics 與 usability tests 便至關重要,可以提供許多有用的資訊,協助網站管理員做出好的設計決策。

Web analytics 與 usability tests 雖然會蒐集許多資訊,但可能是無害的,因為這些東西通常只會被用於內部分析,而且也不太會去做跨網站之間的分析與資訊共享。然而這不意味著 web analytics 與 usability tests 就沒有隱私侵害,並不是每個人都想被如此分析,使用者在網頁上的操作也可能洩漏一些預料之外的資訊,例如操作習慣。

監控 #

無論對於政府、司法機構或數據分析相關公司而言,使用者瀏覽什麼資料都是很珍貴的,可以被拿來分析的。

我們已經有 非常多政府與司法機構嘗試監控人民的案例了,其中以美國 NSA 的 PRISM 最為知名。這裡我無意討論監控的正當性或合法性,僅是指出政府與司法機構有動機與案例監控網路使用。

數據分析相關公司,尤其資料仲介(data broker),對使用者瀏覽網站以及操作方式等也同樣感興趣,因為這些資訊可以被賣給廣告商或需要這些資料的單位。例如保險公司如果知道這個使用者常常瀏覽競速相關資訊,可能就會想提升車禍險的保費;電商如果知道使用者常常瀏覽筆電開箱文,可能會把筆電價格拉高一點。其中最有名的案件莫過於 劍橋分析事件。總之,數據就是資訊世界的貨幣。

Web Tracker 的分類 #

在上一段,我們簡介了幾個 web tracking 的用途,所以就想稍微延伸一下,介紹一個我私心覺得蠻不錯的 web tracker 分類。DuckDuckGo 的 Tracker Radar 是一個分析 tracker 的專案,其中他們提出了一個對於 tracker 的分類。

原文 在此,以下內容有些是翻譯自該文件並加上我自己的附註,不過只會介紹幾個我認為需要知道的。

  • Action Pixels:類似於 Web beacon,用於追蹤發生在 first party 或 third party 的特定事件。
  • Ad Motivated Tracking 與 Advertising:為了蒐集資料來投放廣告而部屬的 tracker。
  • Analytics:用於網站分析。
  • Audience Measurement:更進一步的網站分析,通常會包含一些 demographic 的資料(性別、種族等)以及行為分析。
  • Session Replay:這類型的 tracker 會追蹤使用者在網站上的所有行為,像是滑鼠移動、點擊、捲動或甚至網路流量,但它們本質上還是網站分析。
  • Federated Login, Online Payment, Single Sign On, Social Network 等:顧名思義,就是與 Federated Login, Online Payment, Single Sign On 等有關的 tracker,這些服務為了做產品使用分析與防止詐欺,通常會部屬一些 tracker

至此我們已經完成對 web tracking 的 high-level overview。我知道這篇文章蠻無聊的,但有這些背景知識,接下來就可以走向較為技術細節的部份了!