閱讀心得《Designing with Data 善用數據幫你打造好設計》

公司今年度開始全面導入數據驅動設計，每個部門的所有專案都必須有明確的數據評估成效，身為一個工程師，看到公司往更有邏輯的方式組織專案，用更多的理性數據當作依據來安排做事的優先順序感到開心，這讓我們擺脫窮忙的局面，專注在執得投資的項目上；

但另一方面也感到憂慮，是不是任何現階段無法使用數據衡量的事物就完全不重要？例如用戶體驗、工程品質等等，是不是我們走向數據的同時就成了完全百分百的賺錢機器？

基於這樣的考量，同事推薦了這本書《Designing with Data 善用數據幫你打造好設計》

這本書以設計師為出發，闡述數據是設計師的好朋友，而不是扼殺創意的牢籠，同樣的這句話我覺得也能套用到工程師身上(工程師也是有對品質要求的浪漫)

如果你跟我有一樣的擔憂，又或是想知道良好的數據驅動設計是怎麼正向的推動，這本書無疑是個很棒的入門書 (我們公司的資深 UX 設計師 / PM 都推薦閱讀)

數據思維

數據的本身只是個單純的計數，他可以是網頁上按鈕點擊的次數、用戶停留的時間長，又或是 app store 給予的評價星等，數據是個理性且沒有意義的存在，只有當人們解讀時才賦予了含義

當我們開始解讀數據，可以分成三個層次的思維

數據驅動
數據的表現很明確，可以直接回答團隊的問題，並驅動結論的產生

例如說希望透過改善付費頁面增加轉換率，此時透過實驗觀察到轉換率的高或低，就能有明確的結論知道改善是否有效

數據啟示
當面對一個模糊不清的領域，團隊需要花一些時間研究與探索才能明定目標，此時數據的用途不是給予一翻兩瞪眼的結論，而是從中的差異去解讀可能性

另如說之前公司為了瞭解用戶對於登入方式的想法，增設多個第三方登入的方式，我們不期待這次實驗後就拍板要不要導入第三方登入，而是單純探索用戶的反應，並分析增加登入通過率的可行方案往往是先有了數據啟示，經過幾次的探索有了更明確的假設與目標，接著就拆分成多個數據驅動的實驗

數據意識
當我們習慣數據思考後，開始打造完整的數據收集系統，讓整個產品的流程都能用數據去解釋與呈現

例如說公司之前想要衡量新用戶的體驗，重新定義數據收集的內容與格式，用數據紀錄抵達第一個「a ha moment」的用戶體驗里程，這成了後續評估專案成效的重要指標

為什麼需要數據

當我們在打造一項產品，我們都希望有很多的用戶能夠使用而受惠，進而付費讓整個商業模式可以運轉，持續打造能夠解決用戶痛點的好產品
但是我們要如何知道「用戶是不是真的滿意我們的產品？」「推出的新功能是不是用戶真的要的？」「新的 UI 介面成效有比舊的 UI 更受歡迎嗎？」「我們該怎麼做才能增加營收？」等問題

我們該如何知道用戶的使用情況與反饋？

對於網路產業來說，推出產品與收到反饋的時間都非常快，在更近一步討論數據之前，必須先回歸原點，公司再不同的階段會有不同的戰略目標，可能是營收的成長率或是用戶的成長數等

[案例一] Netflix 的商業模式是訂閱制，在訂閱方案的金額固定下，用戶的訂閱數就是他們很重要的關鍵指標，關鍵指標通常是直接跟營收做掛鉤；接著透過數據觀察到用戶的訂閱意願與觀看時間成正比，所以觀看時間就成了次要指標
[案例二] Coursera 的商業模式是透過販售課程完成的結業證書，他們的次要指標是用戶是否通過第一次考試、用戶在一週內是否有反覆回來造訪網頁

在資源有限的情況下，我們必須持續且快速的嘗試，關鍵指標反應可能會比較慢，所以會需要有其他的次要指標去觀察嘗試的結果，用每一次的學習去往次要指標與關鍵指標邁進，因此快速且正確的評估用戶的反應，就是件非常重要的事情，常見的手段分成量化研究與質化研究

量化研究

主要是透過客觀的觀察大量用戶的行為，透過統計分析探討「用戶是如何操作產品 / 用戶怎麼操作這項功能」

質化研究

透過用戶訪談或使用性測試，與少量的用戶進行深度的訪談，藉此了解用戶的真實情緒反應，更注重於「為什麼用戶會怎樣思考」等問題

量化研究與質化研究相輔相成，例如說公司推出了新的付費方案，透過量化研究發現整體用戶的續訂率下降了，這時候就透過訪談方式去了解到用戶看到多個方案反而不清楚其中的差異，導致考慮的時間拉長等當初設計方案時欠缺考慮的方向

這本書反覆強調，是數據優先而非單純數據，意即量化研究或許是主要手段，但也不能完全捨棄質化研究

A/B 測試

當我們執行專案後，要怎麼清楚的知道這樣的結果是基於我們做出的改變，而不是外在因素干擾或是瞎貓碰到死耗子，簡言之要釐清高相關性與因果性，在此推薦一篇 whoscall 團隊非常棒的文章數據分析的力量

為了找出因果性，可以套用科學實驗的方法，

拆分同質的對照組與實驗組，控制一次改變一個自變數的情況下，觀察應變數的變化關係

也稱作為 A/B 測試，拆分成 A,B 兩組，一組維持原本的設計，另一組依照我們的假設套用新的設計，觀察兩組的指標變化，推論假設是否成立

基於我們的商業目標與現有的數據，我們提出多組假設，並依據假設設計多組實驗組，實際的情況大概會長這樣

以下拆分成三個階段定義 -> 執行 -> 評估

定義

有幾個問題可以幫助思考目標

你想把時間跟精力放在哪邊產生影響力
你相信什麼對使用者是好的
怎樣的使用者體驗或是商業關鍵議題可以被視為機會點
什麼是改進使用者體驗的好機會

定義的目標可以是量化指標，也可以是質化指標，例如書中以辦營隊為例，「增加營隊報名人數」可以是個目標，「讓營隊變得更好玩」也可以是個目標；
但不論目標是量化還是質化，都必須找到量測的指標，確認自己有在往目標邁進，質化目標也可以通過問卷回收、田野調查等方式

指標的評估

先前提到關鍵指標與次要指標，設定次驗指標的目的在於關鍵指標的反應週期可能很長，另如月訂閱制要等到一個月後才知道結果太慢了；
又或是關鍵指標太不敏感，像是app store 評價，如果今天做的是局部+評估類型的改動，像是調整按鈕大小與顏色，估計是不會很快反映在評價上，所以需要額外的指標衡量

指標之間的衝突

目標的制定是科學也是藝術，例如 eBay 的交易媒合的方式是賣家上架商品 + 買家下標兩者動作結合，他們透過數據發現在某些情況下買家棄標的比例很高，經過研究發現是目前的上架流程某些資料不透明，例如買家下標才發現商品在海外需要額外的運費跟稅收，所以他們希望研究增加商品資訊量是否能夠減少棄標量，他們發現增加商品資訊量確實減少棄標量，但是也因為增加購買的阻力導致下標數量下滑

這時候減少棄標量增加交易品質跟下標數量下滑這兩個指標孰輕孰重，就考驗團隊的價值觀，此時 eBay 選擇前者，因為與其增加短期的下標量，他們更重視用戶的中、長期關係

同樣的 Airbnb 也面臨過相同的抉擇，他們發現某些屋主的物件條件明明不錯卻出租日很少，後來發現是照片拍得不夠好、資訊不夠充分，當時內部一個團隊目標是「增加屋主的上傳物件數」另一個團隊的目標是「增加屋主出租的機會」，兩者同時希望更改註冊流程，一個希望簡化另一個希望屋主更慎重註冊，實驗的方向剛好衝突，最終他們選擇融合兩者目標去平衡，達到最佳的成效

這是一個不斷反覆思索的過程，從目標到指標的設定需要來回的檢視，並與各個團隊溝通以免實驗互相衝突

假說

有了目標後要開始發想假說，我們必須決定專案的規模以及預計學習的事物，可以用兩個維度四個象限拆分：局部/全面、探索/評估
改動範圍如果是局部，那代表我們可以用較激進的方式去量測，因為潛在的風險比較小/
專案的目的如果是評估，那代表結果必須很明確的回答某些問題，在設計數據收集方面就要往這方面邁進

例如說「改動付費頁面希望提升轉換率」就是個局部+評估類型的需求，只改動一個頁面不會影響到其他關鍵體驗，同時專案的結果會直接決定要不要套用新的設計；
而「修改視覺系統希望更清楚表達產品價值與品牌意識」就是個全面+探索的需求，改動上線後無法直接回答轉換率是否直接因此提升，需要從其他面向與增加量測方式才能得知專案的成效

制定假說

接著用以下的句子問自己

對於 [使用者類型]，如果 [改變]，就會 [效應]，這是由於 [理由]，並會影響 [量測值]

使用者類型 可以是不同的子集，例如說新用戶跟舊用戶就是很大的差異，又或是不同國家、不同性別等，這依據產品調性與實驗的性質不同而區隔以下問題可以幫助思考

你對於他們的人口結構有什麼了解？他們有什麼習慣？
他們和公司有什麼關係？
這是現有的使用者？新用戶？專業用戶？

改變 是指希望用來影響使用者的事物，一個假說可以多種不同的改變設計

你是要增加新的設計？
還是要移除舊的設計

效應 是預期帶來的改變

你發現的問題是什麼？什麼樣的用戶可以解決或是減少這個問題？
你發現的機會領域是什麼？

理由 則是支持假說的證據

你的理由是來自消費者動機？還是由某種戰術與機制來達成改變
有哪筆資料支持這項假說？

量測 是想要影響的終極指標，用一個客觀的方式最大化學習

為了瞭解你正在創造正面且夠大的影響，需要衡量什麼指標？
你會量測用戶的情緒嗎？

以照片分享平台為例，假說可以是「我們預測藉由增加濾鏡與照片特效，會有更多人使用我們的產品，因為這會讓他們的照片更好看、更有趣，若我們發現使用者投入層度增加就知道假設是真的」

樣本與信心程度

在定義階段，我們需要明確測試的族群是哪些，並且決定測試的時間週期與樣本數，例如說假日上線的用戶跟平日上線的用戶可能不同，如果測試的週期不夠全面，容易得到錯誤的結論

為了避免假陽性(實驗判斷有效但實際無效)、假陰性(實驗判斷無效但實際有效)等實驗不準確的狀況，我們需要對測試結果有一定程度的信心，例如說有人通知巷口失火了，如果只是一個人你可能覺得在開玩笑，但有一百人都這樣說勢必就會開始起疑心，在統計上稱為信賴區間，從母體採集某個數量的子樣本，套用數據後得到一定的信心水準

面對不同等級的修改會需要不同的信心水準，同時也會決定結果放量的過程，例如說跟營收相關的改動可能要比較高的信心水準，以及較謹慎緩慢的放量過程

快速驗證

再進行產品做實體測試前，可以推出低擬真度的 mockup 進行使用性研究，例如 spotify 希望統一視覺系統，但不確定要採用深色還是淺色的方案，此時他們將設計原型做成問卷調查先快速驗證，最終採用了深色的方案，用此減少不必要的嘗試

在定義的階段，試著回答以下問題

你想要為公司達到的目標有哪些？
在你的試驗中，最重要學習到的會是什麼？
在生成假說時，運用了哪些數據？
在挑選假說時，是否真的生成了所有的假說？

執行

這一個階段是如何透過設計呈現假說，例如 Netflix 想要測試「在首頁增加電影的選擇數目是否會增加銷量」，但是增加選擇數目有很多種方式，設計團隊提出[增加電影類別數]或[類別中電影的數量] (廣度與深度)，分別涉及成三個實驗

25 x 100
50 x 75
50 x 100 最終發現中間的實驗效果最好

在 A/B Testing 五大必殺招數，讓你轉換率立馬提升 200% - Day 12 / 200, #EverythingAboutGrowth 文章中分享一段很精闢的見解

好的實驗假設，都是奠基於使用者行為與心理脈絡發展而成

1
2
3
4
5
6
7
【功能性假設】
- 按鈕從藍色變紅色，會提升轉換率
- 把圖片由小放大，會提升轉換率

【行為心理脈絡假設】
- 旅宿頁面加強急迫感，會提醒使用者有訂不到房的可能性與壓力，進而提升轉換率
- 搜尋列表頁讓更多商品能一次映入眼簾，能幫助使用者容易比較多間民宿並找到喜歡民宿，進而提升轉換率

切記每個專案的重點要放在學習與檢討，而不是做完沒有成效就算了，擺正心態才能不斷的調整與改善

好的實驗並需明定目標，並平衡學習的細度以及測試的項目，在過程中可能會同時有多個假說與實驗再進行，透過不斷地檢視與學習，可以捨棄或是增加測試項目

假門測試 (Fake door)

可以再投入完全工程開發資源前，先做假的介面可以互動但背後的工程邏輯先忽略，測試用戶是否真的有需求，假門測試相比問卷可以真實反應用戶的需求，但要小心有可能惹惱用戶，所以在投放的過程應該要保守

例如我們公司為了測試用戶是否需要額外的登入功能，就先放假的登入按鈕收集用戶需求，點擊後彈窗顯示功能還在開發中，執行假們測試僅套用到極少數的用戶上，取得足夠樣本後就終止了

試驗零

再開始聚焦細節之前，可以先退一步思考「如果功能移除會有怎樣的影響」來避免過度聚焦的副作用，Skyscanner 發現移除頁面上的「最便宜機票」按鈕不影響關鍵數據，他們就省下精力在優化這個項目上

這個階段可以試著問以下問題

你如何打造最符合假說的體驗與設計？
在這個階段什麼元素是關鍵設計？什麼是其他可以之後注意的？
跟其他測試項目相比，這個項目能從中學到的獨特之處在哪？
如果需要學習到事務，最多需要幾個測試項目？
你能否說明每個測試項目的差異？

分析

發行 AB 測試之前

當要發行測試時，可以透過一些使用者研究去精練測試項目，確保實際發出的 AB 測試項目是最有價值的，向 spotify 每兩到三週會找真實的用戶到辦公室接受聲音測試，各團隊依據需求提出申請，在大規模 AB 測試之前調整文案與設計

接著要確保 最小可檢測效應，意即足以宣告成功的最小改變量，要記得做任何的實驗都有代價的，不論是投入的資源，還是用戶的學習成本都是，要事先明定指標的變動量大於某個數值才能帶來真正的商業價值，反之則不值得發行

最後要執行前，確認樣本的檢樣方式是否正確 / 確認發布後要持續多久 / 考量落實的細節等，像是 Facebook 在推出新功能前都會在紐西蘭先測試，因為 Facebook 測試會需要有實際的社交關係，同時又要與其他國家有點隔閡才不會用戶體驗互相衝突等

這時候可以問自己幾個問題

我在嘗試學習的東西是什麼？是否我還相信我的設計可以傳達想要學習的東西？
如果我的試驗成功或失敗，我要做什麼？
我的測試樣本是否足夠大？
是否了解測試中的所有指標？
是否有良好的次要指標？

評估結果

如果結果是正面的，代表假說是有價值的，但此時要仔細評估背後的學習，而不是貿然的推出新功能

例如說 Esty 網站推出新的後台系統流程，透過測試結果良好，但貿然推出新流程增加舊用戶的學習曲線，後來他們在不會推出與逐步釋出之間做抉擇

如果結果是負面的，要反過來思考

用戶是否以你所想像的方式使用？
用戶是否關心你所沒有考慮的事物？
這功能是否只是群體的細分族群使用而非大眾需求？

此外有些決策是為了更大的商業考量，即使目前的測試導致些許的負面結果，但權衡之後還是值得推出，像是先前 ebay 的案例

如果對照組與實驗組的結果差不多，這是常見的事情，不必太氣餒，可以反過頭來檢視打造測試的過程是否有所遺漏

樣本的選擇是否正確
是否需要更多的用戶才能量測
是否有外部因子干擾
挖掘其他次要指標與關鍵指標

接著可以決定是否進行下一輪測試，又或是將成果逐步放量到全部用戶上

結語

最後兩章講得是如何在公司內導入，以及招聘合適的人選，這部分就暫略，整份讀書心得其實有點生硬，畢竟是不常接觸的領域，從門外漢與公司運作角度一瞥數據驅動與AB測試的美妙，整套設計非常的理性科學，卻也在某些設計環節依舊保留創造與彈性，結合兩者才能持續打造用戶真正需要的產品