愛伊米

資料視覺化三節課之一:視覺化的意義

編輯導讀:對於複雜難懂的資料,用圖表的方式能夠更直觀地呈現資料背後的資訊。好的視覺化能夠幫助我們快速發現規律,找到原因;不好的視覺化有可能會得出錯誤的結論,產生誤導。想要做好資料視覺化,先要明白,資料視覺化是什麼、能做什麼。本文將從三個方面展開分析,希望對你有幫助。

資料視覺化三節課之一:視覺化的意義

“ 推測未來將要發生什麼的最好方式,就是記住過去曾經發生了什麼。 ”—— 喬治·薩維爾

金錢永不眠,屠夫問候各位早安。

近期因為工作需要,屠夫梳理了自己在投資和工作實踐中對「資料視覺化」的經驗和思考。我將用三節課講述“資料視覺化”的話題,希望給你一些啟發。

有句話叫“一圖勝千言”,對於看似複雜難懂的資料而言,尤其如是。資料視覺化,是將資料轉換成圖或表進行呈現,以一種更直觀的方式展現資料。對於經常需要用資料、做分析、理邏輯的投資者來說,資料視覺化是一項利器。

許多人看過資料視覺化,但未必都明白如何做好資料視覺化。好的視覺化,可以幫助我們快速發現規律、找到原因、作出判斷;不好的視覺化,可能讓人作出似是而非的結論,甚至引向大錯誤。

一、「資料」可以用來做什麼?

在瞭解知識、技能或工具前,屠夫總喜歡先了解它的“作用”,或者說“它究竟能解決什麼問題”。資料視覺化和資料緊密相關,更具體地說是和“資料分析”緊密相關。所以,對於任何一個想要了解視覺化的人來說,弄懂“資料”和“分析”解決了什麼問題應當排在首位。關於“資料究竟解決什麼問題”,屠夫歸結為“FIVE”4個字母:

Forecast 預測

Insight 洞察

Validation 驗證

Evaluation 評估

一年前寫的《資料的F。I。V。E。用法》裡的“I”是“Inspiration 啟發”,如今覺得還是改為“Insight 洞察”更貼切預測,是資料應用的最高階形態。

從資料獲得啟發,以資料驗證想法,用資料評估現狀,都服務於對未來的預測,最好能夠“運籌帷幄之中,決勝千里之外”。作為最高階形態,預測又是困難的。理想模型在落地時往往需要層層假設,這些假設裡任何一個引數的偏差,都有可能“失之毫厘謬以千里”。

正如《關於預測,你應該明白的3個道理》所說,預測的尺度越小越精確,卻越不容易準確。所以,在預測的精確性和準確性之間,最終取得的妥協往往是“模糊的正確”。

洞察,是假設和靈感的來源。許多規律在得到嚴謹的資料驗證之前,都是先從歷史資料中獲得洞察。我們可以從標普500和滬深300的部分歷史資料中得到“寬基指數長期上漲”的想法,這就是資料的“洞察”作用,而且往往是透過資料視覺化實現的。至於這個想法到底對不對,要用資料加以驗證才知道。

驗證,是資料驅動決策的試金石。一些似是而非的假設和靈感可能將人帶入歧途,而用資料進行驗證,將大大減少這類情況發生。

驗證的方式有許多:

在投資裡,對量化策略進行“回測”,是典型的驗證;資料分析時,構造蒙特卡洛模擬進行試驗,也是驗證;網際網路行業,採用A/B測試檢驗策略有效性,同樣是驗證。

驗證的天花板是 “absence of evidence” ——“沒有證據證明您有癌症”和“有證據證明您沒有癌症”,不是一碼事。感興趣的同學可以看看《決策與判斷的誤區》中的詳細解釋。評估,是使用資料的基本立足點。資料的“評估”式用法,實際上是透過資料構造出一個框架,然後將現狀與框架對比。

可以對同一物件,橫跨不同的時間段,縱向對比;也可以對多個物件,選取同樣的時間段,橫向對比。

屠夫曾以“地圖”和“六分儀”作比喻:

預測就好比使用地圖,而評估則是使用六分儀。

先以六分儀測量出經緯度,確定“當前在哪兒”,使用地圖時才會心中有數;先用資料進行評估,判別清楚當前的狀況,你的預測才不會成為無源之水。

資料可以用來做什麼?屠夫的看法是:【資料能用於預測】預測是資料應用的聖盃,是啟發、驗證和評估的最終目標【資料能帶來洞察】在歷史資料的啟發下,我們可以形成新的靈感或假設【資料能驗證假設】經過驗證的假設才有機會成為結論,反之只是一種猜想【資料能評估現狀】有資料支撐的現狀評估,讓預測和驗證成為有根之木。

二、「分析」能解決哪些問題?

有了資料,還需要分析才能解決問題。

“分析”究竟能解決哪些問題?屠夫歸結為4類:是什麼、為什麼、怎麼辦和好不好。

回答“是什麼”的問題,屬於描述統計。我們日常見到的趨勢折線圖、頻率分佈直方圖,都是透過對資料特徵進行描述,一般稱之為描述統計。立足於歷史和現狀,側重在現象和特性的展示。“是什麼”其實並不算真正意義上的分析,許多資料看板和BI都能實現,其威力大小取決於使用資料的人。然而這並不妨礙描述統計在分析領域的地位 —— 它是許多規律、假設和猜想的源頭。除此之外,如果回答的是“未來是什麼”,這種描述又帶上了預測色彩了。

回答“為什麼”的問題,屬於歸因分析。“歸因分析”一般指網際網路渠道運營對不同渠道產生的價值貢獻進行歸因。屠夫借這個詞推而廣之,將“尋求原因和解釋”一類的“為什麼”問題,都算作歸因分析。人類是一種對“解釋”有著極度狂熱的動物。當我們透過描述性統計發現了一些現象時,自然而然會想要知道現象背後的根源,以便復現、加強或者削弱這類現象。

回答“怎麼辦”的問題,屬於策略分析。網際網路行業有不少資料分析崗位,但是 ——只解答“是什麼”,充其量就是人肉取數工具;只解答“為什麼”,不過是產出專題分析報告;只解答“好不好”,只能完成效果覆盤和回測。

上述3者聽起來都不夠給力,是因為你的分析,沒有轉化成可操作的策略,分析結果距離落地太遠了。

上面是網際網路領域的例子,對於投資領域來說更好理解:制定投資策略,透過分析確定約束規則,決定在什麼條件該做什麼事,就是策略分析。

回答“好不好”的問題,屬於效果檢驗。投資領域提到的“歷史回測”,和職場工作裡常常需要進行“效果覆盤”,都是在回答“好不好”的問題。仔細想想就會發現,“好不好”其實和上面提到的“驗證”關聯非常緊密。事實上,資料分析裡有一部分工作就是用資料來驗證效果,和預期作對比確定“好不好”。

分析能解決哪些問題?屠夫的看法是:【回答“是什麼”】描述統計,可以展示現象和特性,立足歷史和現狀,是規律和猜想的源頭。【回答“為什麼”】歸因分析,可以深挖現象背後的原因,透過回溯根源,最終利用這些現象。【回答“怎麼辦”】策略分析,是為了將分析轉化成可操作、可落地的、實實在在的策略。【回答“好不好”】效果檢驗,是為了驗證落地操作後的結果是否符合預期。

三、「視覺化」的意義是什麼?

說到這裡,我們不妨把「資料」和「分析」的作用,做一個連線。回答“是什麼”問題時,需要藉助資料產生「洞察」,在一定框架對比之下進行「評估」,還可以對未來的情況進行「預測」:

資料視覺化三節課之一:視覺化的意義

回答“為什麼”問題時,需要藉助資料的「洞察」找規律,挖掘現象背後的原因,有條件的話最好有一定的「驗證」:

資料視覺化三節課之一:視覺化的意義

回答“怎麼辦”問題時,需要從「洞察」和「評估」出發,考慮可操作、可執行的應對策略,甚至會利用資料進行一定程度的「預測」:

資料視覺化三節課之一:視覺化的意義

回答“好不好”問題時,以「驗證」效果是否符合預期為目的,結合「洞察」來使用資料:

資料視覺化三節課之一:視覺化的意義

發現了嗎,洞察是被用的最多的,4大類分析問題都離不開「資料洞察」:

資料視覺化三節課之一:視覺化的意義

事實上,缺乏視覺化的情況下幾乎不可能發揮出資料的「洞察」作用。洞察是最需要視覺化輔助分析的資料用法,這個“輔助”體現在兩方面:

當我們希望深入分析、挖掘有用結論時,視覺化可以幫助我們發現規律、理清思路。比如下面這張來自《經濟學人》的網路圖,把近20年美國國會的投票記錄進行視覺化。如果兩名參議員對一項法案投出相同一票,就會以線相連。從圖中不難看出,美國國會的黨派分歧越來越嚴重。

資料視覺化三節課之一:視覺化的意義

資料視覺化三節課之一:視覺化的意義

以上就是第一節課的內容,下週將為大家帶來第二節課 —— “視覺化的使用”,敬請期待!

作者:屠夫1868,微信公眾號:基業長紅

本文由 @屠夫1868 原創釋出於人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Pexels,基於CC0協議。