愛伊米

資料分析過程指南

資料分析過程指南

與任何科學學科一樣,資料分析遵循嚴格的分步過程。每個階段都需要不同的技能和訣竅。但是,要獲得有意義的見解,瞭解整個過程很重要。一個基礎框架對於產生經得起審查的結果是非常寶貴的。

在這篇文章中,將探討資料分析過程中的主要步驟。這將涵蓋如何定義您的目標、收集資料和進行分析。而且還將使用示例並重點介紹一些工具,以使旅程更輕鬆。完成後,您將對基礎知識有更好的理解。

資料分析過程指南

1。 第一步:定義問題

任何資料分析過程的第一步都是定義您的目標。在資料分析術語中,這有時稱為“問題陳述”。

定義你的目標意味著提出一個假設並弄清楚如何測試它。首先要問:我想解決什麼業務問題?雖然這聽起來很簡單。例如,您組織的高階管理人員可能會提出一個問題,“我們為什麼會失去客戶?” 但這可能沒有觸及問題的核心。資料分析師的工作是足夠深入地瞭解業務及其目標,以便他們能夠以正確的方式構建問題。

雖然它在爭取新客戶方面很出色,但它的回頭客卻少得多。因此,你的問題可能不是,“為什麼我們會失去客戶?”而是,“哪些因素對客戶體驗產生了負面影響?”或者更好。“我們如何才能在最大限度地降低成本的同時提高客戶保留率?”

現在你已經定義了一個問題,你需要確定哪些資料來源能最好地幫助你解決這個問題。例如,也許你已經注意到,新客戶的銷售過程非常流暢,但生產團隊的效率很低。瞭解到這一點,你可以假設,銷售過程贏得了很多新客戶,但隨後的客戶體驗是缺乏的。這可能是客戶不回來的原因嗎?哪些資料來源可以幫助你回答這個問題?

幫助定義目標的工具

定義你的目標主要是關於軟技能、商業知識和橫向思維。但您還需要跟蹤業務指標和關鍵績效指標 (KPI)。每月報告可以讓您跟蹤業務中的問題點。一些 KPI 是收費的,例如Databox和Dasheroo。但是,你還會發現開源軟體,如Grafana, Freeboard,Dashbuilder。這些非常適合在資料分析過程的開始和結束時生成簡單的儀表板。

2。 第二步:收集資料

確定目標後,您需要制定收集和彙總適當資料策略。其中一個關鍵部分是確定您需要哪些資料。這可能是定量(數字)資料,例如銷售數字,或定性(描述性)資料,例如客戶評論。所有資料分為三類:第一方、第二方和第三方資料。讓我們一一探究。

什麼是第一方資料?

第一方資料是您或您的公司直接從客戶那裡收集的資料。它可能以交易跟蹤資料或來自貴公司客戶關係管理 (CRM) 系統的資訊的形式出現。無論其來源如何,第一方資料通常都以清晰明確的方式進行結構化和組織。第一方資料的其他來源可能包括客戶滿意度調查、焦點小組、訪談或直接觀察。

什麼是第二方資料?

為了豐富你的分析,你可能想獲得第二方資料來源。第二方資料是其他組織的第一方資料。這可能是直接從公司或透過一個私人市場獲得的。第二方資料的主要好處是,它們通常是結構化的,雖然它們的相關性會比第一方資料差,但它們也往往是相當可靠的。第二方資料的例子包括網站、應用程式或社交媒體活動,如線上購買歷史,或運輸資料。

什麼是第三方資料?

第三方資料是第三方組織從眾多來源收集和彙總的資料。通常(儘管並非總是)第三方資料包含大量非結構化資料點(大資料)。許多組織收集大資料以建立行業報告或進行市場研究。研究和諮詢公司 Gartner 是收集大資料並將其出售給其他公司的組織的一個很好的現例項子,國內的有易觀、艾瑞、TalkingData等,不過國內資料造假在大數行業太過普遍參考性不大。開放資料儲存庫和政府入口網站也是第三方資料的來源。

幫助您收集資料的工具

一旦你設計了一個數據策略(即你已經確定了你需要哪些資料,以及如何最好地收集它們),你可以使用許多工具來幫助你。無論行業或專業領域如何,您都需要一個數據管理平臺 (DMP)。DMP 是一種軟體,可讓您識別和彙總來自眾多來源的資料,然後再對其進行操作、分段等。有許多可用的 DMP。一些知名的企業 DMP 包括Salesforce DMP、SAS和資料整合平臺Xplenty。你也可以嘗試一些開源平臺,比如Pimcore或D:Swarm。

3。 第三步:清理資料

收集資料後,下一步就是準備好進行分析。這意味著清理或“清洗”它,對於確保您使用高質量資料至關重要。關鍵的資料清理任務包括:

刪除主要錯誤、重複和異常值——所有這些都是從眾多來源聚合資料時不可避免的問題。

刪除不需要的資料點——提取與您的預期分析無關的不相關觀察。

為您的資料帶來結構——一般的“內務管理”,即修復拼寫錯誤或佈局問題,這將使您更輕鬆操作資料。

填補主要空白— 在整理時,您可能會注意到丟失了重要資料。一旦你確定了差距,你就可以著手填補它們。

一名優秀的資料分析師將花費大約 70-90% 的時間來清理他們的資料。這聽起來可能有些過分。但是專注於錯誤的資料點(或分析錯誤的資料)會嚴重影響您的結果。它甚至可能讓你回到原點……所以不要著急!

進行探索性分析

許多資料分析師做的另一件事(除了清理資料)是進行探索性分析。這有助於識別初始趨勢和特徵,甚至可以完善您的假設。讓我們再次以我們虛構的學習公司為例。進行探索性分析時,您可能會注意到 TopNotch Learning 的客戶支付的金額與他們轉向新供應商的速度之間存在相關性。這可能表明低質量的客戶體驗(您最初假設中的假設)實際上比成本更重要。因此,您可能會考慮到這一點。

幫助您清理資料的工具

手動清理資料集(尤其是大型資料集)可能令人生畏。幸運的是,有許多工具可以簡化流程。開源工具,例如OpenRefine,非常適合基本資料清理以及高階探索。但是,免費工具為非常大的資料集提供有限的功能。Python 庫(例如 Pandas)和一些 R 包更適合大量資料清理。當然,您需要熟悉這些語言。或者,也可以使用企業工具。例如,Data Ladder,它是業內評價最高的資料匹配工具之一。還有更多。為什麼不看看你可以找到哪些免費的資料清理工具來玩呢?

4。 第四步:分析資料

最後,您已經清理了資料。現在是有趣的部分——分析它!您執行的資料分析型別在很大程度上取決於您的目標是什麼。但是有很多可用的技術。單變數或雙變數分析、時間序列分析和迴歸分析只是您可能聽說過的一些。但是,比不同型別更重要的是您如何應用它們。這取決於您希望獲得哪些見解。從廣義上講,所有型別的資料分析都屬於以下四類之一。

描述性分析

描述性分析 確定已經發生的事情。這是企業在進行更深層次探索之前的常見第一步。作為一個例子,讓我們再次回顧一下我們虛構的學習提供者。TopNotch Learning 可能會使用描述性分析來分析其客戶的課程完成率。或者他們可能會確定在特定時間段內有多少使用者訪問了他們的產品。也許他們會用它來衡量過去五年的銷售數字。雖然公司可能無法從任何這些見解中得出明確的結論,但總結和描述資料將有助於他們確定如何進行。

診斷分析

診斷分析 側重於瞭解某事發生的原因。 它實際上是對問題的診斷,就像醫生使用患者的症狀來診斷疾病一樣。還記得 TopNotch Learning 的業務問題嗎?“哪些因素會對客戶體驗產生負面影響?” 診斷分析將有助於回答這個問題。例如,它可以幫助公司在問題(努力獲得重複業務)和可能導致問題的因素(例如專案成本、交付速度、客戶部門等)之間建立相關性。讓我們想象一下,使用診斷分析, TopNotch 意識到其零售領域的客戶比其他客戶的流失速度更快。這可能表明他們正在失去客戶,因為他們缺乏該領域的專業知識。這是一個有用的見解!

預測分析

預測分析允許您 根據歷史資料識別未來趨勢。 例如,在商業中,預測分析通常用於預測未來的增長。但它並不止於此。近年來,預測分析變得越來越複雜。機器學習的快速發展使組織能夠做出驚人的準確預測。以保險業為例。保險提供商通常使用過去的資料來預測哪些客戶群更容易發生事故。結果,他們將提高這些群體的客戶保險費。同樣,零售業經常使用交易資料來預測未來趨勢所在,或確定季節性購買習慣以制定策略。這些只是幾個簡單的例子,但預測分析的未開發潛力非常引人注目。

規範性分析

規範性分析允許您為未來提出建議。這是流程分析部分的最後一步。這也是最複雜的。這是因為它包含了我們所描述的所有其他分析的各個方面。規範分析的一個很好的例子是指導谷歌自動駕駛汽車的演算法。每一秒,這些演算法都會根據過去和現在的資料做出無數決定,確保平穩、安全的行進。規範性分析還可以幫助公司決定要投資的新產品或業務領域。

資料分析過程指南

5。 第五步:分享你的結果

你已經完成了你的分析。你有你的見解。資料分析過程的最後一步是與更廣泛的世界(或至少與您組織的利益相關者!)分享這些見解,這比簡單地分享您工作的原始結果更復雜——它涉及解釋結果,並展示它們以適合所有型別觀眾的方式呈現。由於您經常向決策者提供資訊,因此您所提供的見解 100% 清晰明確非常重要。出於這個原因,資料分析師通常使用報告、儀表板和互動式視覺化來支援他們的發現。

您如何解釋和呈現結果通常會影響企業的發展方向。根據您共享的內容,您的組織可能會決定重組、推出高風險產品,甚至關閉整個部門。這就是為什麼提供您收集到的所有證據而不是挑選資料非常重要的原因。確保您以清晰、簡潔的方式涵蓋所有內容將證明您的結論在科學上是合理的並且基於事實。另一方面,重要的是突出資料中的任何差距或標記任何可能需要解釋的見解。誠實的溝通是這個過程中最重要的部分。它將幫助企業,同時也幫助您在工作中脫穎而出!

解釋和分享您的發現的工具

有大量資料視覺化工具可用,適用於不同的經驗水平。不需要或幾乎不需要編碼技能的流行工具包括Google Charts、Tableau、Datawrapper和Infogram。如果您熟悉 Python 和 R,還有許多可用的資料視覺化庫和包。例如,檢視 Python 庫Plotly、Seaborn和Matplotlib。無論您使用哪種資料視覺化工具,請確保您也提高了您的演示技巧。請記住:視覺化很棒,但溝通是關鍵!

6。 第六步:接受失敗

資料分析過程的最後一個“步驟”是接受失敗。上面描述的路徑更像是一個迭代過程,而不是一條單行道。資料分析本質上是混亂的,您遵循的過程對於每個專案都會有所不同。例如,在清理資料時,您可能會發現引發一系列全新問題的模式。這可能會讓你回到第一步(重新定義你的目標)。同樣,探索性分析可能會突出一組您以前從未考慮過使用的資料點。或者,您可能發現核心分析的結果具有誤導性或錯誤性。這可能是由資料錯誤或流程早期的人為錯誤引起的。

雖然這些陷阱讓人感覺像是失敗,但如果發生了也不要氣餒。資料分析本質上是混亂的,並且會發生錯誤。重要的是磨練你發現和糾正錯誤的能力。如果資料分析很簡單,但肯定不會那麼有趣。使用概述的步驟作為框架,保持開放的心態並保持創造力。如果你迷路了,你可以回顧這個過程,讓自己走上正軌。

資料分析過程指南

7。 總結

在這篇文章中,我們介紹了資料分析過程的主要步驟。這些核心步驟可以按照您認為合適的方式進行修改、重新排序和重新使用,但它們支撐著每個資料分析師的工作:

定義問題——您要解決什麼業務問題?把它作為一個問題來幫助你專注於找到一個明確的答案。

收集資料——制定收集資料的策略。哪些資料來源最有可能幫助您解決業務問題?

清理資料— 根據需要探索、清理、整理、重複資料刪除和結構化資料。做你必須做的!但是不要著急……慢慢來!

分析資料——進行各種分析以獲得洞察力。專注於四種類型的資料分析:描述性、診斷性、預測性和規定性。

分享您的結果——如何最好地分享您的見解和建議?視覺化工具和溝通的結合是關鍵。

接受你的錯誤——錯誤發生。向他們學習。這就是將一名優秀的資料分析師轉變為一名出色的資料分析師的原因。

接下來是什麼?從這裡開始,強烈建議您自行探索該主題。在資料分析過程中的步驟中發揮創意,看看您可以找到哪些工具。只要您堅持所描述的核心原則,您就可以建立適合您的。

資料分析過程指南