Pandas資料探索分析，分享兩個神器！

在使用進行資料分析時，進行一定的資料探索性分析（EDA）是必不可少的一個步驟，例如常見統計指標計算、缺失值、重複值統計等。

使用等函式進行探索當然是常見操作，但若要進行更完整、詳細的分析缺則略顯不足。

本文就將分享兩個用於資料探索的外掛。

pandas_profiling

首先要介紹的是，它擴充套件了的功能，這也是在之前多篇文章中提到的外掛。

只需使用即可安裝，在匯入資料之後使用一行命令即可快速生成描述性分析報告

可以看到，除了之前我們需要的一些描述性統計資料，該報告還包含以下資訊：

“

型別推斷：檢測資料幀中列的資料型別。

要點：型別，唯一值，缺失值

分位數統計資訊，例如最小值，Q1，中位數，Q3，最大值，範圍，四分位數範圍

描述性統計資料，例如均值，眾數，標準偏差，總和，中位數絕對偏差，變異係數，峰度，偏度

最常使用的值

直方圖

相關性矩陣

缺失值矩陣，計數，熱圖和缺失值樹狀圖

文字分析：瞭解文字資料的類別（大寫，空格），指令碼（拉丁，西裡爾字母）和塊（ASCII）

”

進一步我們還以將該報告儲存為格式，方便後續的檢視，感興趣的讀者可以自行嘗試。

sweetviz

第二個值得一用的是，同樣是一個開源庫，可生成美觀、高密度的視覺化，只需兩行程式碼即可啟動。

該外掛圍繞快速視覺化目標值和比較資料集而構建。它的目標是幫助快速分析目標特徵、訓練與測試資料以及其他此類資料特徵任務。

安裝方法同上，執行即可。使用方法也是類似，匯入資料後只需兩行程式碼即可輸出分析報告

和不一樣的是，現在我們只能得到一個檔案，開啟即可看到相關 EDA 報告

可以看到，自動生成的報告主要有以下幾個部分

“

目標分析

顯示目標值，例如泰坦尼克號資料集中的“倖存”，與其他特徵的關係）

視覺化和比較

不同的資料集（例如訓練與測試資料）

組內特徵（例如男性與女性）

混合型聯想

Sweetviz 無縫集成了數值（Pearson 相關）、分類（不確定係數）和分類-數值（相關比）資料型別的關聯，為所有資料型別提供最大的資訊。

型別推斷

自動檢測數字、分類和文字特徵，可選擇手動覆蓋

概要資訊

型別、唯一值、缺失值、重複行、最常見值

數值分析：最小值/最大值/範圍、四分位數、平均值、眾數、標準偏差、總和、中值絕對偏差、變異係數、峰態、偏度

”

從上面的介紹我們也能看出，兩個 EDA 的外掛側重點有所不同，我們在實際使用時也應該根據資料特徵與分析目標靈活使用！

愛伊米