愛伊米

Pandas資料探索分析,分享兩個神器!

在使用進行資料分析時,進行一定的資料探索性分析(EDA)是必不可少的一個步驟,例如常見統計指標計算、缺失值、重複值統計等。

使用 等函式進行探索當然是常見操作,但若要進行更完整、詳細的分析缺則略顯不足。

本文就將分享兩個用於資料探索的 外掛。

pandas_profiling

首先要介紹的是,它擴充套件了的功能,這也是在之前多篇文章中提到的外掛。

只需使用即可安裝,在匯入資料之後使用一行命令即可快速生成描述性分析報告

Pandas資料探索分析,分享兩個神器!

可以看到,除了之前我們需要的一些描述性統計資料,該報告還包含以下資訊:

型別推斷:檢測資料幀中列的資料型別。

要點:型別,唯一值,缺失值

分位數統計資訊,例如最小值,Q1,中位數,Q3,最大值,範圍,四分位數範圍

描述性統計資料,例如均值,眾數,標準偏差,總和,中位數絕對偏差,變異係數,峰度,偏度

最常使用的值

直方圖

相關性矩陣

缺失值矩陣,計數,熱圖和缺失值樹狀圖

文字分析:瞭解文字資料的類別(大寫,空格),指令碼(拉丁,西裡爾字母)和塊(ASCII)

進一步我們還以將該報告儲存為格式,方便後續的檢視,感興趣的讀者可以自行嘗試。

sweetviz

第二個值得一用的是 ,同樣是一個開源 庫,可生成美觀、高密度的視覺化,只需兩行程式碼即可啟動 。

該外掛圍繞快速視覺化目標值和比較資料集而構建。它的目標是幫助快速分析目標特徵、訓練與測試資料以及其他此類資料特徵任務。

安裝方法同上,執行即可。使用方法也是類似,匯入資料後只需兩行程式碼即可輸出分析報告

和 不一樣的是,現在我們只能得到一個檔案,開啟即可看到相關 EDA 報告

Pandas資料探索分析,分享兩個神器!

可以看到,自動生成的報告主要有以下幾個部分

目標分析

顯示目標值,例如泰坦尼克號資料集中的“倖存”,與其他特徵的關係)

視覺化和比較

不同的資料集(例如訓練與測試資料)

組內特徵(例如男性與女性)

混合型聯想

Sweetviz 無縫集成了數值(Pearson 相關)、分類(不確定係數)和分類-數值(相關比)資料型別的關聯,為所有資料型別提供最大的資訊。

型別推斷

自動檢測數字、分類和文字特徵,可選擇手動覆蓋

概要資訊

型別、唯一值、缺失值、重複行、最常見值

數值分析:最小值/最大值/範圍、四分位數、平均值、眾數、標準偏差、總和、中值絕對偏差、變異係數、峰態、偏度

從上面的介紹我們也能看出,兩個 EDA 的外掛側重點有所不同,我們在實際使用時也應該根據資料特徵與分析目標靈活使用!