愛伊米

快50億了!用Python分析長津湖到底好看在哪裡

十月份的黃金週,乃至整個十月份,妥妥的是《長津湖》的天下,才小半個月票房就已經突破44億,都快追上戰狼2了。貓眼評分9。5,口碑超高,2021年票房口碑雙豐收大黑馬!

今天我們透過爬取貓眼的電影評論,進行視覺化分析,康康長津湖為什麼這麼受歡迎,最後教大家進行票房預測,千萬不要錯過!

資料獲取

貓眼評論爬取,還是那麼老一套,直接構造 API 介面資訊即可。

這麼幾行程式碼,我們就可以得到如下結果

快50億了!用Python分析長津湖到底好看在哪裡

獲取到資料後,我們就可以解析返回的 json 資料,並儲存到本地了。

先寫一個儲存資料的函式

快50億了!用Python分析長津湖到底好看在哪裡

儲存到本地的資料

快50億了!用Python分析長津湖到底好看在哪裡

視覺化分析

我們來進行相關的視覺化分析

1、資料清洗

首先我們根據 comment_id 來去除重複資料

對於評論內容,我們進行去除非中文的操作。

2、評論點贊及回覆榜

來看看哪些評論是被點贊最多的

快50億了!用Python分析長津湖到底好看在哪裡

Output:

下面我們來看一下整體評論資料的情況

3、各城市排行

來看看哪些城市的評論最多呢

快50億了!用Python分析長津湖到底好看在哪裡

快50億了!用Python分析長津湖到底好看在哪裡

可以看到,這個評論城市的分佈,也是與我國總體經濟的發展情況相吻合的

4、性別分佈

快50億了!用Python分析長津湖到底好看在哪裡

在填寫了性別的資料當中,女性竟然多一些,這還是比較出乎意料的。

5、是否觀看

快50億了!用Python分析長津湖到底好看在哪裡

快50億了!用Python分析長津湖到底好看在哪裡

大部分人都是在觀看了之後才評論的,這要在一定程度上保證了評論和打分的可靠性。

6、評分分佈

貓眼頁面上是10分制,但是在介面當中是5分制。

快50億了!用Python分析長津湖到底好看在哪裡

快50億了!用Python分析長津湖到底好看在哪裡

快50億了!用Python分析長津湖到底好看在哪裡

快50億了!用Python分析長津湖到底好看在哪裡

9、使用者等級分佈

來看下貓眼評論使用者的等級情況,雖然不知道這個等級有啥用

快50億了!用Python分析長津湖到底好看在哪裡

大家基本都是 level2,哈哈哈哈,普羅大眾嘛!

10、主創提及次數

我們再來看看在評論中,各位主創被提及的次數情況。

快50億了!用Python分析長津湖到底好看在哪裡

快50億了!用Python分析長津湖到底好看在哪裡

毫無疑問,易烊千璽高居榜首,可能媽媽粉比較多吧,不過人家演技確實也線上。

快50億了!用Python分析長津湖到底好看在哪裡

明日票房預測

接下來畫散點圖,看下趨勢情況。

快50億了!用Python分析長津湖到底好看在哪裡

可以看到,從一號開始,單日票房逐步增長,7號達到最高峰,8號開始回落。

下面我們來進行資料擬合,使用 sklearn 提供的 linear_model 來進行。

快50億了!用Python分析長津湖到底好看在哪裡

再根據擬合的結果,我們來預測下明天的票房情況。