十月份的黃金週,乃至整個十月份,妥妥的是《長津湖》的天下,才小半個月票房就已經突破44億,都快追上戰狼2了。貓眼評分9。5,口碑超高,2021年票房口碑雙豐收大黑馬!
今天我們透過爬取貓眼的電影評論,進行視覺化分析,康康長津湖為什麼這麼受歡迎,最後教大家進行票房預測,千萬不要錯過!
資料獲取
貓眼評論爬取,還是那麼老一套,直接構造 API 介面資訊即可。
這麼幾行程式碼,我們就可以得到如下結果
獲取到資料後,我們就可以解析返回的 json 資料,並儲存到本地了。
先寫一個儲存資料的函式
儲存到本地的資料
視覺化分析
我們來進行相關的視覺化分析
1、資料清洗
首先我們根據 comment_id 來去除重複資料
對於評論內容,我們進行去除非中文的操作。
2、評論點贊及回覆榜
來看看哪些評論是被點贊最多的
Output:
下面我們來看一下整體評論資料的情況
3、各城市排行
來看看哪些城市的評論最多呢
可以看到,這個評論城市的分佈,也是與我國總體經濟的發展情況相吻合的
4、性別分佈
在填寫了性別的資料當中,女性竟然多一些,這還是比較出乎意料的。
5、是否觀看
大部分人都是在觀看了之後才評論的,這要在一定程度上保證了評論和打分的可靠性。
6、評分分佈
貓眼頁面上是10分制,但是在介面當中是5分制。
9、使用者等級分佈
來看下貓眼評論使用者的等級情況,雖然不知道這個等級有啥用
大家基本都是 level2,哈哈哈哈,普羅大眾嘛!
10、主創提及次數
我們再來看看在評論中,各位主創被提及的次數情況。
毫無疑問,易烊千璽高居榜首,可能媽媽粉比較多吧,不過人家演技確實也線上。
明日票房預測
接下來畫散點圖,看下趨勢情況。
可以看到,從一號開始,單日票房逐步增長,7號達到最高峰,8號開始回落。
下面我們來進行資料擬合,使用 sklearn 提供的 linear_model 來進行。
再根據擬合的結果,我們來預測下明天的票房情況。