前言
大二上第一次參加本次比賽原本抱著拿下A題直接下班,結果~這個A題解決的有點慢來不及了,所以只能開肝B題~也很幸運團隊齊心協力拿下了一等獎
任務1 數據探索與清洗
任務1.1 數據探索與預處理
這是個比較簡單的問題:數據預處理。簡單的缺失值、重復值、異常值處理
1.1.1缺失值、重復值處理:
Data_short = pd.read_csv("short-customer-data.csv")
#丟棄缺失值 dropna()刪除缺失值所在行(axis=0)或列(axis=1) 預設為 axis=0
Data_short = Data_short.dropna()
#去重
Data_short.drop_duplicates(subset=['user_id'],keep='first',inplace=True)
Data_short.to_excel("result1_1.xlsx",index=None)
最終去除行數據12716條,刪除重復行數據33條,