前言
大二上第一次参加本次比赛原本抱着拿下A题直接下班,结果~这个A题解决的有点慢来不及了,所以只能开肝B题~也很幸运团队齐心协力拿下了一等奖
任务1 数据探索与清洗
任务1.1 数据探索与预处理
这是个比较简单的问题:数据预处理。简单的缺失值、重复值、异常值处理
1.1.1缺失值、重复值处理:
Data_short = pd.read_csv("short-customer-data.csv")
#丢弃缺失值 dropna()删除缺失值所在行(axis=0)或列(axis=1) 默认为 axis=0
Data_short = Data_short.dropna()
#去重
Data_short.drop_duplicates(subset=['user_id'],keep='first',inplace=True)
Data_short.to_excel("result1_1.xlsx",index=None)
最终去除行数据12716条,删除重复行数据33条,