Python数据分析实战(4)——探索1960 - 2014 美国犯罪数据

发布于:2023-01-21 ⋅ 阅读:(575) ⋅ 点赞:(0)

个人复习总结(jupyter)

练习来源:工作台 - Heywhale.com

1  导入必要的库和创建数据

import numpy as np
import pandas as pd
数据=pd.read_csv('D:/数据分析有关数据集/十套练习/exercise_data/US_Crime_Rates_1960_2014.csv')
数据.head()

 2  每一列(column)的数据类型是什么样的?

数据.info()

3  将Year的数据类型转换为 datetime64 

数据['Year']=pd.to_datetime(数据['Year'],format='%Y')
数据.info()

知识点: pd.to_datetime()转换时间序列函数。'%Y'表示四位数的年份

4  将列Year设置为数据框的索引

数据.set_index('Year',inplace=True)
数据

5  删除名为Total的列 

del 数据['Total']
数据.head

6  按照Year对数据框进行分组并求和

数据2=数据.resample('10AS').sum()          
数据2

 注意:1、人口是累计数,不能直接求和。2、10AS'十年聚合日期第一天开始的形式进行聚合。3、先将可以加总的部分,每十年一次加总,注意是对年份的加总,不是对人口

人口=数据['Population'].resample('10AS').max()      #每十年的加总人口为每十年中的最大数
人口

数据2['Population']=人口       # 更新 数据2里的"Population" ,将其替换成最大值“人口”
数据2

 7   何时是美国历史上生存最危险的年代?

数据.idxmax(0)

#idxmax(0),返回每一列里最大值的索引值

本文含有隐藏内容,请 开通VIP 后查看