第1章 项目绪论
1.1项目的总体说明背景及意义
在纽约,游客们往往把自由女神象、帝国大厦、中央公园等视为纽约的象征, 但穿梭在人海中的出租车也是纽约靓丽的人文景观之一, 是其流动的风景线, 在纽约公共文化中别具魅力。本项目利用之前从seaborn上下载的数据taxi.csv,结合python对数据进行分析。
1.1.1项目背景
在纽约,出租车分为两类:黄色和绿色。黄色出租(Yellow TAXI)车可以在纽约五大区(布朗克斯区、布鲁克林区、曼哈顿、皇后区、斯塔滕岛)内任何地点搭载乘客。绿色出租车(Green TAXI)则被规定只允许在上曼哈顿、布朗克斯区、皇后区和斯塔滕岛接客,这两类出租车均由私人公司经营并受到纽约市出租车和轿车委员会(NYC Taxi and Limousine Commission)的监管。
1.1.2项目意义
这些数据记录了每一趟出租车上下客的时间、出行距离、出行地点、出行费用、支付方式以及司机上报的乘客数量。出租车作为城市发展、社会变迁的见证者,其活动轨迹提供了很好的一扇窗,让我们能够一窥背后的纽约故事。
第2章 项目数据处理
2.1项目数据来源说明
该数据从seaborn数据集 https://github.com/mwaskom/seaborn-data上下载
2.1.1项目数据获取
Python库准备:numpy,pandas,matplotlib,pyecharts,wordcloud
数据集字段说明:
'pickup':'上车时间',
'dropoff':'下车时间',
'passengers':'乘客人数',
'distance':'乘车距离',
'fare':'费用',
'tip':'小费',
'tolls':'过路费',
'total':'总费用',
'color':'出租车颜色',
'payment':'支付方式'
'pickup_zone':'上车地点'
'dropoff_zone':'下车地点'
'pickup_borough':'上车所在城市'
'dropoff_borough':'下车所在城市'
2.2项目数据清洗要求
异常值与缺失值的处理:有一些数据distance(乘车距离)为零而且上下车地点为空,还有些一些数据的payment(支付方式)为空。
2.2.1项目数据清洗方法与过程
(该数据无重复值,不做处理)
清洗好的数据导出并保存
2.3项目数据预处理
2.3.1项目数据预处理的要求与过程
将列名更改成中文
标准化与归一化

第3章 项目数据分析与可视化
3.1项目数据分析说明
1.分析了乘车距离与小费的关系;
2.分析了乘车总费用与乘车距离的关系;
3.分析了乘客偏好使用何种支付手段;
4.分析了乘车费用与乘车人数的关系;
5.分析了乘车费用和小费与出行距离的关系;
6.分析了大多数乘客在纽约的何地乘车;
7.分析了乘车费用与乘客出行的关系;
8.分析了乘车时间与乘客为何选择出租车的原因。
3.1.1项目数据分析效果
1.小费随着乘客乘车距离的增加而增多。
2.乘车费用随着乘客乘车距离的增加而增加。
3.绝大多数乘客选择信用卡支付车费,少部分乘客选择现金支付,有极少部分乘客选择其他支付方式。
4.乘客的乘车费用不会因为乘车人数的增加而增加,大多数乘客搭乘出租车属于短程出行,多人出行时选择出租车比较划算。
5.不管是单人出行还是多人出行,乘车费用以及小费都比较平均,可以分析出大多数乘客的出行距离都差不多。
6.大多数乘客都属于Manhattan市。
7.乘车费用大多在0-25美元内,乘客选择出租车大多为短途出行。
8.大部分订单时间集中在30分钟以内,可以进一步得出大部分人选择出租车出行是要快速的短途出行。
3.2项目数据可视化
3.2.1项目数据可视化效果
1.小费随着乘客乘车距离的增加而增多。
2.乘车费用随着乘客乘车距离的增加而增加。
3.绝大多数乘客选择信用卡支付车费,少部分乘客选择现金支付,有极少部分乘客选择其他支付方式。
4.乘客的乘车费用不会因为乘车人数的增加而增加,大多数乘客搭乘出租车属于短程出行,多人出行时选择出租车比较划算。
5.不管是单人出行还是多人出行,乘车费用以及小费都比较平均,可以分析出大多数乘客的出行距离都差不多。
6.大多数乘客都属于Manhattan市。
7
8.大部分订单时间集中在30分钟以内,可以进一步得出大部分人选择出租车出行是要快速的短途出行。