出租车数据可视化分析-大数据-实训大作业

发布于:2025-03-19 ⋅ 阅读:(8) ⋅ 点赞:(0)

第1章  项目绪论

1.1项目的总体说明背景及意义

在纽约,游客们往往把自由女神象、帝国大厦、中央公园等视为纽约的象征, 但穿梭在人海中的出租车也是纽约靓丽的人文景观之一, 是其流动的风景线, 在纽约公共文化中别具魅力。本项目利用之前从seaborn上下载的数据taxi.csv,结合python对数据进行分析。

1.1.1项目背景

在纽约,出租车分为两类:黄色和绿色。黄色出租(Yellow TAXI)车可以在纽约五大区(布朗克斯区、布鲁克林区、曼哈顿、皇后区、斯塔滕岛)内任何地点搭载乘客。绿色出租车(Green TAXI)则被规定只允许在上曼哈顿、布朗克斯区、皇后区和斯塔滕岛接客,这两类出租车均由私人公司经营并受到纽约市出租车和轿车委员会(NYC Taxi and Limousine Commission)的监管。

1.1.2项目意义

这些数据记录了每一趟出租车上下客的时间、出行距离、出行地点、出行费用、支付方式以及司机上报的乘客数量。出租车作为城市发展、社会变迁的见证者,其活动轨迹提供了很好的一扇窗,让我们能够一窥背后的纽约故事。

第2章  项目数据处理

2.1项目数据来源说明

该数据从seaborn数据集 https://github.com/mwaskom/seaborn-data上下载

2.1.1项目数据获取

Python库准备:numpy,pandas,matplotlib,pyecharts,wordcloud

数据集字段说明:

'pickup':'上车时间',

'dropoff':'下车时间',

'passengers':'乘客人数',

'distance':'乘车距离',

'fare':'费用',

'tip':'小费',

'tolls':'过路费',

'total':'总费用',

'color':'出租车颜色',

'payment':'支付方式'

'pickup_zone':'上车地点'

'dropoff_zone':'下车地点'

'pickup_borough':'上车所在城市'

'dropoff_borough':'下车所在城市'

2.2项目数据清洗要求

异常值与缺失值的处理:有一些数据distance(乘车距离)为零而且上下车地点为空,还有些一些数据的payment(支付方式)为空。

2.2.1项目数据清洗方法与过程

(该数据无重复值,不做处理)

清洗好的数据导出并保存

2.3项目数据预处理

2.3.1项目数据预处理的要求与过程

将列名更改成中文

标准化与归一化


第3章  项目数据分析与可视化

3.1项目数据分析说明

1.分析了乘车距离与小费的关系;

2.分析了乘车总费用与乘车距离的关系;

3.分析了乘客偏好使用何种支付手段;

4.分析了乘车费用与乘车人数的关系;

5.分析了乘车费用和小费与出行距离的关系;

6.分析了大多数乘客在纽约的何地乘车;

7.分析了乘车费用与乘客出行的关系;

8.分析了乘车时间与乘客为何选择出租车的原因。

3.1.1项目数据分析效果

1.小费随着乘客乘车距离的增加而增多。

2.乘车费用随着乘客乘车距离的增加而增加。

3.绝大多数乘客选择信用卡支付车费,少部分乘客选择现金支付,有极少部分乘客选择其他支付方式。

4.乘客的乘车费用不会因为乘车人数的增加而增加,大多数乘客搭乘出租车属于短程出行,多人出行时选择出租车比较划算。

5.不管是单人出行还是多人出行,乘车费用以及小费都比较平均,可以分析出大多数乘客的出行距离都差不多。

6.大多数乘客都属于Manhattan市。

7.乘车费用大多在0-25美元内,乘客选择出租车大多为短途出行。

8.大部分订单时间集中在30分钟以内,可以进一步得出大部分人选择出租车出行是要快速的短途出行。

3.2项目数据可视化

3.2.1项目数据可视化效果

1.小费随着乘客乘车距离的增加而增多。

2.乘车费用随着乘客乘车距离的增加而增加。

3.绝大多数乘客选择信用卡支付车费,少部分乘客选择现金支付,有极少部分乘客选择其他支付方式。

4.乘客的乘车费用不会因为乘车人数的增加而增加,大多数乘客搭乘出租车属于短程出行,多人出行时选择出租车比较划算。

5.不管是单人出行还是多人出行,乘车费用以及小费都比较平均,可以分析出大多数乘客的出行距离都差不多。

6.大多数乘客都属于Manhattan市。

7

8.大部分订单时间集中在30分钟以内,可以进一步得出大部分人选择出租车出行是要快速的短途出行。


网站公告

今日签到

点亮在社区的每一天
去签到