【R语言】 文件,vector, matrix,dataframe 的基本操作

发布于:2025-03-19 ⋅ 阅读:(13) ⋅ 点赞:(0)

1. 文件读取:here(), 以及glimpse的使用

cereal <- read.csv(here("datasets", "Cereal.csv"))
cereal |> glimpse() # ‘ dplyr ’包中的‘ glimpse() ’函数提供了‘ cereal ’数据集的快速

read.csv(here("datasets", "Cereal.csv"))

  • here("datasets", "Cereal.csv"):构建一个文件路径,指向当前工作目录下的 datasets 文件夹中的 Cereal.csv 文件。
  • read.csv():从 Cereal.csv 文件中读取数据,并将其存储为一个数据框(data.frame)。

cereal |> glimpse()

  • glimpse():由 dplyr 包提供的函数,用于查看数据框的结构。与 str() 类似,但 glimpse() 提供了更简洁和易读的输出,可以快速查看数据的列名、类型以及前几个数据值。

2. 读取变量类别

cereal |> class()

3. 读取列名

cereal |> colnames()

4. 读取行数

cereal |> nrow()

5. 读取行列

cereal |> dim()

6. 提取列的三种方法

Cal <- cereal$calories 

Cal <- cereal |> select(calories)

Cal <- cereal |> pull(calories)

7. 提取前xx行

cereal[1:20,] 
cereal |> slice(1:20) 

8. 获取带条件的dataframe

Kelloggs <- cereal |> filter(mfr == "K") 

9. 转换成str

str(cereal)

10. 查看factor的元素

levels(cereal.with.factors$mfr)
nlevels(cereal.with.factors$mfr) # 个数

11. 提取成向量而不是数据框:pull()

cereal.calories <- cereal |> select(calories) |> pull()

select(calories)

  • 这个函数从 cereal 数据框中选择名为 calories 的列。select() 返回的是一个包含所选列的新的数据框。

pull()

  • pull() 用于将选择的列从数据框中提取为一个向量。它会返回一个单独的向量,而不是数据框。

12. 获取长度

length(cereal.calories)

13. 数据框转matrix,并且判断

cereal.matrix <- as.matrix(cereal)
is.matrix(cereal.matrix)

14. matrix删除某列

cereal.removed <- cereal |> select(-c(mfr, name))

15. 描述性统计

summary(cereal$sodium)

16. 计算每个factor的均值

mean.sodiums <- aggregate(sodium ~ mfr, data = cereal, FUN = mean)

网站公告

今日签到

点亮在社区的每一天
去签到