数据分析 -- numpy

发布于:2024-04-10 ⋅ 阅读:(58) ⋅ 点赞:(0)

numpy库简介

简介

  1. 开源的Python库,它提供了高性能的多维数值(numpy.ndarray)计算能力;
  2. 由“Numerical Python”缩写而来,并且它是Pandas库的基础;
  3. NumPy提供了许多有用的功能,例如数组操作、矩阵运算、傅里叶变换等;
  4. 支持向量化编程,这使得它比传统的循环和条件语句更加高效;
  5. NumPy完全基于C语言实现,并且已经经过了充分的优化,因此它的运行速度非常快。

特点

  1. numpy中,用轴(axis)来描述数组的维度。
  2. axis=0表列,意味着你将沿着列方向(跨行)对数据进行操作,即进行列数据操作;
  3. 同理,axis=1表行,即进行行数据操作。

数组和列表

  • 数组:存储固定类型的数据,固定大小,在内存中是连续存储的,这使得数值计算更快。
  • 列表:类型不固定,需要额外的元数据来存储数据类型,大小不固定,因此并不是大量数据计算的最优选。

numpy操作

import numpy as np

数组创建

  • 创建一维数组
list = [1,2,3,4,5]
array = np.array(list)
print(array)
print(type(array))

>[1 2 3 4 5]
><class 'numpy.ndarray'>
  • 创建二维数组
list = [[1,2],[3,4],[5,6]]
array = np.array(list)
print(array)

>[[1 2]
 [3 4]
 [5 6]]
  • 创建等差一维数组
- np.arange(开始值,结束值,步长)

array = np.arange(1,10,2)
print(array)
>[1 3 5 7 9]
  • 创建一/多维数组
- np.zeros(shape, dtype=float, order='C'):创建一个元素全为0的数组
- np.ones(shape, dtype=None, order='C'):创建一个元素全为1的数组
- np.empty(shape, dtype=float, order='C'):创建一个未初始化的数组,元素随机
- np.full(shape, fill_value, dtype=None, order='C'):创建一个具有给定形状和填充值的数组
	- shape: 数组的性转
	- dtype: 数组元素数据类型
	- order:内存布局顺序,C-按行,F-按列

array = np.empty((2,4), dtype=np.int8)
print(array)
>[[ 96 -39 -22  70]
 [ 24  86   0   0]]
  • 创建随机数组
import numpy as np

# 创建服从均匀分布的随机数组
rand_array = np.random.rand(2, 3)
print("均匀分布的随机数组:\n", rand_array)

# 创建服从标准正态分布的随机数组
randn_array = np.random.randn(2, 3)
print("标准正态分布的随机数组:\n", randn_array)

# 创建指定范围的随机整数数组
randint_array = np.random.randint(1, 10, size=(2, 3))
print("指定范围的随机整数数组:\n", randint_array)

# 创建服从均匀分布的随机数组
random_array = np.random.random((2, 3))
print("均匀分布的随机数组:\n", random_array)

>均匀分布的随机数组:
 [[0.49018606 0.05014734 0.38739906]
 [0.09357898 0.98583039 0.6992634 ]]
>标准正态分布的随机数组:
 [[ 1.44017508  0.55562128 -0.11157242]
 [ 0.80112095  1.58158805  0.81131876]]
>指定范围的随机整数数组:
 [[7 6 9]
 [5 2 6]]
>均匀分布的随机数组:
 [[0.35562269 0.29418661 0.49925419]
 [0.76548519 0.70753405 0.02305559]]

数组属性

  • 数组索引
array = np.array([[1, 2, 3], [4, 5, 6]])
# 获取特定元素
print("第一个元素:", array[0, 0])
print("最后一个元素:", array[-1, -1])
# 获取特定行
print("第一行:", array[0, :])
print("第二列:",array[:, 1])

>第一个元素: 1
>最后一个元素: 6
>第一行: [1 2 3]
>第二列: [2 5]
  • 数组形状
# 创建数组
array = np.array([[1, 2, 3], [4, 5, 6]])
print(array.shape)

>(2, 3)
  • 数组维度/大小
array = np.array([[1, 2, 3], [4, 5, 6]])
print(array.ndim)
print(array.size)

> 2
> 6
  • 数组数据类型
array = np.array([[1, 2, 3], [4, 5, 6]])
print(array.dtype)

> int64

数组变更

  • 填充
array = np.empty((2, 3), dtype=np.int8)

# 使用np.fill()方法填充数组
array.fill(8)
print("使用np.full()方法填充的数组:", array)
>使用np.full()方法填充的数组: [[8 8 8][8 8 8]]
  • 插入删除
array = np.array([1, 2, 3, 4, 5])

# 在指定位置插入元素
inserted_array = np.insert(array, 2, [6, 7])
print("插入元素后的数组:", inserted_array)
>插入元素后的数组: [1 2 6 7 3 4 5]

# 在末尾追加元素
appended_array = np.append(array, [6, 7])
print("追加元素后的数组:", appended_array)
>追加元素后的数组: [1 2 3 4 5 6 7]

# 删除指定位置的元素
deleted_array = np.delete(array, 2)
print("删除元素后的数组:", deleted_array)
>删除元素后的数组: [1 2 4 5]
  • 数组切片
array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
sub_array = array[0:2, 1:3]
print(sub_array)

>[[2 3]
 [5 6]]
  • 数组转置
my_array = np.array([[1, 2, 3], [4, 5, 6]])
transposed_array = np.transpose(my_array)
print(transposed_array)

>[[1 4]
 [2 5]
 [3 6]]
  • 改变形状
# 创建数组
array = np.array([[1, 2, 3], [4, 5, 6]])
array = np.reshape(array, (3, 2))
print(array)

>[[1 2]
 [3 4]
 [5 6]]
  • 改变数据类型
array = np.array([[1, 2, 3], [4, 5, 6]])
array = array.astype(float)
print(array.dtype)

>float64
  • 数组连接
# 创建数组
array1 = np.array([[1, 2], [3, 4]])
array2 = np.array([[5, 6], [7, 8]])

# 沿水平方向连接数组
hstacked_array = np.hstack((array1, array2))
print("水平连接的数组:\n", hstacked_array)

# 沿垂直方向连接数组
vstacked_array = np.vstack((array1, array2))
print("垂直连接的数组:\n", vstacked_array)

>水平连接的数组:
 [[1 2 5 6]
 [3 4 7 8]]
>垂直连接的数组:
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]
  • 数组拆分
- numpy.split(array, indices_or_sections, axis=0): 沿指定轴拆分数组
- numpy.hsplit(array, indices_or_sections): 水平拆分数组(列)
- numpy.vsplit(array, indices_or_sections): 垂直拆分数组(行)

array = np.array([[1, 2, 3, 11, 12, 13], [4, 5, 6, 14,15,16], [7, 8, 9, 17,18,19]])

# 使用numpy.split()沿第1轴(行)拆分数组
split_array1 = np.split(array, 3, axis=0)
for arr in split_array1:
    print(arr)

>[[ 1  2  3 11 12 13]]
 [[ 4  5  6 14 15 16]]
 [[ 7  8  9 17 18 19]]

# 使用numpy.hsplit()水平拆分数组
split_array2 = np.hsplit(array, 3)
for arr in split_array2:
    print(arr)

>[[1 2]
  [4 5]
  [7 8]]
 [[ 3 11]
  [ 6 14]
  [ 9 17]]
 [[12 13]
  [15 16]
  [18 19]]

# 使用numpy.vsplit()垂直拆分数组
split_array3 = np.vsplit(array, 3)
for arr in split_array3:
    print(arr)

>[[ 1  2  3 11 12 13]]
 [[ 4  5  6 14 15 16]]
 [[ 7  8  9 17 18 19]]
  • 数组排序
array = np.array([3, 1, 2, 5, 4])

# 对数组进行排序
sorted_array = np.sort(array)
print("排序后的数组:", sorted_array)

sorted_indices = np.argsort(array)
print("排序后的原索引:", sorted_indices)

>排序后的数组: [1 2 3 4 5]
>排序后的索引: [1 2 0 4 3]
  • 复制
array = np.array([1, 2, 3])

# 使用np.copy()函数复制数组
copied_array = array.copy()
print("复制的数组:", copied_array)
>复制的数组: [1 2 3]
  • 重复
array = np.array([1, 2, 3])

# 数组元素重复
repeated_array = np.repeat(array, 2)
print("重复后的数组:", repeated_array)

# 数组重复
tiled_array = np.tile(array, 2)
print("重复后的数组:", tiled_array)

>重复后的数组: [1 1 2 2 3 3]
>重复后的数组: [1 2 3 1 2 3]
  • 去重
array = np.array([1, 2, 2, 3, 3, 4, 5, 5])

# 对数组进行去重
unique_array = np.unique(array)
print("去重后的数组:", unique_array)
>去重后的数组: [1 2 3 4 5]

数据计算

  • 最大值/最小值
array = np.array([3, 1, 2, 5, 4])

# 获取数组的最大值和最小值
max_value = np.max(array)
min_value = np.min(array)
# 获取数组的最大值和最小值的索引
max_index = np.argmax(array)
min_index = np.argmin(array)
print("数组的最大值:", max_value, "索引:", max_index)
print("数组的最小值:", min_value, "索引:", min_index)
>数组的最大值: 5 索引: 3
>数组的最小值: 1 索引: 1
  • 求和
array = np.array([[1, 2, 3], [4, 5, 6]])

# 计算数组的行和
row_sum = np.sum(array, axis=1)
print("数组的行和:", row_sum)

# 计算数组的列和
col_sum = np.sum(array, axis=0)
print("数组的列和:", col_sum)

# 计算数组元素的累积和
cumsum_array = np.cumsum(array)
print("数组元素的累积和:", cumsum_array)

# 计算数组行元素的累积和
cumsum_array = np.cumsum(array, axis=1)
print("数组行元素的累积和:", cumsum_array)

>数组的行和: [ 6 15]
>数组的列和: [5 7 9]
>数组元素的累积和: [ 1  3  6 10 15 21]
>数组行元素的累积和: [[ 1  3  6]
                  [ 4  9 15]]
  • 求积
array = np.array([[1, 2, 3], [4, 5, 6]])

# 数组求积
prod_result = np.prod(array)
print("数组元素求积:", prod_result)
>数组元素求积: 720
  • 求余
my_array = np.array([1, 2, 3, 4, 5])

# 对数组元素进行取余操作
mod_result = np.mod(my_array, 2)
print("数组元素取余操作:", mod_result)
>数组元素取余操作: [1 0 1 0 1]
  • 平均值
array = np.array([3, 1, 2, 5, 4])

mean_value = np.mean(array)
print("数组元素的平均值:", mean_value)
>数组元素的平均值: 3.0
  • 其他计算
# 标准差
np.std()
# 方差
np.var()
# 绝对值
np.abs()
# 四舍五入
np.round()
# 向下取整
np.floor()
# 向上取整
np.ceil()
# 截断
np.trunc() 
# 指数
np.power()
# 兑数
np.log()
  • 应用自定义函数
array = np.array([[1, 2, 3], [4, 5, 6]])

# 自定义函数
def custom_function(x):
    return x * 2

# 对数组指定轴应用自定义函数
new_array = np.apply_along_axis(custom_function, axis=1, arr=array)
print("应用自定义函数后的数组:\n", new_array)
>应用自定义函数后的数组:
 [[ 2  4  6]
 [ 8 10 12]]
  • 数组间计算
array1 = np.array([1, 2, 3])
array2 = np.array([4, 5, 6])

# 数组元素加法
add_result = np.add(array1, array2)
# add_arr = array1 + array2
print("数组元素加法:", add_result)

# 数组元素减法
subtract_result = np.subtract(array1, array2)
# sub_arr = array1 - array2
print("数组元素减法:", subtract_result)

# 数组元素乘法
multiply_result = np.multiply(array1, array2)
# mul_arr = array1 * array2
print("数组元素乘法:", multiply_result)

# 数组元素除法
divide_result = np.divide(array1, array2)
# div_arr = array1/array2
print("数组元素除法:", divide_result)
>数组元素加法: [3 4 6]
>数组元素减法: [-1  0  0]
>数组元素乘法: [2 4 9]
>数组元素除法: [0.5 1.  1. ]
  • 数组间比较
array1 = np.array([1, 2, 3])
array2 = np.array([2, 2, 3])

# 相等
equal_result = np.equal(array1, array2)
print("数组元素相等比较:", equal_result)
>数组元素相等比较: [False  True  True]

np.not_equal(array1, array2) # 不等于
np.greater(array1, array2)   # 大于
np.less(array1, array2)      # 小于
np.greater_equal(array1, array2)   # 大于等于
np.less_equal(array1, array2)  # 小于等于

网站公告

今日签到

点亮在社区的每一天
去签到