B树和 B+树

发布于:2025-03-25 ⋅ 阅读:(30) ⋅ 点赞:(0)

B树和 B+树是两种广泛用于数据库和文件系统的平衡树数据结构,主要用于索引和存储大规模数据。它们的核心目标是提高磁盘 I/O 效率,从而加快查询和更新操作。


B树(B-Tree)

B树是一种 自平衡的多路搜索树,它的主要特点是:

  1. 每个节点可以存储多个键值,并且按升序排序,节点中的键值用于分割子节点的范围。
  2. 所有叶子节点的深度相同,保证了查询的时间复杂度始终为 (O(\log n))。
  3. 节点的键值个数范围:假设 B 树的阶(order)为 (m),则:
    • 一个节点最多有 (m) 个子节点(即最多 (m-1) 个键)。
    • 一个节点至少有 (\lceil m/2 \rceil) 个子节点(根节点除外)。
  4. 插入与删除操作会自动调整树的结构,保证树的平衡性。

B树示例(阶数 = 3)

        [10 | 20]
       /    |    \
 [5]  [15]  [25, 30]
  • 叶子节点可以存储数据,也可以仅存储索引。
  • 搜索操作在 非叶子节点 可能会提前找到数据。

B+树(B+ Tree)

B+树是 B 树的变体,针对数据库和文件系统的查询优化做了改进:

  1. 所有数据存储在叶子节点,非叶子节点仅存储键值用于索引。
  2. 叶子节点通过指针连接,形成有序链表,支持范围查询和顺序扫描。
  3. 节点的键值个数范围:与 B 树类似,但非叶子节点的子节点数量更大,提高了索引效率。
  4. 查询时,总是查找到叶子节点,查询性能更加稳定。

B+树示例(阶数 = 3)

      [10 | 20]
     /      |      \
[5, 7]  [15, 17]  [25, 30]
  • 叶子节点存储所有数据,并有指针相连。
  • 适用于 范围查询(如 SQL 中的 BETWEEN 查询),因为叶子节点是链表结构,可以顺序遍历。

B树 vs B+树 区别总结

特点 B 树 B+ 树
非叶子节点是否存数据 可能存数据 仅存索引,不存数据
搜索是否可能提前结束 可能在中间节点结束 必须到叶子节点才返回数据
范围查询 需要遍历多个节点 叶子节点链表可顺序扫描,效率高
叶子节点结构 可能不形成链表 叶子节点按顺序连接

B+树的优势

  1. 查询更稳定:所有查询都到达叶子节点,避免 B 树在非叶子节点提前结束查询导致的不均衡访问。
  2. 范围查询更高效:B+树的叶子节点形成 有序链表,可以高效地遍历数据。
  3. 磁盘 I/O 友好:非叶子节点只存索引,使得每个节点能存储更多索引,减少磁盘读取次数。

B树的优势

  1. 适用于小规模索引,因为它在非叶子节点上可以存储数据,减少叶子节点的存储需求。

应用场景

  • B树 适用于键值存储系统,比如小规模索引、部分 NoSQL 存储引擎。
  • B+树 广泛用于数据库(如 MySQL InnoDB)、文件系统(如 NTFS、Ext4)等,需要高效范围查询的场景。

索引与 B+ 树的关系

  1. 主键索引(Clustered Index)

    • 表的数据存储在 B+ 树的叶子节点,叶子节点直接存储整行数据。
    • 在 MySQL InnoDB 存储引擎中,主键索引是 聚簇索引(Clustered Index),它决定了数据在磁盘上的物理存储顺序。
    • 由于数据直接存储在叶子节点中,一个表只能有一个主键索引
  2. 二级索引(Secondary Index)

    • 也叫 非聚簇索引(Non-Clustered Index),它会额外创建一个 B+ 树,用于加速查询。
    • 叶子节点存储的是 主键的值,而不是整行数据。
    • 通过 二级索引 → 主键索引 的方式获取完整数据(回表查询)。

示例

假设有一个 users 表:

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(50),
    age INT,
    email VARCHAR(100),
    INDEX idx_name (name),
    INDEX idx_age (age)
);

B+ 树索引的情况

  1. 主键索引(id)

    • id 作为键,叶子节点存储完整行数据
  2. 二级索引 idx_name(name)

    • name 作为键,叶子节点存储 id(主键),查询完整数据时需要回表查询。
  3. 二级索引 idx_age(age)

    • age 作为键,叶子节点存储 id(主键),查询完整数据时需要回表查询。

多个索引对应多个 B+ 树

索引类型 B+ 树键值 叶子节点存储
主键索引 (id) id 完整数据行
二级索引 (name) name id(需要回表查询)
二级索引 (age) age id(需要回表查询)

示例:

  • 查询 id = 3,直接在主键 B+ 树中找到完整数据,速度快
  • 查询 name = 'Alice'
    1. idx_name 这棵 B+ 树中找到 name = 'Alice' 对应的 id
    2. 再去主键索引 B+ 树中查找 id 对应的完整行数据(回表查询)。
  • 查询 age > 25(范围查询):
    1. idx_age 这棵 B+ 树中遍历符合条件的 id
    2. 通过 id 在主键 B+ 树中获取完整行数据(回表查询)。

总结

一个表的每个索引都会对应一棵 B+ 树,但主键索引和二级索引的存储方式不同。
二级索引的叶子节点存的是主键 id,查询完整数据需要 回表
多个索引不会影响彼此的 B+ 树结构,但过多索引可能会 影响写入性能,因为插入、更新、删除时,每棵 B+ 树都要同步更新。


叶子节点存储结构

1. 主键索引(聚簇索引,Clustered Index)

  • 键(Key):主键 id
  • 叶子节点存储:完整数据行
  • 特点
    • 这是 唯一存储完整数据的 B+ 树,因为 InnoDB 采用 聚簇索引
    • 查询主键时效率最高,无需额外的索引访问。

2. 二级索引(辅助索引,Secondary Index)

  • 键(Key):索引列(如 age
  • 叶子节点存储:主键 id不存储完整行数据
  • 特点
    • 叶子节点 不会存储完整行,只存 主键值,可以减少索引体积。
    • 查询完整数据时,需要通过 主键回表聚簇索引 读取数据。

示例

假设有一个 users 表:

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(50),
    age INT,
    email VARCHAR(100),
    INDEX idx_age (age)
);

表中数据:

 id | name  | age | email
-------------------------
  1 | Alice | 25  | a@mail.com
  2 | Bob   | 30  | b@mail.com
  3 | Carol | 22  | c@mail.com
  4 | David | 35  | d@mail.com

B+ 树结构

主键索引(id 的 B+ 树)
        [ 2 ]
       /   \
    [1]   [3 | 4]

叶子节点存储完整行数据:

[1 → {Alice, 25, a@mail.com}]
[2 → {Bob, 30, b@mail.com}]
[3 → {Carol, 22, c@mail.com}]
[4 → {David, 35, d@mail.com}]
二级索引(age 的 B+ 树)
        [ 25 | 30 ]
       /      |      \
  [ 22 ]   [ 25 ]   [ 30 | 35 ]

叶子节点存储的是 主键 id

[22 → 3] → [25 → 1] → [30 → 2] → [35 → 4]

查询 age=25,找到 id=1,然后去主键索引 B+ 树获取完整数据回表查询)。


查询时的"回表查询"

查询 age = 25

SELECT * FROM users WHERE age = 25;

查询步骤:

  1. age 的二级索引 B+ 树 中找到 age = 25 对应的 id=1
  2. 回表查询:用 id=1 到主键索引(聚簇索引)中查找完整数据 {Alice, 25, a@mail.com}

缺点:如果索引列不包含所有查询需要的字段,就必须回表,导致额外的磁盘 I/O。


如何优化索引,减少回表?

1. 覆盖索引(Covering Index)

定义:如果索引已经包含查询所需的所有列,则可以直接在索引 B+ 树中获取数据,避免回表。

优化方式

CREATE INDEX idx_age_email ON users(age, email);

这样,idx_age_email 叶子节点存储:

[22 → (3, c@mail.com)] → [25 → (1, a@mail.com)] → [30 → (2, b@mail.com)] → [35 → (4, d@mail.com)]

🔹 查询 age=25email 时,不需要回表,因为索引叶子节点已经包含 email


2. 使用 id 作为主键,避免二级索引存储过大字段

选择短的 id 作为主键,因为 二级索引的叶子节点存储主键,如果主键是长字符串(如 UUID),会导致 二级索引体积变大,影响查询性能


总结

主键索引(Clustered Index) 叶子节点存储 完整数据
二级索引(Secondary Index) 叶子节点只存 主键 id,查完整数据需要 回表查询
回表查询可能影响性能,优化方式包括覆盖索引、选择短主键等。
B+ 树的叶子节点有序且双向链接,使得范围查询(BETWEEN> 等)更高效。


网站公告

今日签到

点亮在社区的每一天
去签到