Java高频面试之集合-20

发布于:2025-03-31 ⋅ 阅读:(29) ⋅ 点赞:(0)

hello啊,各位观众姥爷们!!!本baby今天来报道了!哈哈哈哈哈嗝🐶

面试官:讲讲 HashSet 的底层实现?

HashSet 是 Java 集合框架中用于存储唯一元素的高效数据结构,其底层实现基于 HashMap。以下是其核心实现细节:


一、底层数据结构

  • 依赖关系
    HashSet 内部维护了一个 HashMap 实例,通过操作 HashMap 的键(Key)来存储元素,而值(Value)统一为固定的 虚拟对象PRESENT)。

    private transient HashMap<E, Object> map;
    private static final Object PRESENT = new Object(); // 占位值
    
  • 元素存储
    添加元素时,元素本身作为 HashMap 的键,而值固定为 PRESENT

    public boolean add(E e) {
        return map.put(e, PRESENT) == null; // 若返回 null,说明键不存在,添加成功
    }
    

二、核心特性

  1. 唯一性保证

    • 依赖 HashMap 键的唯一性机制,通过 equals()hashCode() 判断元素是否重复。
    • 若两个元素的 hashCode() 相同且 equals() 返回 true,则视为重复,无法添加。
  2. 无序性

    • 元素的存储和遍历顺序由 HashMap 的哈希分布决定,不保证任何顺序(如插入顺序或自然顺序)。
    • 若需有序性,可使用 LinkedHashSet(维护插入顺序)或 TreeSet(自然排序)。
  3. 线程不安全

    • HashMap 类似,多线程并发操作可能导致数据不一致。
    • 解决方案:
      Set<String> syncSet = Collections.synchronizedSet(new HashSet<>());
      

三、性能分析

操作 时间复杂度 说明
添加(add) 平均 O(1),最差 O(n) 哈希冲突少时接近 O(1),冲突多时退化为链表或红黑树(JDK 8+)。
删除(remove) 平均 O(1),最差 O(n) 与添加类似,依赖哈希冲突情况。
查询(contains) 平均 O(1),最差 O(n) 直接通过哈希定位桶,遍历链表或树。

四、关键参数与优化

  1. 初始容量(Initial Capacity)

    • 默认值:16,表示哈希表的初始桶数量。
    • 设置建议:预估元素数量,避免频繁扩容(如 new HashSet<>(100))。
  2. 负载因子(Load Factor)

    • 默认值:0.75,表示当元素数量达到 容量 × 负载因子 时触发扩容。
    • 扩容规则:容量翻倍(如 16 → 32),重新哈希所有元素。
  3. 哈希冲突处理

    • JDK 8 优化:链表长度 ≥8 且容量 ≥64 时,链表转为红黑树;树节点 ≤6 时退化为链表。

五、与 HashMap 的关系

维度 HashSet HashMap
存储内容 仅存储键(Key) 存储键值对(Key-Value)
唯一性判断 依赖键的 equals()hashCode() 同 HashSet
内存占用 更小(无冗余 Value 存储) 更大(需存储 Value)

六、示例代码

Set<String> set = new HashSet<>();
set.add("Apple");
set.add("Banana");
set.add("Apple"); // 重复元素,添加失败

System.out.println(set); // 输出:[Apple, Banana](顺序不固定)

🐮🐎

  • 底层机制HashSet 通过复用 HashMap 的键唯一性实现元素去重。
  • 适用场景:高频插入、删除和唯一性校验场景(如缓存去重、黑名单过滤)。
  • 注意事项:合理设置初始容量和负载因子以优化性能,多线程环境需额外同步。

在这里插入图片描述