Elasticsearch 简介
Elasticsearch 是一个开源的分布式搜索和分析引擎,基于 Apache Lucene 构建。它能够快速存储、搜索和分析大量数据,广泛应用于日志分析、全文检索、实时监控等场景。Elasticsearch 支持水平扩展,具备高可用性和强大的查询能力。
核心特性
分布式架构:Elasticsearch 通过分片(Shard)和副本(Replica)实现数据的分布式存储和冗余备份,确保高可用性和高性能。
近实时搜索:数据写入后通常在 1 秒内即可被检索,适合需要快速响应的场景。
丰富的查询语言:支持全文检索、结构化查询、聚合分析等,通过 JSON 格式的 DSL(Domain Specific Language)进行操作。
可扩展性:通过增加节点轻松扩展集群容量和性能,支持 PB 级数据处理。
基本概念
索引(Index):类似数据库中的表,用于存储具有相似结构的文档。
文档(Document):索引中的基本数据单元,以 JSON 格式存储。
分片(Shard):索引被划分为多个分片,分布在不同节点上,提高并行处理能力。
副本(Replica):每个分片的拷贝,用于故障恢复和负载均衡。
安装与配置
从 Elasticsearch 官网 下载对应版本,解压后运行以下命令启动单节点集群(需安装 Java 环境):
./bin/elasticsearch
默认端口为 9200
,访问 http://localhost:9200
可验证是否启动成功。
常用操作示例
创建索引
curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d'
{
"settings": {
"number_of_shards": 3,
"number_of_replicas": 1
}
}
'
插入文档
curl -X POST "localhost:9200/my_index/_doc/1" -H 'Content-Type: application/json' -d'
{
"title": "Elasticsearch Guide",
"content": "A comprehensive guide to ES."
}
'
搜索文档
curl -X GET "localhost:9200/my_index/_search" -H 'Content-Type: application/json' -d'
{
"query": {
"match": {
"title": "Guide"
}
}
}
'
实际应用场景
日志分析:结合 Logstash 和 Kibana(ELK 栈),实现日志的收集、存储和可视化。
电商搜索:支持商品名称、描述的全文检索,结合聚合功能实现分类筛选。
监控系统:通过 Metricbeat 采集服务器指标,存储到 Elasticsearch 进行实时分析。
性能优化建议
合理设置分片数:分片过多会导致资源开销,过少会影响并行性能。通常单个分片大小建议在 10-50GB。
使用别名(Alias):方便索引切换和零停机重建索引。
冷热数据分离:将高频访问的热数据存储在 SSD 节点,冷数据迁移到普通硬盘节点。
查询优化:避免深度分页(如 from+size
超过 10000),改用 search_after
或滚动查询(Scroll)。
常见问题排查
节点未加入集群:检查网络连通性和 discovery.seed_hosts
配置。
磁盘空间不足:设置 cluster.routing.allocation.disk.watermark
阈值,或扩容节点。
查询超时:优化复杂查询,增加 timeout
参数或使用异步搜索(Async Search)。
Elasticsearch 的强大功能使其成为大数据搜索和分析的首选工具,结合官方文档和社区资源,可以快速解决实际业务需求。