Elasticsearch文本分析器

发布于:2024-10-16 ⋅ 阅读:(47) ⋅ 点赞:(0)

1. 前言

Elasticsearch数据搜索和关系型数据库的SQL查询最显著的区别就是:除了精准匹配和模糊查询,Elasticsearch还具备全文检索的能力,而全文检索的核心是文本分析。

文本分析会将长文本内容进行字符过滤和细粒度的分词,先将长文本里面一些无关紧要的字符给过滤掉,再按照语义将长文本切分为一个个单独的词,然后可能还会根据切分后的词再添加一些同义词,最终构建倒排索引用于全文检索 。

文本分析使得Elasticsearch能够执行全文检索召回相关的文档,而不仅仅是是精准匹配。如下示例,当用户搜索”苹果“二字,召回下面三个文档在ES看来都是合理的:

{
  "_id":"1",
  "text":"什么品种的苹果更好吃呢?"
}
{
  "_id":"2",
  "text":"Apple Store上海静安店今日开业!"
}
{
  "_id":"3",
  "text":"番茄是水果还是蔬菜?"
}

1号文档召回是因为直接有“苹果”二字、2号文档召回可以理解为“Apple“和”苹果“是同义词、3号文档召回有点意外,如果分词的粒度很细就会导致”果“字被切分为一个单独的词,从而和搜索词匹配成功。

全文检索时,如果Elasticsearch没有召回预期的文档,就应该检查一下文本分析器的配置是否合理。

2. 分析器的构成

Elasticsearch规定,文本分析器由三个基本组件构成,分别是:

  • 0个或多个字符过滤器 character filters
  • 一个分词器 tokenizer
  • 0个或多个分词过滤器 token filters

2.1 字符过滤器

字符过滤器接收作为字符流的原始文本,并可以通过添加、删除或更改字符来转换该流。简单来说,就是字符过滤器可以在原始文本的基础上,做一些字符过滤、删除、替换等操作,在分词前做一些预处理的工作。

例如,字符过滤器可以把”&“符号替换成”and“、也可以去除HTML中的标签,保留文本内容。

Elasticsearch内置了三种字符过滤器,下面分别介绍。

html_strip 用于过滤HTML元素标签,如下示例,结果自动过滤掉了

标签

POST _analyze
{
  "char_filter": [
    {
      "type": "html_strip"
    }
  ],
  "text": "<p><b>听我说</b>谢谢你,因为有你</p>"
}

{
  "tokens": [
    {
      "token": """
听我说谢谢你,因为有你
""",
      "start_offset": 0,
      "end_offset": 25,
      "type": "word",
      "position": 0
    }
  ]
}

mapping 用于替换字符,给定一个mappings数组,Elasticsearch扫描原始文本时每当遇到相同的Key就会替换成指定的Value。如下示例:

POST _analyze
{
  "char_filter": [
    {
      "type": "mapping",
      "mappings": [
        "& => 和",
        ":) => 开心",
        ":( => 悲伤"
      ]
    }
  ],
  "text": "我&你独自:),独自:("
}

{
  "tokens": [
    {
      "token": "我和你独自开心,独自悲伤",
      "start_offset": 0,
      "end_offset": 12,
      "type": "word",
      "position": 0
    }
  ]
}

pattern_replace 使用正则表达式来匹配和替换字符,比如可以给重要信息如身份证号脱敏:

POST _analyze
{
  "char_filter": [
    {
      "type": "pattern_replace",
      "pattern":"(\\d{6})\\d{8}(\\d{4})",
      "replacement":"$1******$2"
    }
  ],
  "text": "The ID number is:362330199001012345"
}

{
  "tokens": [
    {
      "token": "The ID number is:362330******2345",
      "start_offset": 0,
      "end_offset": 35,
      "type": "word",
      "position": 0
    }
  ]
}

2.2 分词器

分词器接收一个被字符过滤器预处理后的字符流作为输入,它是文本分析最重要的一个环节,直接决定了一段长文本会按照怎样的算法来切分成一个个分词。

除了切分文本,分词器还会保留以下信息:

  • 每个分词的相对位置,用于短语搜索和单词临近搜索
  • 字符偏移量,记录分词在原始文本中的出现的位置
  • 分词类型,记录分词的种类,是单词还是数字等

Elasticsearch 内置了大量的面向单词的分词器

以 standard 为例,它也是默认的分词器。它会按照Unicode文本分割算法定义的词边界将文本划分为术语,并且删除了大多数标点符号。对于英文,它会按照空格来分词;对于中文,它会按照一个个汉字来分词。

如下示例,对于英文分词效果还行,针对中文效果就不好了,切分成一个个汉字丢失了词意。

POST _analyze
{
  "tokenizer":"standard",
  "text": "I am from China.我爱中国"
}

分词结果
["I","am","from","China","我","爱","中","国"]

Elasticsearch 还内置了一些比较特殊的分词器:N-Gram Tokenizer,也叫 N元语法分词器。它会将单词分解成更小的片段,用于部分单词匹配,缺点是分词数量太多,占用更多的存储空间。

POST _analyze
{
  "tokenizer":{
    "type":"ngram",
    "min_gram":2, // 分词最小长度
    "max_gram":3, // 分词最大长度
    "token_chars":["letter"] // 只切分字母
  },
  "text": "Elasticsearch 666"
}

分词结果
["se","sea","ea","ear","ar","arc","rc","rch","ch"]

此外,Elasticsearch还内置了一些用于结构化文本的分词器,比如:keyword 是一个什么也不做的分词器,它的分词结果就是原始文本。

char_group 分词器会根据给定的字符集对原始文本做切分,它比正则表达式的效率要高,适用于分词规则简单的场景。

POST _analyze
{
  "tokenizer":{
    "type":"char_group",
    "tokenize_on_chars":["_"]
  },
  "text": "I_am_from_China"
}

分词结果
["I","am","from","China"]

再比如,path_hierarchy 会按照路径分隔符做分词,并输出每个子路径的分词结果。如下示例:

POST _analyze
{
  "tokenizer":{
    "type":"path_hierarchy"
  },
  "text": "/users/admin/a.txt"
}

分词结果
["/users","/users/admin","/users/admin/a.txt"]

2.3 分词过滤器

分词过滤器接收来自分词器切分后的文本作为输入,并做最后处理。包括:改写词(转换大小写)、删除停用词、添加同义词等操作。

截止Elasticsearch8.13版本,官方内置了几十种分词过滤器,这里只介绍几个,其它参考官方文档。

apostrophe 分词过滤器会删除撇号后面的所有字符,包括撇号本身,适用于土耳其语。如下示例:

POST _analyze
{
  "tokenizer":"standard",
  "filter":["apostrophe"],
  "text": "I'm 18 years old now"
}

分词结果
["I","18","years","old","now"]

reverse 分词过滤器会反转切分后的每个词,这对于后缀检索非常有用。如下示例:

POST _analyze
{
  "tokenizer":"standard",
  "filter":["reverse"],
  "text": "hello world"
}

分词结果
["olleh","dlrow"]

stemmer 分词过滤器会根据分词的单词去掉复数、时态等,统一转换成对应的原型,这在英文搜索时非常有用。如下示例:

POST _analyze
{
  "tokenizer":"standard",
  "filter":["stemmer"],
  "text": "they flying peoples"
}

分词结果
["thei","fly","peopl"]

stop 分词过滤器器会删除分词中无意义的停用词,比如冠词、介词等,还可以自定义停用词黑名单。

如下示例,过滤后只保留了“apple”

POST _analyze
{
  "tokenizer":"standard",
  "filter":["stop"],
  "text": "this is an apple"
}

分词结果
["apple"]

3. 自定义分析器

Elasticsearch规定,任何分析器都由0个或多个字符过滤器、1个分词器、0个或多个分词过滤器组成,官方内置了大量的基础组件,同时又基于这些基础组件定义了一堆内置的分析器。如果这些内置分析器不能够满足我们的需求,我们也可以任意搭配组合定制化一个分析器。

假设,我们现在创建一个questions索引,用来索引问题,然后可以根据关键词搜索问题。question字段使用text类型,同时使用我们自定义的文本分析器my_analyzer。

假设自定义的文本分析器需要满足下列需求:

  • 自动过滤掉文本中的标点符号
  • 简单点,针对“/"符号来做分词吧
  • 自动过滤掉一些无意义的停用词,例如:“的”、“啊”
  • 使用同义词也能搜索到文档,例如搜索”Android“可以召回含“安卓”的文档

基于以上需求,我们可以先从字符过滤器、分词器、分词过滤器的顺序来慢慢调试我们的分析器。这里可以用到Elasticsearch提供的「_analyze」端点,它可以很方便的用来测试分析器的效果。

过滤标点符号可以用”mapping“实现,分词就用”char_group“,删除停用词用”stop“,最后同义词可以用”synonym“实现,最终自定义分析器的配置如下:

POST _analyze
{
  "char_filter": [
    {
      "type": "mapping",
      "mappings": [
        ", => ",
        "。 => ",
        "? => "
      ]
    }
  ],
  "tokenizer": {
    "type": "char_group",
    "tokenize_on_chars": ["/"]
  },
  "filter":[
    {
      "type":"stop",
      "stopwords":["的","呢","和"]
    },
    {
      "type":"synonym",
      "synonyms":[
        "安卓 => 安卓,Android",
        "鸿蒙 => 鸿蒙,HarmonyOS,OpenHarmony"
      ]
    }
  ],
  "text": "鸿蒙/系统/和/安卓/系统/有/什么/区别/呢/?"
}

测试一下,分词结果如下所示,符合我们的需求:

["鸿蒙","HarmonyOS","OpenHarmony","系统","安卓","Android","系统","有","什么","区别"]

接下来就是创建索引时,指定我们自定义的分析器即可:

PUT questions
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "char_filter": [
            "my_char_filter"
          ],
          "tokenizer": "my_char_group",
          "filter": [
            "stop_filter",
            "synonym_filter"
          ]
        }
      },
      "char_filter": {
        "my_char_filter": {
          "type": "mapping",
          "mappings": [
            ", => ",
            "。 => ",
            "? => "
          ]
        }
      },
      "tokenizer": {
        "my_char_group": {
          "type": "char_group",
          "tokenize_on_chars": [
            "/"
          ]
        }
      },
      "filter": {
        "stop_filter": {
          "type": "stop",
          "stopwords": [
            "的",
            "呢",
            "和"
          ]
        },
        "synonym_filter": {
          "type": "synonym",
          "synonyms": [
            "安卓 => 安卓,Android",
            "鸿蒙 => 鸿蒙,HarmonyOS,OpenHarmony"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "question": {
        "type": "text",
        "analyzer": "my_analyzer",
        "search_analyzer": "my_analyzer"
      }
    }
  }
}

索引一篇文档

POST questions/_doc
{
  "question":"鸿蒙/系统/和/安卓/系统/有/什么/区别/呢/?"
}

搜索”Android“,发现成功召回了预期的文档

GET questions/_search
{
  "query": {
    "match": {
      "question": "Android"
    }
  }
}

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 1,
    "successful": 1,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": {
      "value": 1,
      "relation": "eq"
    },
    "max_score": 0.32792777,
    "hits": [
      {
        "_index": "questions",
        "_id": "y-SQx44BPIYet_3fDf9T",
        "_score": 0.32792777,
        "_source": {
          "question": "鸿蒙/系统/和/安卓/系统/有/什么/区别/呢/?"
        }
      }
    ]
  }
}

4. IK中文分析器

无论是Elasticsearch官方提供的分析器,还是我们自定义的分析器,都很难对中文内容有很好的分词效果,把一段中文切分成孤立的汉字会丢失语义。所以,我们需要一款针对中文的文本分析器,这里推荐 IK Analysis。

IK分析器需要单独安装,进入到Github页面:https://github.com/infinilabs/analysis-ik/releases,找到对应版本下载安装包放到Elasticsearch安装目录下的plugins目录,重启Elasticsearch即可使用。

IK Analysis 提供了两种中文分析器供我们使用,分别是:ik_max_word和ik_smart。

ik_max_word 切分的粒度更细,ik_smart 切分的粒度会粗一下,占用的存储空间也会相对少一些。一般推荐索引时使用ik_smart节省存储空间,搜索时使用 ik_max_word 切分出更多的词以便能搜索到结果。

如下示例,是ik_max_word的分词效果,分出10个词

POST _analyze
{
  "analyzer":"ik_max_word",
  "text": "ik_max_word分词器的测试效果"
}

分词结果
["ik_max_word","ik","max","word","分词器","分词","器","的","测试","效果"]

下面是ik_smart的分词效果,只切分出5个词

POST _analyze
{
  "analyzer":"ik_smart",
  "text": "ik_smart分词器的测试效果"
}

分词结果
["ik_smart","分词器","的","测试","效果"]