PostgreSQL的扩展dict_int
dict_int 是 PostgreSQL 的一个文本搜索字典扩展,专门用于处理整数文本的特殊需求。
一、扩展概述
特性 | 描述 |
---|---|
用途 | 为文本搜索提供整数处理能力 |
类型 | 文本搜索字典 |
适用场景 | 处理包含数字的文本内容 |
安装方式 | 需要显式创建扩展 |
二、核心功能
整数识别:
- 将文本中的整数识别为独立token
- 支持正负整数识别
过滤控制:
- 可配置是否保留整数token
- 可设置整数长度限制
三、安装与启用
-- 安装扩展
CREATE EXTENSION dict_int;
-- 验证安装
SELECT extname FROM pg_extension WHERE extname = 'dict_int';
四、字典配置方法
1. 基本配置模板
CREATE TEXT SEARCH DICTIONARY intdict (
TEMPLATE = dict_int,
-- 可选参数
MAXLEN = 10, -- 最大整数位数(默认无限制)
REJECTLONG = true -- 是否拒绝过长整数(默认false)
);
2. 实际配置示例
-- 创建只接受5位以内整数的字典
CREATE TEXT SEARCH DICTIONARY intdict_5digit (
TEMPLATE = dict_int,
MAXLEN = 5,
REJECTLONG = true
);
-- 创建接受所有整数的字典
CREATE TEXT SEARCH DICTIONARY intdict_all (
TEMPLATE = dict_int
);
五、使用场景示例
1. 配置文本搜索
-- 创建包含整数字典的配置
CREATE TEXT SEARCH CONFIGURATION mycfg (COPY = simple);
ALTER TEXT SEARCH CONFIGURATION mycfg
ALTER MAPPING FOR int, uint WITH intdict;
2. 实际搜索应用
-- 测试字典效果
SELECT ts_lexize('intdict', '12345'); -- 返回: {12345}
SELECT ts_lexize('intdict', 'abc123'); -- 返回: {} (只匹配纯整数)
-- 在查询中使用
SELECT * FROM documents
WHERE to_tsvector('mycfg', content) @@ to_tsquery('mycfg', '123');
六、参数详解
参数名 | 类型 | 默认值 | 描述 |
---|---|---|---|
MAXLEN | integer | NULL | 允许的最大整数位数 |
REJECTLONG | boolean | false | 是否拒绝超过MAXLEN的整数 |
七、性能考虑
索引优化:
-- 创建使用该字典的GIN索引 CREATE INDEX documents_content_idx ON documents USING gin(to_tsvector('mycfg', content));
字典组合建议:
- 通常与其他字典(如simple, snowball)组合使用
- 建议放在字典处理链的早期阶段
八、实际应用案例
1. 产品编号搜索
-- 配置专门处理产品编号的搜索
CREATE TEXT SEARCH CONFIGURATION product_search (COPY = simple);
ALTER TEXT SEARCH CONFIGURATION product_search
ALTER MAPPING FOR int, uint WITH intdict_5digit, simple;
-- 查询示例
SELECT * FROM products
WHERE to_tsvector('product_search', product_code) @@ '12345';
2. 日志分析
-- 配置日志分析搜索(包含状态码和消息)
CREATE TEXT SEARCH CONFIGURATION log_search (COPY = simple);
ALTER TEXT SEARCH CONFIGURATION log_search
ALTER MAPPING FOR int, uint WITH intdict,
ALTER MAPPING FOR asciiword WITH english_stem;
-- 查询状态码200的日志
SELECT * FROM server_logs
WHERE to_tsvector('log_search', log_message) @@ '200';
九、注意事项
语言支持:
- 仅处理数字字符,与语言无关
- 不处理小数或科学计数法表示的数字
字典顺序:
-- 正确的字典链顺序示例 ALTER TEXT SEARCH CONFIGURATION mycfg ALTER MAPPING FOR int, uint WITH intdict, simple;
版本兼容:
- 需要PostgreSQL 9.1+版本
- 在最新版本中功能稳定
dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景。合理配置可以显著提升包含数字的文本搜索效率和准确性。