Elasicsearch优化-B站视频笔记

2022-06-08 / es 搜索引擎 elasticsearch

携程架构师

1、优化部署方式

2、最优化容量规划

ES高可用架构部署：读写分离、流量隔离、减少超时

LB -> 协调节点 -> 数据节点 -> 主节点

LB -> Ingest 节点 -> 数据节点 -> 主节点

这里的LB是软负载；例如（Nginx）

硬负载和软负载的概念可以参考：https://blog.csdn.net/swadian2008/article/details/119960016

避免频繁更新

索引拆分

合理分片

合理副本

// TODO

例如：好好学习，天天向上；类型为 text

倒排索引为：

(term)		(construct)
好		->		docId\frequency\position\payload
好
学
习

Payload: 是lucene 提供的一个可以在索引的过程中将关键词权重与文档进行一个关联

我们可以通过重写这个公式，打包成插件，安装到我们的 elastic 集群中，实现自定义评分

商城搜索，两个用户分别为男1、女1，搜索关键字 “苹果”，根据数据库中已有的数据可知男1职业为厨师、女1为IT工作人员。期望不同用户搜索的，最终返回的数据为他们更为关注的。

需求：

让女1搜索的 “苹果” 优先召回苹果手机等相关的

让男1搜索的 “苹果” 优先召回水果苹果等相关的

当 Elasticsearch 自带的分词器无法满足时，可以自定义分词器。通过组合不同的组件实现

在 Tokenizer 对文本进行处理，例如增加删除以及替换字符。可以配置多个 Character Filter 。会影响 Tokenizer 的 position 和 offset 信息。

一些自带的 Character Filter

一个分词器接收一个字符流，并将其拆分单个 token（通常是单个单词），并输出一个 token 流。比如使用whitespace分词器，当遇到空格的时候会将文本拆分成 token。

一个分析器只能有一个分词器
将原始的文本按照一定的规则，切分为词（term or token）
Elasticsearch 内置的 Tokenizers
- whitespace / standard / uax_url_mail / pattern / keyword / path hierarchy
可以用 Java 开发插件，实现自己的 Tokenizer
ES内置分词器
- 标准分词器 Standard Tokenizer (standard)
- 连词分词器 NGram Tokenizer (ngram)
- 边际连词分词器 Edge NGram Tokenizer (edge_ngram)
- 关键字分词器 Keyword Tokenzier 不分词 (keyword)
- 字符分词器 Letter Tokenizer 将文本按非字符 (non lentter) 进行分词 (letter)
- 小写分词器 Lower case Tokenizer 小写后，再按字符分词器 Letter Tokenizer (lowercase)
- 空格分词器 Whitespace Tokenizer 以空格来分词 (whitespace)
- 模式分词器 / 正则分词器 Pattern Tokenizer (pattern)
- 标准 Email URL 分词器 UAX Email URL Tokenizer 把 email 和 url 当作一个词 (uax_url_emial)
- 路径层次分词器 Path Hiberarchy Tokenizer 按默认定界符：'/' 路径分割 (path_hierarchy)

token 过滤器接收 token 流，并且可能会添加、删除或更改 tokens。比如一个 lower case token 可以将所有的 token 转成小写。一个分析器可能有 0 个或多个 token 过滤器，它们按顺序应用。
内置分词过滤器：
- 标准分词过滤器 (standard)
- 小写分词过滤器 (lowercase)
- 长度分词过滤器 (length)
  
  长度分词过滤器将长度超过最短和最长限制范围的单词过滤掉
- 停用词分词过滤器 (stop)

标题：Elasicsearch优化-B站视频笔记
作者：gitsilence
地址：https://blog.lacknb.cn/articles/2022/06/05/1654425633205.html