什么是全文索引

全文索引,通过建立倒排索引,可以极大的提升检索效率,解决判断字段是否包含的问题. 例如: 有title字段,需要查询所有包含 “政府”的记录. 需要 like “%政府%”方式查询,查询速度慢,当查询包含”政府” or “中国”的需要是,sql难以简单满足.全文索引就可以实现这个功能.

倒排索引(英语:inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

注意

在mysql 5.6版本以前,只有myisam存储引擎支持全文引擎.在5.6版本中,innodb加入了对全文索引的支持,但是不支持中文全文索引.在5.7.6版本,mysql内置了ngram全文解析器,用来支持亚洲语种的分词.

创建全文索引

  • 创建表的时候创建
create table articles (
    id int unsigned auto_increment not null primary key,
    title varchar (200),
    body text,
    fulltext (title, body) with parser ngram
) engine = innodb default charset=utf8mb4 comment='文章表';

创建了一个给title和body字段添加全文缩影的表

  • 给字段添加全文索引 alter table articles add fulltext index title_body_index (title,body) with parser ngram;

使用全文索引

mysql的全文索引查询有多种模式

自然语言搜索

普通的判断是否包含

mysql> select * from articles where match (title,body) against ('精神' in natural language mode);
+----+-----------------+-------------------------+
| id | title           | body                    |
+----+-----------------+-------------------------+
|  1 | 弘扬正能量      | 贯彻党的18大精神        |
+----+-----------------+-------------------------+
1 row in set (0.00 sec)

mysql> select * from articles where match (title,body) against ('精神');
+----+-----------------+-------------------------+
| id | title           | body                    |
+----+-----------------+-------------------------+
|  1 | 弘扬正能量      | 贯彻党的18大精神        |
+----+-----------------+-------------------------+
1 row in set (0.00 sec)
可以看到,搜索结果命中了一条,且在不指定搜索模式的情况下,默认模式为自然语言搜索.

boolean mode

这个模式和lucene中的booleanquery很像,可以通过一些操作符,来指定搜索词在结果中的包含情况.比如 + 表示必须包含 , -表示必须不包含,默认为误操作符,代表可以出现可以不出现,但是出现时在查询结果集中的排名较高一些.也就是该结果和搜索词的相关性高一些.

具体包含的所有操作符可以通过mysql查询来查看:

show variables like '%ft_boolean_syntax%'

+-------------------+----------------+
| variable_name     | value          |
+-------------------+----------------+
| ft_boolean_syntax | + -><()~*:""&| |
+-------------------+----------------+
mysql> select * from articles where match (title,body) against ('+精神' in boolean mode);
+----+-----------------+-------------------------+
| id | title           | body                    |
+----+-----------------+-------------------------+
|  1 | 弘扬正能量      | 贯彻党的18大精神        |
+----+-----------------+-------------------------+
1 row in set (0.00 sec)

mysql> select * from articles where match (title,body) against ('+精神 -贯彻' in boolean mode);
empty set (0.01 sec)
当搜索必须命中精神时,命中了一条数据,当在加上不能包含贯彻的时候,无命中结果.

强烈注意:mysql自带的全文索引只能用于数据库引擎为myisam的数据表,如果是其他数据引擎,则全文索引不会生效。此外,mysql自带的全文索引只能对英文进行全文检索,目前无法对中文进行全文检索。如果需要对包含中文在内的文本数据进行全文检索,我们需要采用sphinx(斯芬克斯)/coreseek技术来处理中文。

注:目前,使用mysql自带的全文索引时,如果查询字符串的长度过短将无法得到期望的搜索结果。mysql全文索引所能找到的词默认最小长度为4个字符。另外,如果查询的字符串包含停止词,那么该停止词将会被忽略。

注:如果可能,请尽量先创建表并插入所有数据后再创建全文索引,而不要在创建表时就直接创建全文索引,因为前者比后者的全文索引效率要高。

总结

到此这篇关于mysql使用全文索引(fulltext index)的文章就介绍到这了,更多相关mysql使用全文索引内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!