MySQL复合索引的深入探究- Starterknow

复合索引(又称为联合索引)，是在多个列上创建的索引。创建复合索引最重要的是列顺序的选择，这关系到索引能否使用上，或者影响多少个谓词条件能使用上索引。复合索引的使用遵循最左匹配原则，只有索引左边的列匹配到，后面的列才能继续匹配。本文主要探究复合索引的创建顺序与使用情况。

（一）复合索引的概念

在单个列上创建的索引我们称为单列索引，在2个以上的列上创建的索引称为复合索引。在单个列上创建索引相对简单，通常只需要考虑列的选择率即可，选择性越好，代表数据越分散，创建出来的索引性能也就更好。通常，某列选择率的计算公式为：

selectivity = 施加谓词条件后返回的记录数 / 未施加谓词条件后返回的记录数

可选择率的取值范围是(0,1]，值越小，代表选择性越好。

对于复合索引(又称为联合索引)，是在多个列上创建的索引。创建复合索引最重要的是列顺序的选择，这关系到索引能否使用上，或者影响多少个谓词条件能使用上索引。复合索引的使用遵循最左匹配原则，只有索引左边的列匹配到，后面的列才能继续匹配。

（二）什么情况下会使用复合索引的列

复合索引遵循最左匹配原则，只有索引中最左列匹配到，下一列才有可能被匹配。如果左边列使用的是非等值查询，则索引右边的列将不会被查询使用，也不会被排序使用。

实验：哪些情况下会使用到复合索引

复合索引中的哪些字段被使用到了，是我们非常关心的问题。网络上一个经典的例子：

— 创建测试表

CREATE TABLE t1(

c1 CHAR(1) not null,

c2 CHAR(1) not null,

c3 CHAR(1) not null,

c4 CHAR(1) not null,

c5 CHAR(1) not null

)ENGINE innodb CHARSET UTF8;

— 添加索引

alter table t1 add index idx_c1234(c1,c2,c3,c4);

–插入测试数据

insert into t1 values(‘1′,’1′,’1′,’1′,’1’),(‘2′,’2′,’2′,’2′,’2’),

(‘3′,’3′,’3′,’3′,’3’),(‘4′,’4′,’4′,’4′,’4’),(‘5′,’5′,’5′,’5′,’5’); 需要探索下面哪些查询语句使用到了索引idx_c1234，以及使用到了索引的哪些字段？

(A) where c1=? and c2=? and c4>? and c3=?

(B) where c1=? and c2=? and c4=? order by c3

(C) where c1=? and c4=? group by c3,c2

(D) where c1=? and c5=? order by c2,c3

(E) where c1=? and c2=? and c5=? order by c2,c3

(F) where c1>? and c2=? and c4>? and c3=?

A选项：

复合索引创建的难点在于字段顺序选择，我的观点如下：

此外，《阿里巴巴Java开发手册-2022最新嵩山版》中有几个关于复合索引的规约，我们可以看一下：

1.如果有order by的场景，请注意利用索引的有序性。order by后的字段是组合索引的一部分，并且放在组合索引的最后，避免出现filesort的情况，影响查询性能。

正例：where a=? b=? order by c; 索引a_b_c

反例：索引如果存在范围查询，那么索引有序性将无法使用。如：where a>10 order by b; 索引a_b无法排序。

2.建复合索引的时候，区分度最高的在最左边，如果where a=? and b=?，a列的值几乎接近唯一值，那么只需建单列索引idx_a即可。

说明：存在等号和非等号混合判断条件时，在建索引时，请把等号条件的列前置。如：where c>? and d=?,那么即使c的区分度

更高，也必须把d放在索引的最前列，即创建索引idx_d_c。

实验：应该如何创建复合索引

在有的文档里面讲到过复合索引的创建规则：ESR原则：精确(Equal)匹配的字段放在最前面，排序(Sort)条件放中间，范围(Range)匹配的字段放在最后面。接下来我们来探索一下该方法是否正确。

例子：存在员工表employees

mysql> show create table employees;

+———–+——————————-

| Table | Create Table

+———–+————————————-

| employees | CREATE TABLE `employees` (

`emp_no` int(11) NOT NULL,

`birth_date` date NOT NULL,

`first_name` varchar(14) NOT NULL,

`last_name` varchar(16) NOT NULL,

`gender` enum(‘M’,’F’) NOT NULL,

`hire_date` date NOT NULL,

PRIMARY KEY (`emp_no`)

) ENGINE=InnoDB DEFAULT CHARSET=latin1 |

+———–+————————————-

— 数据量约30万行

mysql> select count(*) from employees;

+———-+

| count(*) |

+———-+

| 300024 |

+———-+ 现在需要查询19X后入职的first_name为”Ebbe”员工，并按照出生日期升序排序。

其SQL语句如下：

select emp_no,birth_date,first_name,last_name,gender,hire_date

from employees

where hire_date >= ‘1998-01-01’

and first_name = ‘Ebbe’

order by birth_date; 为了优化该SQL语句的性能，需要在表上创建索引，为了保证where与order by都使用到索引，决定创建复合索引，有如下创建顺序：

（A）hire_date,first_name,birth_date

（B）hire_date,birth_date,first_name

（C）first_name,hire_date,birth_date

（D）first_name,birth_date,hire_date

（E）birth_date,first_name,hire_date

（F）birth_date,hire_date,first_name

确认哪种顺序创建索引是最优的。

Note:

1.date类型占3个字节的空间，hire_date和 birth_date都占用3个字节的空间。

2.first_name是变长字段，多使用2个字节，如果允许为NULL值，还需多使用1个字节，占用16个字节

A选项：hire_date,first_name,birth_date

create index idx_a on employees(hire_date,first_name,birth_date);

其执行计划如下：

B选项：hire_date,birth_date,first_name

为避免干扰，删除上面创建的索引idx_a，然后创建idx_b。

create index idx_b on employees(hire_date,birth_date,first_name);

其执行计划如下：

create index idx_c on employees(first_name,hire_date,birth_date);

其执行计划如下：

create index idx_d on employees(first_name,birth_date,hire_date);

其执行计划如下：

create index idx_e on employees(birth_date,first_name,hire_date);

其执行计划如下：

create index idx_f on employees(birth_date,hire_date,first_name);

其执行计划如下：

索引       开销cost

———- ————

idx_a       8518

idx_b       8524

idx_c       13

idx_d       228

idx_e       78083

idx_f       78083

通过上面的开销，可以看到：

更进一步，idx_c和idx_d如何选择呢？idx_c使用索引进行等值查询+范围查询，然后对数据进行排序；idx_d使用索引进行等值查询+索引条件下推查询，然后按照顺序直接获取数据。两种方式各有优劣，我们不妨再来看一个例子：

把上面6个索引都加到表上，看看如下SQL会选择哪个索引。

1.复合索引的创建，如果存在多个等值查询，则将选择性好的列放在最前面，选择性差的列放在后面；

2.复合索引的创建，如果涉及到等值查询和范围查询，不管非等值查询的列的选择性如何好，等值查询的字段要放在非等值查询的前面；

3.复合索引的创建，如果涉及到等值查询和范围查询和排序(order by、group by)，则等值查询放在索引最前面，范围查询和排序哪个在前，哪个在后，需要根据实际场景决定。如果范围查询在前，则无法使用到索引的有序性，需filesort，适用于返回结果较少的SQL，因为结果少则排序开销小；如果排序在前，则可以使用到索引的有序性，但是需要回表(或者索引条件下推)去查询数据，适用于返回结果较多的SQL，因为无需排序，直接取出数据。

4.复合索引的创建，一定不能把order by、group by的列放在索引的最前面，因为查询中总是where先于order by执行；

5.使用索引进行范围查询会导致后续索引字段无法被使用，如果有排序，无法消除filesort排序。例子：a_b_c索引，where a>? and b = ? order by c，则a可以被使用到，b无法被使用，c字段需filesort。

总结

到此这篇关于MySQL复合索引的文章就介绍到这了,更多相关MySQL复合索引内容请搜索共生网络以前的文章或继续浏览下面的相关文章希望大家以后多多支持共生网络！

原创文章，作者：starterknow，如若转载，请注明出处：https://www.starterknow.com/117031.html

MySQL复合索引的深入探究

相关文章：

相关推荐

请登录

联系我们