background image

如何理解数据索引的结构

数据索引通常默认采用

btree 索引,(内存表也使用了 hash 索引)。

仅就有序前提而言,单向有序排序序列是查找效率最高的(二分查找,或者说折
半查找),使用树形索引的目的是为了达到快速的更新和增删操作。

在极端情况下(比如数据查询需求量非常大,而数据更新需求极少,实时性要求
不高,数据规模有限),直接使用单一排序序列,折半查找速度最快。

在进行索引分析和

SQL 优化时,可以将数据索引字段想象为单一有序序列,并以

此作为分析的基础。涉及到复合索引情况,复合索引按照索引顺序拼凑成一个字段,
想象为单一有序序列,并以此作为分析的基础。

一条数据查询只能使用一个索引,索引可以是多个字段合并的复合索引。但是一条
数据查询不能使用多个索引。

优化实战范例

实战范例

1: ip 地址反查

资源:

 Ip 地址对应表,源数据格式为  startip, endip, area 

源数据条数为

 10 万条左右,呈很大的分散性

目标: 需要通过任意

ip 查询该 ip 所属地区

性能要求达到每秒

1000 次以上的查询效率

挑战: 如使用

 between startip and endip 这样的条件数据库操作,因为涉及

两个字段的

between and, 无法有效使用索引。

如果每次查询请求需要遍历

10 万条记录,根本不行。

方法: 一次性排序(只在数据准备中进行,数据可存储在内存序列)

折半查找(每次请求以折半查找方式进行)

实战范例

2:目标:查找与访问者同一地区的异性,按照最后登录时间逆序

挑战:高访问量社区的高频查询,如何优化。

查 询

SQL:  select  *  from  user  where  area=’$area’ and  sex=’$sex’ order  by 

lastlogin desc limit 0,30;
建立复合索引并不难,

 area+sex+lastlogin 三个字段的复合索引,如何理解?

解读:首先,忘掉

btree,将索引字段理解为一个排序序列。

另外,牢记数据查询只能使用一个索引,每个字段建立独立索引的情况下,

也只能有一条索引被使用!

如果只使用

area 会怎样?搜索会把符合 area 的结果全部找出来,然后在这里

面遍历,选择命中

sex 的并排序。 遍历所有 area=’$area’数据!

如果使用了

area+sex,略好,仍然要遍历所有 area=’$area’ and sex=’$sex’数据,

然后在这个基础上排序!!

Area+sex+lastlogin 复 合 索 引 时 ( 切 记 lastlogin 在 最 后 ) , 该 索 引 基 于

area+sex+lastlogin 三个字段合并的结果排序,该列表可以想象如下。

广州女

$时间 1