如何理解数据索引的结构



数据索引通常默认采用

btree 索引，（内存表也使用了 hash 索引）。



仅就有序前提而言，单向有序排序序列是查找效率最高的（二分查找，或者说折
半查找），使用树形索引的目的是为了达到快速的更新和增删操作。



在极端情况下（比如数据查询需求量非常大，而数据更新需求极少，实时性要求
不高，数据规模有限），直接使用单一排序序列，折半查找速度最快。



在进行索引分析和

SQL 优化时，可以将数据索引字段想象为单一有序序列，并以

此作为分析的基础。涉及到复合索引情况，复合索引按照索引顺序拼凑成一个字段，
想象为单一有序序列，并以此作为分析的基础。



一条数据查询只能使用一个索引，索引可以是多个字段合并的复合索引。但是一条
数据查询不能使用多个索引。

优化实战范例



实战范例

1： ip 地址反查



资源：

Ip 地址对应表，源数据格式为 startip, endip, area

源数据条数为

10 万条左右，呈很大的分散性



目标：需要通过任意

ip 查询该 ip 所属地区

性能要求达到每秒

1000 次以上的查询效率



挑战：如使用

between startip and endip 这样的条件数据库操作，因为涉及

两个字段的

between and, 无法有效使用索引。

如果每次查询请求需要遍历

10 万条记录，根本不行。



方法：一次性排序（只在数据准备中进行，数据可存储在内存序列）

折半查找（每次请求以折半查找方式进行）



实战范例

2：目标：查找与访问者同一地区的异性，按照最后登录时间逆序



挑战：高访问量社区的高频查询，如何优化。

查询

SQL: select * from user where area=’$area’ and sex=’$sex’ order by

lastlogin desc limit 0,30;
建立复合索引并不难，

area+sex+lastlogin 三个字段的复合索引,如何理解？



解读：首先，忘掉

btree，将索引字段理解为一个排序序列。

另外，牢记数据查询只能使用一个索引，每个字段建立独立索引的情况下，

也只能有一条索引被使用！

如果只使用

area 会怎样？搜索会把符合 area 的结果全部找出来，然后在这里

面遍历，选择命中

sex 的并排序。遍历所有 area=’$area’数据！

如果使用了

area+sex，略好，仍然要遍历所有 area=’$area’ and sex=’$sex’数据，

然后在这个基础上排序！！

Area+sex+lastlogin 复合索引时（切记 lastlogin 在最后），该索引基于

area+sex+lastlogin 三个字段合并的结果排序，该列表可以想象如下。

广州女

$时间 1