图片 9

YbSoftwareFactory 代码生成插件【十八】:树形结构下的查询排序的数据库设计

一、树形结构例子分析:

程序设计过程中,我们常常用树形结构来表征某些数据的关联关系,如企业上下级部门、栏目结构、商品分类等等,通常而言,这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库,都是以二维表的形式记录存储数据信息,因此是不能直接将Tree存入DBMS,设计合适的Schema及其对应的CRUD算法是实现关系型数据库中存储树形结构的关键。

   
树形结构的排序在中国特色下十分普遍也非常重要,例如常说的五大班子,党委>人大>政府>政协>纪委,每个班子下还有部门,岗位,人员,最终排列的顺序通常需要按权力大小、重要性等进行排列,顺序排列不好可是重大的罪过,领导很生气,后果很严重。这种排序方式本质上就是典型的树形结构深度排序,但在数据库中很难直接通过SQL语句简单高效地进行处理,更不用说还要支持不同类型数据库了。

以360问答页面为例:

  
 理想中树形结构应该具备如下特征:数据存储冗余度小、直观性强;检索遍历过程简单高效;节点增删改查CRUD操作高效。无意中在网上搜索到一种很巧妙的设计,原文是英文,看过后感觉有点意思,于是便整理了一下。本文将介绍两种树形结构的Schema设计方案:一种是直观而简单的设计思路,另一种是基于左右值编码的改进方案。

    当前解决此类问题,主要有两种方法。

我们通过观察URL,可以明确该页面的数据以树形结构存储,下面三块模块分别为:

一、基本数据

    1. 排序码方式

①根节点

  
 本文列举了一个食品族谱的例子进行讲解,通过类别、颜色和品种组织食品,树形结构图如下:

  • 原理:在每个树形节点上均设置一个排序码,排序码通常是一个字符串并存入数据库,例如

②根节点的第一层子节点

图片 1

    图片 2

③为左侧所选择节点的下一层子节点

 

  • 优点:只需一个冗余字段,数据库中存储显示直观,查询和排序既方便也高效,无需递归,只用一条查询语句即可得到某个根节点及其所有子孙节点的先序遍历。例如需要查询四川下所有地区并进行排序,使用SQL
    语句“LIKE ‘0510%’ ORDER BY 地区” 即可查询并排列出结果。
  • 缺点:通常在录入树形节点时需要人工指定排序码,在同层节点间插入新的节点时需要考虑编码重复导致排序失效的问题;后续如需对排序顺序进行置顶、前移、后移、置底等类似的调整则非常不方便;同时这种编码方案由于层信息位数的限制,限制了每层所能允许的最大子节点数量及最大层数。

图片 3

二、继承关系驱动的Schema设计

    2. 左右值编码

(图1)

  
 对树形结构最直观的分析莫过于节点之间的继承关系上,通过显示地描述某一节点的父节点,从而能够建立二维的关系表,则这种方案的Tree表结构通常设计为:{Node_id,Parent_id},上述数据可以描述为如下图所示:

  • 原理:请参考“采用左右值编码来存储无限分级树形结构的数据库表设计”
  • 优点:无需人工设定排序编码,可交由系统计算后生成;同样无需递归,同时还能实现无限分级;查询条件基于整形数字比较的,效率很高;还能方便地进行先序列表,添加,修改,删除,同层平移等常规操作。
  • 缺点:主要是显示不直观,维护不方便,需要考虑数据库的并发操作。由于这种左右值编码的方式和常见的阿拉伯数字直观排序不同,再加上节点在树中的层次,顺序不能直观显示出来,而必须通过简单的公式计算后得到,需要花费一定的时间对其数学模型进行深入理解。而且,采用该方案编写相关存储过程,新增,删除,同层平移节点需要对整个树进行查询修改,由此导致的代码复杂度,耦合度较高,修改维护的风险较高。数据库中某个节点的编码被错误修改可能就会导致整体排序失败,但很难及时方便地定位到具体的错误原因。本设计需要两个冗余字段。

该例简化的树形结构图如下:

图片 4

   
本文介绍的设计方式则是前文介绍的权限模型中组织机构树所采用的排序码+排序值方式:

图片 5

  
 这种方案的优点很明显:设计和实现自然而然,非常直观和方便。缺点当然也是非常的突出:由于直接地记录了节点之间的继承关系,因此对Tree的任何CRUD操作都将是低效的,这主要归根于频繁的“递归”操作,递归过程不断地访问数据库,每次数据库IO都会有时间开销。当然,这种方案并非没有用武之地,在Tree规模相对较小的情况下,我们可以借助于缓存机制来做优化,将Tree的信息载入内存进行处理,避免直接对数据库IO操作的性能开销。

    排序码+排序值

(图2)

三、基于左右值编码的Schema设计

  • 原理

我们不难发现,每当点击图1红框内的类别时,页面主体问题部分会显示该类别节点下所有子节点的问题。因此,需要实现查询出某节点所有子节点的功能。

  
 在基于数据库的一般应用中,查询的需求总要大于删除和修改。为了避免对于树形结构查询时的“递归”过程,基于Tree的前序遍历设计一种全新的无递归查询、无限分组的左右值编码方案,来保存该树的数据。

   
1)数据库表结构的设计中增加两个排序字段,其中一个字段存储排序码,类型为字符串,另一个字段存储排序值,类型为浮点型。排序码最终参与SQL语句的查询和排序结果的生成;排序值为辅助字段,主要用于同层次节点间排序顺序的比较、排序顺序的调整修改等并最终根据其值格式化生成排序码,该字段并不直接参与SQL语句的查询和排序,主要是在对排序顺序进行调整时非常有用。

 

图片 6

   
2)新增节点时,查找要插入节点所在的父节点的排序码和父节点下所有直接子节点的最大排序值并加1得出实际排序值(此处假想添加的节点总是排在同层节点的最后),根据该排序值格式化出固定长度的排序码并和父节点的排序码组合,中间使用“/”字符隔开,生成实际的排序码。例如,父结点的排序码为“/000000000000000000129.”,当前计算出的排序值为320,对应的排序值则为:“000000000000000000320.”,则最终的排序码就应该是“/000000000000000000129./000000000000000000320.”。

二、表的存储:

  
 第一次看见这种表结构,相信大部分人都不清楚左值(Lft)和右值(Rgt)是如何计算出来的,而且这种表设计似乎并没有保存父子节点的继承关系。但当你用手指指着表中的数字从1数到18,你应该会发现点什么吧。对,你手指移动的顺序就是对这棵树进行前序遍历的顺序,如下图所示。当我们从根节点Food左侧开始,标记为1,并沿前序遍历的方向,依次在遍历的路径上标注数字,最后我们回到了根节点Food,并在右边写上了18。

   
此处需要注意的是,排序值为负数的情况下,需要使用浮点值所允许的最小值-去排序值来格式化生成排序码(因为最终排序使用的是字符串比较),否则排序值为负数的情况下使用字符串比较进行排序就会出现问题,生成排序码的程序代码如下:

需要存储两张表:

  
 第一次看见这种表结构,相信大部分人都不清楚左值(Lft)和右值(Rgt)是如何计算出来的,而且这种表设计似乎并没有保存父子节点的继承关系。但当你用手指指着表中的数字从1数到18,你应该会发现点什么吧。对,你手指移动的顺序就是对这棵树进行前序遍历的顺序,如下图所示。当我们从根节点Food左侧开始,标记为1,并沿前序遍历的方向,依次在遍历的路径上标注数字,最后我们回到了根节点Food,并在右边写上了18。

        /// <summary>
        /// 格式化生成排序码
        /// </summary>
        /// <param name="parentOrderCode">父排序码</param>
        /// <param name="displayOrder">排序值</param>
        /// <returns>生成的排序码</returns>
        internal override string FormatOrderCode(string parentOrderCode, decimal displayOrder)
        {
            if (displayOrder < decimal.Zero)
            {
                displayOrder = decimal.MinValue - displayOrder;
            }
            //可根据需要调整生成排序码的格式和长度
            var orderCode = string.Format("{0:000000000000000000000.000000000000000000}", displayOrder).Replace('-', '#').TrimEnd(new[] { '0' });
            return string.Format("{0}/{1}", parentOrderCode, orderCode); ;
        }

1、类别表

图片 7

  • 优点:具有方式1的所有优点,数据库中存储显示直观,查询和排序既方便也高效,无需递归,只用一条查询语句即可得到某个根节点及其所有子孙节点的先序遍历;而且无需人工设定排序编码,可交由系统计算后生成;同时后续调整排序顺序也非常方便,只需重新计算该节点要调整后的排序值并重新生成排序码,然后使用各种数据库都普遍支持,并且语法也基本一样的“REPLACE”
    SQL
    语句批量替换排序码字符串即可完成当前节点及下属所有子节点的排序调整任务,对排序的置顶、前移、后移、置底等实现都非常简单,例如下图的效果,乃至于实现在界面上以拖拽的方式对每个树节点进行排序顺序的调整,也是非常方便的。
        图片 8
  • 缺点:需要两个冗余字段,调整节点顺序后,系统需自动对当前节点即下属节点的排序码字段的值进行维护;同时也和方式1一样,这种编码方案由于层信息位数的限制,限制了每层所能允许的最大子节点数量及最大层数(例如排序码字段在数据库中设计的字符串长度为4000,每层节点固定长度为40的话,最大层数可允许为100层,但在实际应用中,超过十层的树形节点已是非常罕见的)。
create table [QType]
(
QID int not null primary key,
QPID int not null,
QPath varchar(max) not null,
QTypeContent varchar(max) not null
)

  
 依据此设计,我们可以推断出所有左值大于2,并且右值小于11的节点都是Fruit的后续节点,整棵树的结构通过左值和右值存储了下来。然而,这还不够,我们的目的是能够对树进行CRUD操作,即需要构造出与之配套的相关算法。

    附 – 排序在线演示:

 图片 9

 四、树形结构CRUD算法

 

(1)获取某节点的子孙节点

 

  
 只需要一条SQL语句,即可返回该节点子孙节点的前序遍历列表,以Fruit为例:SELECT*
FROM Tree WHERE Lft BETWEEN 2 AND 11 ORDER BY Lft
ASC。查询结果如下所示: