澳门金沙vip 1

Schema优化之选择整数、实数、字符串和日期时间等

MySQL支持的数据类型很多,那么选择合适的数据类型对于获得高性能就至关重要。那么就先了解各种类型的优缺点!

选择数据类型的原则

1.更小的通常更好:一般情况下,应该尽量使用可以正确存储数据的最小数据类型。更小的数据类型通常更快,因为它们占用更少的磁盘、内存和CPU缓存,并且处理时需要的CPU周期也更少。

2.简单就好:简单数据类型的操作通常需要更少的CPU周期。例如,整型比字符操作代价更低,因为字符集和校对规则(排序规则)使字符比较比整型比较更复杂。这里有两个例子:一个是应该使用MySQL内建的类型而不是字符串来存储日期和时间,另外一个是应该用整型存储IP地址。

3.尽量避免NULL:如果查询中包含可为NULL的列,对MySQL来说更难优化,因为可为NULL的列使得索引统计和值比较都更复杂。可为NULL的列会使用更多的存储空间,在MySQL利也需要特殊处理。当可为NULL的列被索引时,每个索引记录需要一个额外的字节,在MyISAM里甚至还可能导致固定大小的索引(例如只有一个整数列的索引)变成可变大小的索引。

InnoDB使用单独的位(bit)存储NULL值,所以对于稀疏数据有很好的空间效率。

澳门金沙vip,MySQL支持的数据类型非常多,选择正确的数据类型对于获得高性能至关重要。不管存储哪种类型的数据,下面几个简单原则都有助于做出更好的选择。

一、类型介绍

整数类型

TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT。分别使用8,16,24,32,64位存储空间。它们可以存储的值的范围从-2的(N-1)次方到2的(N-1)次方减一,其中N是存储空间的位数。

整数类型有可选的UNSIGNED属性,表示不允许负值,这大致可以使正数的上限提高一倍。例如TINYINT
UNSIGNED可以存储的范围是0~255,而TINYINT的存储范围是-128~127。因此可以根据实际情况选择合适的类型。

MySQL可以为整数类型制定宽度,例如INT(11),对大多数应用这是没有意义的:他不会限制值的合法范围,只是规定了MySQL的一些交互工具(例如命令行)用来显示字符个数。对于存储和计算来说,INT(1)和INT(20)是相同的。

更小的通常更好

一般情况下,应该尽量使用可以正确存储数据的最小数据类型。更小的数据类型通常更快,因为它们占用更少的磁盘、内存和CPU缓存,并且处理时需要的CPU周期也更少。

1、整型类型

实数类型

实数是带有小数部分的数字。但是不只是为了存储小数,也可以用DECIMAL存储比BIGINT还大的整数。

FLOAT和DOUBLE类型支持使用标准的浮点运算进行近似计算。DECIMAL类型用于存储精确的小数,并且它可以指定小数点前后的所允许的最大位数。这会影响列的空间消耗。在较高的版本将会把数字打包保存到一个二进制字符串中(每4个字节存9个数字)。例如DECIMAL(18,9)小数点两边将各存储9个数字,一共使用9个字节:小数点前的数字用4个字节,小数点后的数字用4个字节,小数点本身占1个字节。而DECIMAL类型允许最多65个数字,注意DECIMAL只是一种存储格式,计算时会转换为DOUBLE类型。DOUBLE是MySQL内部计算类型。

浮点类型在存储同样范围的值时,通常比DECIMAL使用更少的空间。FLOAT使用4个字节存储。DOUBLE占用8个字节,相比FLOAT有更高的精度和更大的范围。

由于消耗问题。所以应该有小数精确计算时才用DECIMAL。另外,某些场合可以考虑用BIGINT代替DECIMAL,比如存储财务数据,可以将需要存储的货币单位根据小数的位数乘以相应的倍数,然后用BIGINT存储。

简单就好

简单数据类型的操作通常需要更少的CPU周期。例如,整型比字符串操作代价更低,因为字符集和校对规则(排序规则)使字符串比较比整型更复杂。

  整型类型有: TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT 。他们分别占8,16,24,32,64位储存空间。可存储的整数范围为-2^(N-1)到2^(N-1)-1,其中N是存储空间的位数。

字符串类型

VARCHAR和CHAR类型

VARCHAR:VARCHAR类型用于存储可变长字符串,因此它仅使用必要的空间,它比定长类型更节省空间。VARCHAR需要使用1或2个额外字节记录字符串的长度,如果列的最大长度小于或等于255字节,则只使用1个字节表示,否则使用2个字节。

VARCHAR节省了存储空间,所以对性能也有帮助。但是,由于行是变长的,在UPDATE时可能使行变得更长,这就需要做额外的工作。如果一个行占用的空间增长,并且在页内没有更多的空间可以存储,这种情况下,不同的存储引擎的处理方式不一样。例如MyISAM会将行拆成不同的片段存储,InnoDB则需要分裂页来使行可以放进页内。这样一来就会产生很多内存碎片。

根据上面的描述可以确定VARCHAR适合的情况:

1.字符串列的最大长度比平均长度大很多;

2.列的更新很少所以碎片不是问题;

3.使用了像UTF-8这样复杂的字符集,每个字符都使用不同的字节数进行存储。

CHAR:CHAR类型是定长的,MySQL总是根据定义的字符串长度分配足够的空间。当存储CHAR值时,MySQL会删除所有的末尾空格

1.CHAR适合存储很短的字符串,或所有值都接近同一个长度。例如,CHAR非常适合存储密码的MD5值,因为这是一个定长的值。

2.对于经常变更的数据,CHAR也比VARCHAR更好,因为定长的CHAR类型不容易产生碎片。

3.对于非常短的列,CHAR也比VARCHAR在存储空间上也更有效率。例如用CHAR(1)来存储只有Y和N的值,如果采用单字符集只需一个字节,但是VARCHAR(1)却需要两个字节,因为还有一个记录长度的额外字节。

注:使用VARCHAR(5)和VARCHAR(200)存储较小的数据时,虽然空间开销一样,但是还是用VARCHAR(5)比较好。因为更长的列会消耗更多的内存,MySQL通常会分配固定大小的内存块来保存内部值。所以最好的策略就是分配真正需要的空间。

尽量避免NULL

很多表都包含可为NULL(空值)的列,即使应用程序并不需要保存NULL也是如此,这是因为可为NULL是列的默认属性。通常情况下,最好知道列为NOT
NULL,除非真的需要存储NULL值。

如果查询中包含可为NULL的列,对于MySQL来说更难优化,因为可为NULL的列使得索引、索引统计和值比较都更复杂。可为NULL的列会使用更多的存储空间,在MySQL里也需要特殊处理。当可为NULL
的列被索引时,每个索引记录需要一个额外的自己,在MyISAM里深圳还可能到固定大小的索引(例如只有一个整数列的索引)变成可变大小的索引。

通常把可为NULL的列改为 NOT
NULL带来的性能提升比较小,所以(调优时)没有必要首先在现有schema中查找并修改掉这种情况,除非确定这会导致问题。但是,如果计划在列上建索引,就应该尽量避免设计成可为NULL的列。

还可以将整数类型设为 UNSIGNED ,这样几乎可以是其范围增大一倍。例如TINYINT范围是-128

整数类型

对于整数类型,可以使用 TINYINT、 SMALLINT、 MEDIUMINT、 INT、 BIGINT
等。每个整数类型都对应着不同的存储空间。

数据类型 存储(Byte)
TINYINT 1
SMALLINT 2
MEDIUMINT 3
INT 4
BIGINT 8

整数类型可以选择 UNSIGNED
属性,表示不允许负值,这样可以使得正数的上限提高一倍。举个例子,TINYINT
的存储范围是 -2-7 ~ 27 – 1,也就是 -128 ~ 127,那么 UNSIGNED INT
可以存储的范围就是 0 ~ 28 – 1,即 0 ~ 255。

MySQL可以为整数类型指定宽度,然而对大多数场景是没有意义的:它并不会限制整数类型的合法范围,它只是规定某些交互工具显示出来的字符个数。如果不显示地指定宽度,则默认为
INT(11)。有读者会误认为 INT(11) 指定整数类型的长度是 11
位,这个想法是错误的。实际上,在 Zerofill 属性中,表示当数组宽度小于 11
位时,在数字前面加 0 填满宽度。

  • 127,而TINYINT
    UNSIGNED的范围是0-255。不过这两种只是在范围上有缺别,在存储空间和性能上都是一样的。

日期和时间类型

DATETIME

这个类型能保存大范围的值,从1001年到9999年,精度为秒。他把日期和时间封装到格式为YYYYMMDDHHMMSS的整数中,与时区无关。使用8个字节的存储空间。默认情况下,MySQL以一种可排序的格式显示DATETIME值。

TIMESTAMP

保存了从1970年1月1日午夜以来的秒数。它只使用4个字节的存储空间,因此它的范围比DATETIME小的多。

TIMESTAMP显示的值也依赖于时区,MySQL服务器、操作系统,以及客户端连接都有时区设置。

应该多用TIMESTAMP因为它比DATETIME空间效率更高。

实数类型

对于实数类型,可以使用 FLOAT、 DOUBLE、 DECIMAL
等。每个实数类型都对应着不同的存储空间。

数据类型 存储(Byte)
FLOAT 4
DOUBLE 8

FLOAT(M,D) 和 DOUBLE(M,D) 表示一共显示 M 位整数,D 位小数。
举个例子,FLOAT(5,2) 可以显示为 100.99。此外,读者还要注意的是,MySQL
保存时会进行四舍五入,因此,如果值为 100.0099, 会保存近似结果 100.01。

FLOAT 只保证 6 位有效数字的准确性,所以 FLOAT(M,D) 中,M<=6
时,数字通常是准确的。

DOUBLE 只保证 16 位有效数字的准确性,所以 DOUBLE(M,D) 中,M<=16
时,数字通常是准确的。

在使用实数类型,要重点考虑精度问题。DOUBLE 是 MySQL
内部浮点计算的类型,它比 FLOAT 有更高的精度和更大的范围,但是 FLOAT 和
DOUBLE 都是不精确的,如果要实现精确浮点运算,就需要使用 DECIMAL
类型(例如,存储财务数据)。
但在数据量比较大的时候,可以考虑使用BIGINT 代替DECIMAL
,将需要存储的货币单位根据小数的位数乘以相应的倍数即可。假设要存储财务数据精确到万分之一,则可以把所有金额乘以一万,然后将存储结果存储到BIGINT
里,这样可以同时避免浮点存储技术不精确和DECIMAL 精确计算代价高的问题。

 

字符串类型

MySQL支持多种字符串类型,可以使用 CHAR、 VARCHAR、 BLOB、 TEXT 等。

CHAR 类型是定长的。MySQL 会根据定义的长度分配空间。CHAR 长度可以是 0 到
255之间的值。

VARCHAR 类型用于存储可变长字符串,它更加节省空间。值得注意的是, VARCHAR
需要使用 1 或 2
个额外字节记录字符串的长度:如果列的最大长度小于或者等于255,则只使用1个字节表示,否则使用2个字节。VARCHAR
长度可以指定 0 到 65535 之间的值。

BLOB 和 TEXT 主要用来存储大文本,分别采用二进制和字符串方式存储。
实际上,它们分别属于两组不同的数据类型加载:字符串类型是 TINYTEXT、
SMALLTEXT、TEXT、MEDIUMTEXT、 LONGTEXT。
对应二进制类型是: TINYBLOB、SMALLBLOB、 BLOB 、MEDIUMBLOB、 LONGBLOB。

2、实数类型

时间和时间类型

MySQL可以使用许多类型来保存日期和时间值,例如: YEAR、 DATE、 TIME、、
TIMESTAMP、DATETIME。

MySQL
能够存储的最小单位是秒,如果需要更精确的存储,就必须自己定义存储格式。比如可以使用BIGINT存储毫秒级别的时间戳。

DATETIME类型范围:’101-01-01 00:00:00′ ~ ‘9999-12-31 23:59:59’。
TIMESTAMP类型范围:’1970-01-01 00:00:01’UTC ~ ‘2038-01-19 03:14:07’ UTC

DATETIME 和 TIMESTAMP 都可以存储相同类型的数据,而 TIMESTAMP 只使用
DATETIME 一半的存储空间。通常情况下,建议优先考虑
TIMESTAMP,因为它的空间利用率更高。

  对于实数类型,MySQL即支持精确类型(DECIMAL),也支持不精确类型(FLOAT,DOUBLE)。

MySQL schema设计

  DECIMAL类型允许最多存储65位数字,因此它可以存储比BIGINT还大的数字。而且在MySQL5.0或更高版本中,MySQL服务器自身实现的DECIMAL的高精度计算。但相比较浮点类型,因为CPU直接支持原声浮点计算,所以浮点类型计算会更快。

范式和反范式

对于任意给定的数据通常都有很多种表示方式,从完全的范式化到完全的反范式化,以及两者的折中。在范式化的数据库中,每个数据会出现并且仅出现异常。相反,在反范式化的数据库中,信息是冗余的,可能会存储在多个地方。

  通常来说,浮点类型在存储相同的范围时,比DECIMAL使用更少的空间。FLOAT占用4个字节存储,DOUBLE占用8个字节存储,但相比FLOAT有更高的精度和更大的范围。浮点类型存储时在精度上会有各种各样的问题,例如当你只把一列设为FLOAT,而没有指定精度时,在存储1234567.33会变成1234570。

范式的优点和缺点

范式化设计schema的优点:
范式化的更新操作通常比反范式化要快
当数据比较好地范式化时,就只有很少或者没有重复数据,所以只需要修改更少的数据。
范式化的表通常更小,可以更好地放在内存里,所以执行操作会更快。

范式化设计schema的缺点是
通常需要关联。稍微复杂一些的查询语句在符合范式化的
schema上都可能需要至少一次关联,也许更多。

事实上, 完全的范式化和完全的反范式化
都是实验室里才有的东西,在真实世界中很少会这么极端的去使用。在实际应用中
经常需要混用 范式化和反范式化。

  DECIMAL所占的字节比较特殊。它是在小数点前后分别使用每4个字节存储9位数字。具体看mysql手册说法:

澳门金沙vip 1

所以我们使用最多的DECIMAL(10,2)所占的字节数为1+4+1+1=7个字节(小数点占一个字节)。

因为需要额外的计算开销和存储空间,所以应该尽量只在对小数进行精确计算时才使用DECIMAL–例如存储财务数据。当你的数据量比较大的时候,为了避免浮点存储计算不精确和DECIMAL精确计算代价高的问题,可以使用BIGINT代替DECIMAL,只需将原来需要存储的小数乘以相应的倍数即可(BIGINT的范围满足你的需求)。