数据建模

正确性和约束

内容

简介
关于元组：非空、默认值和检查
关于表：唯一性和排他性
主键
关于数据库：外键
某些“正确”的价值观
常见问题

分享到

简介

存储数据是一回事；存储有意义、有用、正确的数据则是另一回事。虽然意义和实用性本身是主观品质，但正确性至少可以在逻辑上定义和强制执行。类型已经确保数字是数字，日期是日期，但不能保证重量或距离是正数，也不能防止日期范围重叠。元组、表和数据库约束对存储的数据应用规则，并拒绝不符合要求的值或值的组合。

约束绝不会使其他输入验证技术变得无用，即使它们测试相同的断言。浪费时间尝试存储无效数据却失败了。违规消息，就像系统和应用程序编程语言中的 assert 一样，只揭示了第一个候选记录的第一个问题，其细节远远超出了不直接涉及数据库的任何人所需。但就数据的正确性而言，约束是法律，无论是好是坏；其他一切都是建议。

关于元组：非空、默认值和检查

非空约束是最简单的类别。元组必须具有受约束属性的值，或者换句话说，该列允许的值集不再包含空集。没有值意味着没有元组：插入或更新被拒绝。

防止空值就像在 CREATE TABLE 或 ADD COLUMN 中声明 column_name COLUMN_TYPE NOT NULL 一样简单。空值会在数据库和最终用户之间引发各种问题，因此，如果没有充分的理由允许空值，本能地在任何列上定义非空约束是一个好习惯。

如果插入或更新中未指定任何内容（因省略或显式 NULL），则提供默认值通常不被视为约束，因为候选记录会被修改并存储，而不是被拒绝。在许多 DBMS 中，默认值可能由函数生成，尽管 MySQL 不允许用户定义函数用于此目的。

任何其他仅依赖于单个元组内值的验证规则都可以作为 CHECK 约束来实现。从某种意义上说，NOT NULL 本身是 CHECK (column_name IS NOT NULL) 的简写；违反时收到的错误消息是大部分区别所在。然而，CHECK 可以应用于并强制执行单个元组上任何布尔谓词的真值。例如，存储地理位置的表应 CHECK (latitude >= -90 AND latitude < 90)，经度在 -180 和 180 之间也类似——或者，如果可用，使用并验证 GEOGRAPHY 数据类型。

关于表：唯一性和排他性

表级约束将元组相互测试。在唯一约束中，只有一个记录可以对受约束的列具有任何给定的一组值。可空性在这里可能导致问题，因为 NULL 永远不等于任何其他值，包括 NULL 本身。因此，对 (batman, robin) 的唯一约束允许无限复制任何没有 Robin 的 Batman。

排他性约束仅在 PostgreSQL 和 DB2 中支持，但它们填补了一个非常有用的空白：它们可以防止重叠。指定受约束的字段以及每个字段将如何评估的操作，只有当没有现有记录成功地与每个字段和操作进行比较时，新记录才会被接受。例如，schedules 表可以配置为拒绝冲突。


-- text, int, etc. comparisons in exclusion constraints require this
-- Postgres extension
CREATE EXTENSION btree_gist;

CREATE TABLE schedules (
  schedule_id SERIAL NOT NULL PRIMARY KEY,
  room_number TEXT NOT NULL,
  -- a range of TIMESTAMP WITH TIME ZONE provides both start and end
  duration TSTZRANGE,
  -- table-level constraints imply an index, since otherwise they'd
  -- have to search the entire table to validate a candidate record;
  -- GiST (generalized search tree) indexes are usually used in
  -- Postgres
  EXCLUDE USING GIST (
    room_number WITH =,
    duration WITH &&
  )
);

INSERT INTO schedules (room_number, duration)
VALUES ('32A', '[2020-08-20T10:00:00Z,2020-08-20T11:00:00Z)');

-- the same time in a different room: accepted
INSERT INTO schedules (room_number, duration)
VALUES ('32B', '[2020-08-20T10:00:00Z,2020-08-20T11:00:00Z)');

-- a half-hour overlap for an already-scheduled room: rejected
INSERT INTO schedules (room_number, duration)
VALUES ('32A', '[2020-08-20T10:30:00Z,2020-08-20T11:30:00Z)');

Upsert 操作，例如 PostgreSQL 的 ON CONFLICT 子句或 MySQL 的 ON DUPLICATE KEY UPDATE，使用表级约束来检测冲突。与非空约束可以表示为 CHECK 约束一样，唯一约束可以表示为等价的排他性约束。

主键

唯一约束有一个特别有用的特例。通过对唯一列或多列附加非空约束，表中的每条记录都可以通过其受约束列的值进行唯一标识，这些列统称为键。表中可以共存多个候选键，例如 users 仍然有时具有不同的唯一且非空的 email 和 username；但声明主键建立了一个单一标准，通过该标准记录被公开且唯一地识别。一些 RDBMS 甚至通过主键在页面上组织行，为此目的称为聚簇索引，以使通过主键值进行搜索尽可能快。

主键有两种类型。自然键是在表数据中“自然”包含的一列或多列上定义的，而代理键或合成键则是完全为了成为键而发明的。自然键需要谨慎——许多事情都可能发生变化，超出了数据库设计者通常所认为的，从名称到编号方案。包含国家和地区名称的查找表可以使用它们各自的ISO 3166 代码作为安全的自然主键，但使用基于名称或电子邮件地址等可变值的自然键的 users 表会带来麻烦。如有疑问，请创建代理键。

如果自然键跨越多个列，则应始终至少考虑代理键，因为多列键需要更多的管理工作。但是，如果自然键合适，则列应按照与索引中相同的增加特异性进行排序：国家代码然后地区代码，而不是相反。

代理键历来是单个整数列，或者在最终将分配数十亿个值时使用 BIGINT。关系数据库可以自动用系列中的下一个整数填充代理键，此功能通常称为 SERIAL 或 IDENTITY。

自增数字计数器并非没有缺点：添加具有预生成键的记录可能会导致冲突，并且如果将顺序值暴露给用户，他们很容易猜测其他有效键可能是什么。通用唯一标识符（UUID）避免了这些弱点，并已成为代理键的常见选择，尽管它们在页面中也比简单的数字大得多。v1（基于 MAC 地址）和 v4（伪随机）UUID 类型最常用。

关于数据库：外键

关系数据库只实现一类多表约束，即“子集要求”或外键。这种唯一的约束类型是参照完整性的保证者，即防止表之间不一致并将关系数据库与电子表格区分开来的原则。

这个非正式的“实体关系图”或 ERD 显示了一个图书馆及其藏书和读者数据库模式的雏形。每条边都代表它连接的表之间的关系。| 符号表示它一侧的单个记录，而“乌鸦脚”符号表示多个：一个图书馆拥有许多书籍和许多读者。

外键是另一个表主键的副本，列对列（这是代理键的一个优点：只需复制和引用一列），其值将此表中的记录链接到该表中的“父”记录。在上面的模式中，books 表维护一个指向 libraries（拥有书籍）的 library_id 外键，以及一个指向 authors（撰写书籍）的 author_id。但是，如果插入一本书的 author_id 在 authors 中不存在，会发生什么？

如果外键不受约束——即，它只是另一列或多列——一本书可能有一个不存在的作者。这是一个问题：如果有人试图跟踪 books 和 authors 之间的链接，他们将一无所获。如果 authors.author_id 是一个序列整数，也存在没有人注意到这种情况的可能性，直到最终分配了虚假的 author_id，然后你会发现《堂吉诃德》的某个副本最初归属于一个不知名的人，然后是皮埃尔·梅纳德，而米格尔·塞万提斯却无处可寻。

约束外键不能防止因错误的 author_id 指向 authors 中存在的记录而导致的书籍归属错误，因此其他检查和测试仍然很重要。然而，现有外键值的集合几乎总是可能外键值的一个微小子集，因此外键约束将捕获并防止大多数错误值。通过外键约束，作者不存在的《堂吉诃德》将被拒绝，而不是被记录。

“关系数据库”中的“关系”是从这里来的吗？

事实并非如此！

外键在表之间创建关系，但我们所知的表在数学上是每个属性可能值集之间的关系。一个元组将列 A 的值与列 B 的值以及后续的值关联起来。E.F. Codd 的原始论文就是这个意义上使用“关系”的。

这造成了无尽的困惑，并且很可能将永远持续下去。

某些“正确”的价值观

数据可能不正确的方式比这里讨论的要多得多。约束有所帮助，但它们也只有如此灵活；许多常见的表内规范，例如允许某个值在列中出现的次数限制为两次或更多次，只能通过触发器强制执行。

但表的结构本身也可能导致不一致。为了防止这些情况，我们需要利用主键和外键，不仅是为了定义和验证，更是为了规范化表之间的关系。不过，首先，我们只是触及了表之间的关系如何定义数据库结构本身的皮毛。

Prisma.IO 上的相关内容

如果您想了解更多关于 Prisma 背景下的数据建模，请访问我们关于数据建模的概念页面。

您还可以通过 Prisma 文档的数据模型部分了解 Prisma 模式中特定的数据模型组件。

Prisma 是一个用于 Typescript 和 Node.js 的开源数据库工具包，旨在提高应用程序开发人员在使用数据库时的生产力和信心。

常见问题解答

元组的定义是什么？

元组是一种数据结构，用于存储特定数量的元素。这些元素可以包括整数、字符、字符串或其他数据类型。

元组是静态的，不能修改，通常比数组占用更少的内存。

什么是命名元组？

典型的元组使用数字索引来访问其成员。

命名元组的不同之处在于，其成员除了数字索引外还被赋予了名称。这在元组具有许多字段且构造位置距离使用位置很远的情况下可能很有益。

数据库中的元组是什么？

在关系数据库的上下文中，元组可以被视为该数据库的单个记录或行。

例如，在客户数据库中，一行可能包含客户的名字、姓氏、电话号码、电子邮件和收货地址。所有这些信息都可以被视为一个元组。

数据库中的外键是什么？

FOREIGN KEY 是一个表中通常引用另一个表 PRIMARY KEY 的字段或字段集合。

然而，它也可以引用任何唯一的非空列。

关系数据库为什么使用主键和外键？

关系数据库使用主键和外键来建立数据库中表之间的连接。这些键有助于在一个数据库中从一个表访问另一个表。

即使没有外键，主键通常也对唯一地寻址单个记录很有用。

作者简介

戴安·费伊

Dian 并没有计划辍学专门研究 SQL 和后端开发，但事情就是这样发生了。十五年后，她设计的数据库支持从工业物流和可追溯系统到拥有百万用户的社交媒体游戏等各种应用。她是 MassiveJS 的当前维护者，这是一个专注于充分利用 PostgreSQL 的 Node.js 开源数据映射器。

了解你的问题空间

建立连接

在 GitHub 上编辑此页面