2.1 关系数据结构及形式化定义
2.1.1 关系
- 单一的数据结构->关系:现实世界的实体以及实体间的各种联系均用关系来表示
- 数据的逻辑结构->二维表:从用户角度,关系模型中数据的逻辑结构是一张二维表。
- 关系模型建立在集合代数的基础上
1. 域
一组具有相同数据类型的值的集合,例如:整数、实数、介于某个取值范围的整数、指定长度的字符串集合、{‘男’,‘女’}
2. 笛卡尔积
笛卡尔积:
给定一组域D1,D2,…,Dn(允许其中某些域是相同的),它们的笛卡尔积为:
D1 × D2 × … × Dn = {(d1,d2,…,dn)|di ∈ Di,i=1,2,…,n}
人话就是:所有域的所有取值的一个组合,不能重复组合。
分量(Component): 笛卡尔积元素(d1,d2,…,dn)中的每一个值di叫作一个分量。
元组(Tuple): 笛卡尔积中每一个元素(d1,d2,…,dn)叫作一个n元组(n-tuple)或简称元组,就是组合中的一种情况,n表示属性个数。
基数(Cardinal number):
Di(i=1,2,…,n)
为有限集,基数为mi(i=1,2,…,n)
,则D1 × D2 × … × Dn
基数 M 为: M = \prod^n_{i = 1} m_i
人话就是:有限集的前提下,所有不重复的组合个数。
笛卡尔积的表示方法: 笛卡尔积可表示为一个二维表。表中的每行对应一个元组,表中的每列对应一个域,每个格子为一个分量。
3.关系
关系:
D1 × D2 × … × Dn
的子集叫作在域D1,D2,…,Dn
上的关系,表示为:
R(D1,D2,…,Dn)
R:关系名
n:关系的目或度(Degree)。
关系是笛卡尔积的有限子集,笛卡尔积不满足交换律,关系满足交换律(关系的每个列附加一个属性名以取消关系元组的有序性)。
元组: 关系中的每个元素是关系中的元组,通常用t表示。
单元关系与二元关系: – 当n=1时,称该关系为单元关系(Unary relation)。 – 当n=2时,称该关系为二元关系(Binary relation)。
关系的表示: 关系也是一个二维表,表的每行对应一个元组,表的每列对应一个域。
属性(Attribute): 关系中不同列可以对应相同的域,为了加以区分,必须对每列起一个名字,称为属性(Attribute)。n目关系必有n个属性。
码(Key):
- 候选码(Candidate key):若关系中的某一属性组的值能唯一地标识一个元组,而其子集不能,则称该属性组为候选码(如学号,身份证号)。
- 在最简单的情况下,候选码只包含一个属性。在最极端的情况下,关系模式的所有属性是这个关系模式的候选码,称为全码(All-key)。
- 若一个关系有多个候选码,则选定其中一个为主码(Primary key)。候选码的诸属性称为主属性(Prime attribute)。不包含在任何侯选码中的属性称为非码属性或非主属性(Non-key attribute)。
三类关系:
- 基本关系(基本表或基表):实际存在的表,是实际存储数据的逻辑表示。
- 查询表:查询结果对应的表。
- 视图表:由基本表或其他视图表导出的表,是虚表,不对应实际存储的数据。
基本关系的性质:
- 列同质的(Homogeneous)每一列中的分量是同一类型的数据,来自同一个域。
- 不同的列可出自同一个域,其中的每一列称为一个属性。不同的属性要给予不同的属性名。
- 列的顺序无所谓(属性名打破有序性)。
- 任意两个元组不能完全相同(候选码不同)
- 行的顺序无所谓,即行的次序可以任意交换。
- 分量必须取原子值,每一个分量都必须是不可分的数据项。这是规范条件中最基本的。
2.1.2 关系模式
1. 什么是关系模式
关系模式(Relation Schema)是型,关系是值。 关系模式是对关系的描述: 元组集合的结构(属性构成、属性来自的域 、属性与域之间的映象关系),完整性约束条件,元组语义。
2.定义关系模式
R(U,D,dom,F)
R 关系名
U 组成该关系的属性名集合
D 属性组U中属性所来自的域
dom 属性向域的映象集合
F 属性间的数据依赖关系集合
简记为:R (U) 或 R (A1,A2,…,An)
,域名及属性向域的映象常常直接说明为属性的类型、长度。
2.1.3 关系数据库
1. 关系数据库
在一个给定的应用领域中,表示所有实体及实体之间联系的关系的集合构成一个关系数据库。
2. 关系数据库的型与值
- 关系数据库也有型和值之分,关系数据库的型称为关系数据库模式,是对关系数据库的描述(若干域的定义,在这些域上定义的若干关系模式)
- 关系数据库的值是这些关系模式在某一时刻对应的关系的集合,通常简称为关系数据库。
2.1.4 关系模型的存储结构
- 有的关系数据库管理系统中一个表对应一个操作系统文件,将物理数据组织交给操作系统完成
- 有的关系数据库管理系统从操作系统那里申请若干个大的文件,自己划分文件空间,组织表、索引等存储结构,并进行存储管理
2.2 关系操作
2.2.1 基本的关系操作
1. 常用的关系操作
- 查询:选择、投影、连接、除、并、交、差、笛卡尔积 基本操作:选择、投影、并、差、笛卡尔积
- 数据更新:插入、删除、修改
- 查询的表达能力是其中最主要的部分
2.关系操作的特点
- 集合操作方式:即操作的对象和结果都是集合。
- 非关系数据模型的数据操作方式:一次一记录。
3. 关系数据语言的种类
4. 关系数据语言的特点
- 关系语言是一种高度非过程化的语言,存取路径的选择由DBMS的优化机制来完成,用户不必用循环结构就可以完成数据操作。
- 能够嵌入高级语言中使用。
- 关系代数、元组关系演算和域关系演算三种语言在表达能力上完全等价。
2.3 关系的完整性
关系模型的完整性规则是对关系的某种约束条件。(实体完整性,参照完整性,用户定义的完整性)
2.3.1 关系的三类完整性约束
实体完整性和参照完整性是关系模型必须满足的完整性约束条件,被称作是关系的两个不变性,应该由关系系统自动支持。
2.3.2 实体完整性
若属性A是基本关系R的主属性,则属性A不能取空值。空值就是“不知道”或“不存在”或“无意义”的值
原因: (1)实体完整性规则是针对基本关系而言的。一个基本表通常对应现实世界的一个实体集。 (2)现实世界中的实体是可区分的,即它们具有某种唯一性标识。 (3)关系模型中以主码作为唯一性标识。 (4)主码中的属性即主属性不能取空值。主属性取空值,就说明存在某个不可标识的实体,即存在不可区分的实体,这与第(2)点相矛盾,因此这个规则称为实体完整性
2.3.3 参照完整性
1. 关系间的引用
在关系模型中实体及实体间的联系都是用关系来描述的,因此可能存在着关系与关系间的引用。
2.外码(Foreign Key)
- 设F是基本关系R的一个或一组属性,但不是关系R的码。如果F与基本关系S的主码Ks相对应,则称F是基本关系R的外码。
- 基本关系R称为参照关系(Referencing Relation)
- 基本关系S称为被参照关系(Referenced Relation)或目标关系(Target Relation)。
关系R和S不一定是不同的关系。学生(学号,姓名,性别,专业号,年龄,班长学号) 目标关系S的主码Ks 和参照关系的外码F必须定义在同一个(或一组)域上。 外码并不一定要与相应的主码同名; 当外码与相应的主码属于不同关系时,往往取相同的名字,以便于识别。
3. 参照完整性规则
若属性(或属性组)F是基本关系R的外码,它与基本关系S的主码Ks相对应(基本关系R和S不一定是不同的关系),则对于R中每个元组在F上的值必须为: – 或者取空值(F的每个属性值均为空值) – 或者等于S中某个元组的主码值。
2.3.4 用户定义的完整性
- 用户定义的完整性是针对某一具体关系数据库的约束条件,反映某一具体应用所涉及的数据必须满足的语义要求。
- 关系模型应提供定义和检验这类完整性的机制,以便用统一的系统的方法处理它们,而不要由应用程序承担这一功能。
2.4 关系代数
2.4.0 概述
1. 定义
一种抽象的查询语言,用对关系的运算来表达查询。三要素:运算对象、运算结果、运算符。
2. 分类
- 传统的集合运算符:将关系看成元组的集合,运算是从关系的“水平”方向即行的角度来进行
- 专门的关系运算符:不仅涉及行而且涉及列
- 算术比较符:辅助专门的关系运算符进行操作
- 逻辑运算符:辅助专门的关系运算符进行操作
3. 标记符号
(1)R,t \in R,t[Ai]
设关系模式为 R(A_1,A_2…A_n) ,它的一个关系设为 R 。t \in R表示 t 是 R 的一个元组,t[A_i] 则表示元组 t 中相应于属性 A_i 的一个分量。
(2)A,t[A],\bar A
A = A_{i1},A_{i2} … A_{ik},其中 A_{i1},A_{i2}…A_{ik} 是 A_1,A_2…A_n 中的一部分,则 A 称为属性列或域列。 t[A]=(t[A_{i1}],t[A_{i2}]…t[A_{ik}]) 表示元组 t 在属性列 A 上诸分量的集合。
\bar A 则表示 A_1,A_2…A_{n} 中去掉 A_{i1},A_{i2}…A_{ik} 后剩余的属性组。
(4) 象集 Z_x
给定一个关系R(X,Z), X 和 Z 为属性组。当 t[X] = x 时,x 在 R 中的象集(Images Set)为: Z_x=t[Z]|t \in R,t[X]=x, 它表示 R 中属性组 X 上值为 x 的诸元组在 Z 上分量的集合。
2.4.1 传统的集合运算
1. 并
条件具有相同的目n(即两个关系都有n个属性),相应的属性取自同一个域。
R\bigcup S = \lbrace t|t \in R \lor t \in S \rbrace
2. 差
条件: 具有相同的目n,相应的属性取自同一个域
R – S = \lbrace t|t \in R \land t \notin S \rbrace
3. 交
条件: 具有相同的目n,相应的属性取自同一个域
R \bigcap S = \lbrace t|t \in R \land t \in S \rbrace
R \bigcap S = R – (R-S)
4. 广义笛卡尔积
R:n目关系,k1个元组
S:m目关系,k2个元组
列:(n+m)列的元组的集合,元组的前n列是关系R的一个元组,后m列是关系S的一个元组。 行:k1×k2个元组
2.4.2 专门的关系运算
1.选择
选择又称为限制(Restriction),在关系R中选择满足给定条件的诸元组,是对行进行的操作。(就是按照选择条件选择某个表中的某些行)
σ_F(R) = \lbrace t|t \in R \land F(t) = ‘true’\rbrace
σ_{Sdept = ‘IS’} (Student) 表示在student表中选择sdept = ‘IS’的元组。
其中 F 表示选择条件,是一个逻辑表达式,取逻辑值“真”或“假”,基本形式为:X_1 θ Y_1。
θ是比较运算符(>,≥,<,≤,=或<>)
X_1,Y_1等是属性名、常量、简单函数;属性名也可以用它的序号来代替;
在基本的选择条件上可以进一步进行逻辑运算,求非 ,与,或运算。
2. 投影
从R中选择出若干属性列组成新的关系,是对列进行的操作。(就是只保留部分的属性列)
\pi_A(R) = \lbrace t[A] | t\in R\rbrace
\pi_{2,5}(Student) 表示选取Student表的第2和5列。
投影之后不仅取消了原关系中的某些列,而且还可能取消某些元组(避免重复行)。
3. 连接
从两个关系的笛卡尔积中选取属性间满足一定条件的元组。
- 外连接(Outer Join):如果把悬浮元组也保存在结果关系中,而在其他属性上填空值(Null),就叫做外连接。
- 左外连接(LEFT OUTER JOIN或LEFT JOIN):只保留左边关系R中的悬浮元组
- 右外连接(RIGHT OUTER JOIN或RIGHT JOIN):只保留右边关系S中的悬浮元组
例子:
4.除
保留R中满⾜S的,⽽且R中列要去掉S的列。 例:
只有张三和王五满足全部的S,即张三和王五都选了S中的数据库和网络,所以R÷S = {张三,王五}
R和S共同属性有B和C,找到R中满足全部B和C的元组,输出舍弃B列和C列后的结果(即A列)。图中只有a1满足S中的所有要求。
2.5 作业记录
解析:
1.查询的是图书名称,图书名称在“采购图书”中,而我们的查询条件是借书证号为‘S20180204’的读者,借书证号在“借阅”中,“借阅”和“采购图书”没有直接的联系,需要一个中间关系模式,即“上架图书”,“上架图书中”的主键(内部编码),是“借阅”的外键,“采购图书”的主键(ISBN)是“上架图书”的外键,“上架图书”相当于桥梁将“借阅”和“采购图书”两个关系链接起来,将三个表自然连接后选择借书证号为‘S20180204’的元组,投影出书名即可。
2.寻找没有借过书的读者的(借书证号)(姓名)(电话),直接查找比较困难。可以先表示出有借阅记录的读者,即在“借阅”和“读者”自然连接(自然连接的原因同上)后的表中投影出所需的属性,然后与所有的读者做差就是没借过书的人。
3.要满足两个条件,第一反应应该是使用选择操作,条件做‘交’,但是对于同一个元组不能做‘交’(无法找到某个元组的某个属性同时满足两个值),所以可以找出满足条件1的所有读者和满足条件2的所有读者后再做‘交’。至于为何要自然连接三个关系,这是由所需的属性位于哪个关系决定的。
4.可以直接对选择的条件做‘并’的操作,表示只要满足条件1或者满足条件2即可,那就很简单了。
5.将“借阅”和自己求一下广义笛卡尔积,由题目可知第2列的属性是‘借书证号’,第3列的属性是‘图书内部编码’,在广义笛卡尔积后的关系中,第7列为第二张表的‘借书证号’,第8列为第二张表的‘图书内部编码’,那么我们可以使用选择,条件设置成第2列和第7列相等(保证同一个人),第3列和第8列不同(保证借的书至少有两本不同),最后再投影出所需的属性即可。
6.先在读者中选择出姓名为‘林民’的元组,与‘借阅’自然选择后就是林民的所有借阅记录,投影出其中的“图书内部编码”,然后再与‘借阅’自然选择得到所有和林民的图书编码一样的借阅记录,然后与读者自然选择得到每条借阅记录的读者信息,投影出需要的属性即可。
7.遇到满足某个集合“全部”的概念时一般考虑用除法,先找到除数,即借阅人为林民的所有图书的内部编码,再找到被除数,即所有的读者信息,由于要和除数有联系,所有不光投影出所需的属性,还要投影出内部编码。