数据流分析共性问题
之前分别介绍了可用表达式分析和活跃变量分析两类经典的数据流分析实例,不难发现,它们的分析过程间存在相似性,都是基于图的表示,并通过建立数据流方程组求解的分析框架,这样统一的分析框架,为求解数据流方程组提供高效的通用算法提供了可能。
不同分析实例的相似性
我们可以比较可用表达式分析与活跃变量分析的数据流方程组形式化定义:
它们在表示上存在相似性,实际上我们可以定义一个统一的形式表达来定义这样的分析过程: 对于 且 ,分析信息()由下面形式的方程描述:
其中:
- 组合操作子 :对应公式中的组合操作,有路径量化方式确定;
- 块的迁移函数:用于处理分析信息的迁移;
- 流关系: 或 (即 关系的逆),对应公式中的 ;
- 端结点的标签集合: 或 ,用于界定公式中 的情况。
当 时属于前向分析的信息流;当 时属于后向分析的信息流。而组合操作子 则根据路径上的量化方式,如可用表达式分析的 类型使用 ,而如活跃变量分析的 类型则使用 。
分析框架
不同的数据流分析实例在相同的形式化表达下构建数据流方程组,在相同的分析框架下,通过不动点迭代来求解数据流方程组。
- 把
方程组的解刻画为一个转换子的不动点; - 引入
偏序关系来比较分析结果; - 建立
最小上界或最大下界作为组合操作子; - 保证迁移函数的
单调性; - 确保不动点迭代的
终止性(满足递增链条件); - 通过 算法来对不动点迭代进行优化。
理论基础
序理论()
偏序()
IMPORTANT
偏序关系是定义在集合 上的一种二元关系,需要满足下面三个条件:
- 自反性: 有 ;
- 传递性:若 且 ,则 ;
- 反对称性:若 且 ,则 .
若 构成集合 上的偏序关系,则称 为
偏序集()。
TIP设 是一个非空集合,
二元关系是 中元素的有序对(二元序偶)集合,即 ( 表示 中所有的有序对 的集合);若 ,则称” 与 具有关系 “,记作 。
不要混淆偏序关系与偏序集。两者都是集合,但偏序关系是”元素间的关系集合”,而偏序集则是”带关系的元素集合载体”,即前者描述一种关系,后者描述一个带有某种关系的集合。
WARNING需要注意,偏序集中
并非所有元素都能够比较关系,但是只要能够比较,就满足自反、传递以及反对称的规则。
示例
- ,其中 表示
幂集 - ,其中,
前面提到,偏序集中并非所有元素都能够比较关系,如 中的元素 和 之间就不能进行比较。示例3表示了区间包含关系。
格()
IMPORTANT设
偏序集,若集合 中任意两个元素都有最小上界(即上确界,)和最大下界(即下确界,),则称之为格,该格记作 。其中:最小上界:记为
,存在唯一元素 ,满足:
- 且 (即 是 和 的上界);
- 若存在 使得 且 ,则 (即 是所有上界中最”小”的那个).
最大下界:记为
,存在唯一元素 ,满足:
- 且 (即 是 和 的下界);
- 若存在 使得 且 ,则 (即 是所有上界中最”大”的那个).
示例
-
整数
-
整数区间 ,其中:
如,整数区间 ,其中每条边表示偏序关系。

完全格()
IMPORTANT设
偏序集,若集合 的任意子集(无论有限还是无限)都存在最小上界和最大下界,特别地,对集合 总存在最小元和最大元,此时称之为完全格,记作 。实际上,定义中任意子集 都存在最小上界和最大上界是比格的定义中任意两个元素都存在最小上界和最大下界更严格的条件,因此
完全格首先是格。此外对于集合 而言,其最小元 ,其最大元 。
TIP对于 而言,.
示例
- 幂集 如 :

其中,对于子集 ,其最小上界为 ,最大下界为 。
- 带无穷界的整数区间
链()
IMPORTANT设
偏序集,取集合 的非空子集,若 中的任意两个元素关于 皆可比,则称该子集 为 的一条链。例如, 是 上的一条链(高度可能无穷)。
递增链
IMPORTANT设序列 是
链,如果对于 都有:,则称该链为递增链。
递增链条件()
IMPORTANT设
偏序集,如果对其中的任意递增链最终都会稳定(即 使得对所有,有 ),则称 满足递增链条件。
TIP这里只要求 满足偏序集,因此该偏序集中
可以没有任何递增链,甚至可以不存在任何链。
有穷高度的链肯定满足递增链条件,但是满足递增链条件的链不一定是有穷高度(比如有可能存在不稳定的递减链)。
TIP链 的高度定义为:链 中存在的
最长严格递增链,则该最长严格递增链的长度称为链 的高度,记作 。其中,
严格递增链是在递增链定义的基础上要求 ,即要求 。因此,对于递增链在趋于稳定后,后半段是稳定值 的无限重复,并未构成严格递增链关系,此时该链的高度也并非无穷。
IMPORTANT
完全格且满足递增链条件是不动点迭代终止的充分条件!
完全偏序()
IMPORTANT设偏序集 ,若:
- 存在最小元,记作 ;
- 对 中每条链 ,其最小上界 存在。
则称 为完全偏序(),记作
示例
不是 , 本身构成链,其最小上界为 ,但是 ;
是 。
不动点理论
函数
单调性
IMPORTANT设偏序集 和 上的
全函数,若 ,且只要 则有 ,则该全函数 是单调的。
这里的偏序集 和 可以理解成定义域和值域。需要注意的是, 中 需要映射到 。若 中存在链 ,单调性确保了该链经函数 映射到 后构成新链 (根据单调性定义很容易证明)。
上确界连续(连续)
IMPORTANT定义一: 设 和 是完全偏序(),存在全函数 ,若对 中的每条链 , 存在且有 ,则称 是
连续(上确界连续)的
上面的定义中其实隐含了函数单调性: 且 ,则 在同一条链 上,而根据定义 ,而 ,从而 ,故得证函数 是单调的。
函数 单调性保证了 中的链 经函数 映射到 后仍然构成链 。于是上面的定义可以理解为:对 中的任意一条链 , 作用在链 的最小上界(上确界)上的结果,等于 作用在链 中的每个元素构成的新链 的最小上界(上确界),也即 。
IMPORTANT定义二: 函数 是 连续的,当且仅当 是单调的且对 中的每条链 ,有 。
这里和定义一相对比,条件给出函数 是单调的,并且 ,因此实际上我们只需要基于函数 的单调性证明 即可得到定义一中的条件,也就能够证明函数 是 连续。
证明如下:,有 ,于是 ,即对链 中任意元素 映射到 中都有上界 ,于是 。根据条件 ,于是有
再根据定义一,可知函数 是 连续的。
TIP若
只包含有穷链,则 是 连续的当且仅当 是单调的。提示一下,既然是有穷链,则 ,而根据单调性即可证明 。
示例
考虑从 到 的函数 ,其中 ,判断函数 单调性与 连续性:
显然,两者中的 均单调。但是 2.中 不是 连续的,理由如下:
根据定义, 中任意链 均有, 存在且有 ,而对于2.中的 ,不妨取 ,由于 ,于是 ,故得证。
不动点理论
基础概念
IMPORTANT设 是
偏序集上的函数,则 中元素 称为函数 的:
不动点():若 ;前不动点():若 ;后不动点():若 .

图中的 和 都是相对于不动点 ,实际上 所指部分相对于 也是前不动点。
IMPORTANT
不动点集合;,若对任意 皆有 ,则称 为函数 的
最小不动点,记作 ;,若对任意 皆有 ,则称 为函数 的
最大不动点,记作 ;记 为关于偏序 比 大的
最小不动点;记 为关于偏序 比 小的
最大不动点;
应用示例
以不动点理论在联立递归方程求解中的应用为例:
- 问题背景:联立递归方程
考虑由两个递归方程组成的方程组:
其中, 是格 中的元素; 是定义在该格上的函数。
- 转化为不动点问题
为求解上述方程组,我们可以将其抽象为一个函数的不动点问题:
定义函数 ,其中 表示原格的 “乘积格”,保持偏序结构,函数 形式为:
此时,方程组的解 满足:
即 是函数 的不动点,于是原方程组最小解为 。
不动点定理
IMPORTANT
完全格上的单调函数的不动点集合构成一个非空完全格,且:其中,由不动点构成的非空完全格为 ,其中 构造一个以 “集合 ” 为输入、以 “
对应的不动点” 为输出的函数,于是 表示对应的最小不动点, 表示对应的最大不动点。
TIP不动点定理
证明了不动点存在性,但并未给出求解不动点的方法。
不动点定理
IMPORTANT设 为
完全偏序,若函数 是 连续的,则有:其中, 表示
迭代次数。

TIP不动点定理给出了实际求解不动点的方法:从 的 开始,反复应用函数 进行迭代来构造序列:,该序列的”最小上确界”就是函数 的最小不动点。
满足递增链条件的完全偏序 上的不动点迭代
不动点定理并未要求迭代过程必须在有限步内终止,其核心实际上是通过无穷迭代的极限来定义不动点,而这种极限在多数情况下无法通过实际计算抵达。于是需要更加严格条件来保证不动点迭代的终止性。
IMPORTANT若 上
没有无穷递增链, 是 上的单调函数,那么 迭代序列 将会在有穷时间内收敛于 。
TIP有穷高度的链肯定满足
递增链条件,但是满足递增链条件的链不一定是有穷高度(比如有可能存在不稳定的递减链)。而对 而言存在最小元 ,于是
满足递增链条件的 一定没有无穷递增链。
在一些问题上,如:
- 有穷格:即格中元素个数是有穷的,如
符号格; - 满足递增链条件的无穷格:即格中元素个数是无穷的,但是格的高度是有穷的,如
常量格.
上述定理提供了迭代方法来精确地计算最小不动点,并且保证了迭代计算的终止性。
具体应用
数据流系统
之前我们学习的可用表达式分析和活跃变量分析也属于数据流系统,这里给出其形式化定义:
一个数据流系统 由以下部分组成:
- 有限的(程序)标签集 (此处为 );
- 极值标签集 (此处为 或 );
- 流关系 (此处为 或 );
- 满足递增链条件()的完全格 (带有上确界(LUB)算子 和最小元 );
- 极值标签对应的极值值 ;
- 一组单调传递函数 ,类型为 。
于是我们将可用表达式分析与活跃变量分析映射到上面的形式化定义中:
| 问题 | 可用表达式(Available Expressions) | 活跃变量(Live Variables) |
|---|---|---|
| - |
注意表中标红的部分。对于可用表达式分析,偏序关系 定义为 (即集合包含关系的逆),这里可以这样理解:不动点迭代是 “沿递增链向上” 的过程(即从 出发,每一步 逐步逼近,直到稳定),最终达到的稳定的结果即为最小不动点,因此最终稳定的结果应该是一个精确的结果,反映到可用表达式集合中表现为:集合越小,精度越高。所以 “向上迭代” 需要对应集合从大到小收缩,即从最粗略的 逐步收缩到最精确的最小不动点。于是 “迭代向上”就必须要把偏序 定义为集合的 。
数据流方程组与不动点
数据流方程组()
给定数据流系统 ,其中 (不失一般性)
-
确定方程组(其中 ):
-
被称为解,若:
-
确定变换:
其中
求解该方程组当且仅当它是 的不动点。
通过不动点迭代来求解数据流问题
要点分析
- 是完全格,确保 良定义。
- 由于 是满足 的完全格,因此 也是完全格(其中 当且仅当对所有 ,有 )。
- 传递函数 在 中的单调性,蕴含 在 中的单调性(因为上确界算子 也具有单调性)。
- 因此,(最小)不动点可通过迭代有效计算: 其中 。
- 若 的高度为 的高度为 不动点迭代最多需要 步。

