可用表达式分析#
可用表达式分析(Available Expression)是一种前向、Must 类型的流敏感数据流分析,用于判断程序中的某个点上,哪些表达式的计算结果在后续执行中可能被使用且值不会改变。
核心定义#
IMPORTANT 可用表达式分析确定每个程序点处哪些表达式之前肯定已被计算出来了,且在计算出来后所有到达该程序点的路径上再也未被修改过。
根据定义,表达式 e 在被计算出来后,所有到达程序点 p 的路径上,表达式 e 中的所有变量都未被修改,这样的表达式 e 是程序点 p 处的可用表达式。需要补充一点,所有可能到达程序点 p 的执行路径中,都要有已被计算的表达式 e 的”有效结果”,但是不同路径上,允许计算得到的结果不同。
TIP 可用表达式分析是公共子表达式消除的基础,后者使用保存了公共子表达式最新值的变量来替换公共子表达式,这常用于编译优化中。
举个例子:
[x:=a+b]1;[y:=a∗b]2;while [y>a+b]3 do[a:=a+1]4;[x:=a+b]5 在这个例子中,关注程序点 3 处,表达式 a+b 是可用表达式。在到达程序点 3 的所有路径:1→2→3 与 4→5→3,在这两个路径上都计算了表达式 a+b,且由于在程序点 4 处修改了表达式 a+b 所包含的变量 a,两条路径上的表达式 a+b 的”有效计算结果”并不相同。
而关注程序点 5 处,其必经路径 4→5 上变量 a 被修改,因此表达式 a+b 在程序点 5 处并非可用表达式。
经过上面的分析,程序可以优化为:
[x:=a+b]1;[y:=a∗b]2;while [y>x]3 do[a:=a+1]4;[x:=a+b]5形式化描述#
kill 函数#
IMPORTANT 如果表达式 a 中任何变量在块 B 中被修改了,则称表达式 a 在块B 中被 kill 了。
TIP 块 的定义见数据流分析基础。
kill 函数定义为:
killAE:Blkc→2CExpc 其中,下标 AE 即表达式(Arithmetic Expressions),Blkc 表示程序 c 中的块集合,CExpc 表示程序 c 中的复杂算术表达式集合——CExp 是 AExp 子集,表示含有算术操作的表达式,即:
c::=a1+a2∣a1−a2∣a1∗a2∈CExp 对于 WHILE 语言,kill 函数定义为:
killAE([skip]l)killAE([x:=a]l)killAE([b]l):=:=:=∅{a′∈CExpc∣x∈Vara′}∅ 其中,Vare 表示表达式 e 中的所有变量。(2) 表示,对于赋值语句 [x:=a]l,包含变量 x 的所有表达式都被 kill 了。
genetate 函数#
IMPORTANT 如果表达式 a 在块 B 中被计值了且 a 中所有变量未被修改,则称表达式 a 在块 B 中被 generate 了。
其中,“被计值”表示表达式被执行计算并得到结果的过程。需要注意的是,表达式被计值还不能认为被 generate,还需要满足表达式中的变量未被修改,如:
x:=x+1; 在这条赋值语句中,表达式 x+1 被计值了,但是表达式中包含被赋值的变量,于是在这条赋值语句执行后,表达式 x+1 的值实际上已经被修改了,所以不能认为被 generate 了。
generate 函数定义为:
genAE:Blkc→2CExpc 在 WHILE 语言中,generate 映射定义为:
genAE([skip]l)genAE([x:=a]l)genAE([b]l):=:=:=∅{a∣x∈/Vara}{CExpb}killAE / genAE 示例#
还是上面的例子:
c=[x:=a+b]1;[y:=a∗b]2;while [y>a+b]3 do[a:=a+1]4;[x:=a+b]5 首先,CExpc={a+b,a∗b,a+1},于是根据 killAE 和 genAE 定义有:
| Labc | killAE(B′) | genAE(B′) |
|---|
| 1 | ∅ | {a+b} |
| 2 | ∅ | {a∗b} |
| 3 | ∅ | {a+b} |
| 4 | {a+b,a∗b,a+1} | ∅ |
| 5 | ∅ | {a+b} |
根据定义 (5),位置标签 4 处不能 generate 表达式 a+1。
建立数据流方程组#
分析过程本身通过建立一个数据流方程组来定义。对于可用表达式分析,下面是基于控制流的数据流方程形式化定义:
对程序命令集合 Cmd 中的命令语句 c,有:
AEl={∅⋂{φl′(AEl′)∣(l′,l)∈flow(c)}if l=init(c)otherwiseNOTE 这里 (l′,l)∈flow(c) 表明 l′ 是 l 前驱。
其中,映射 φl′:2CExpc→2CExpc 定义为:
φl′(A):=(A∖killAE(Bl′))∪genAE(Bl′) 这里的 ∖ 表示集合的差运算符。映射 φl′(A) 表示从集合 A 中先移除属于 killAE 中的元素,再加入 genAE 中的元素,即”先杀死失效表达式,再加入新生成表达式”。
IMPORTANT 需要特别注意,AEl 表示块 Bl 的入口处的可用表达式集合,而对于程序入口处,即 l=init(c),可用表达式集合 AEl=∅。

还是前面的代码示例:
c=[x:=a+b]1;[y:=a∗b]2;while [y>a+b]3 do[a:=a+1]4;[x:=a+b]5 我们已经求解过 killAE 和 genAE:
| Labc | killAE(B′) | genAE(B′) |
|---|
| 1 | ∅ | {a+b} |
| 2 | ∅ | {a∗b} |
| 3 | ∅ | {a+b} |
| 4 | {a+b,a∗b,a+1} | ∅ |
| 5 | ∅ | {a+b} |
根据可用表达式的数据流方程组形式化定义有:
AE1=∅AE2=φ1(AE1)=AE1∪{a+b}AE3=φ2(AE2)∩φ5(AE5)=(AE2∪{a∗b})∩(AE5∪{a+b})AE4=φ3(AE3)=AE3∪{a+b}AE5=φ4(AE4)=AE4∖{a+b,a∗b,a+1} 这类集合方程组遵循迭代求解算法,从初始值开始,反复迭代更新各程序点的集合,直到所有集合不再变化,即收敛。迭代求解上面的方程组:
-
第1次迭代:
- AE1 固定为 ∅(入口点不更新)。
- AE2=φ1(AE1)=AE1∪{a+b}=∅∪{a+b}={a+b}。
- AE5 依赖 AE4(当前 AE4=U):
AE5=φ4(AE4)=AE4∖{a+b,a∗b,a+1}=U∖U=∅。
- AE3 依赖 AE2 和 AE5:
AE3=(AE2∪{a∗b})∩(AE5∪{a+b})=({a+b}∪{a∗b})∩(∅∪{a+b})={a+b,a∗b}∩{a+b}={a+b}。
- AE4=φ3(AE3)=AE3∪{a+b}={a+b}∪{a+b}={a+b}。
本次迭代后:AE2={a+b},AE3={a+b},AE4={a+b},AE5=∅(均发生变化)。
-
第2次迭代:
- AE2 基于 AE1 不变:仍为 {a+b}。
- AE4 基于 AE3={a+b}:仍为 {a+b}。
- AE5 基于 AE4={a+b}:
AE5={a+b}∖{a+b,a∗b,a+1}=∅(不变)。
- AE3 基于 AE2={a+b} 和 AE5=∅:结果仍为 {a+b}(不变)。
第2次迭代后,所有集合均未变化,达到收敛。收敛后的集合即为方程组的解:
AE1=∅AE2={a+b}AE3={a+b}AE4={a+b}AE5=∅ 注意:方程组的解不一定唯一,不唯一则选择最大的,可用表达式集合越大,可做的优化也就更多。
NOTE 显然,可用表达式分析:流敏感、前向分析以及Must分析。