正则表达式到Follow自动机的并行转换算法

需积分: 9 51 浏览量更新于2024-08-12 收藏 868KB PDF 举报

"该研究探讨了正则表达式到Follow自动机的并行化构造算法，通过Thompson自动机、Glushkov自动机的转换以及等价状态合并，旨在生成规模更小、效率更高的有限自动机。" 正则表达式在计算机科学中扮演着重要角色，特别是在编译技术与模式匹配中。Thompson自动机、Glushkov自动机和Follow自动机是三种常用的有限自动机，它们在构建正则表达式的非确定性有限自动机（NFA）时各有优势。Thompson自动机以其结构简单和易于并行计算的特点被广泛使用。然而，为了优化性能和节省系统资源，通常需要将正则表达式转换为具有最少状态的NFA。本研究提出了一个新的并行算法，首先从正则表达式构建Thompson自动机，这一步骤涉及到将正则表达式的结构转化为一种图形表示。Thompson自动机中可能存在ξ边，这些边不改变语言的接受性质，但可能导致状态数量过多。因此，算法的下一步是消除这些ξ边，这一过程有助于简化自动机结构，同时保持语言识别能力不变。此操作实际上实现了从Thompson自动机到Glushkov自动机的转换。Glushkov自动机通常具有更少的状态，但可能不直接支持并行计算。随后，算法对Glushkov自动机的状态进行等价性检查，并合并等价状态，这一过程可以进一步减少自动机的状态数量。最终的目标是得到一个规模更小的有限自动机，即Follow自动机，它在保持与原正则表达式等价的同时，具有最小化的状态集，从而提高执行效率。论文中提到了利用位并行算法和倒置自动机的概念来加速这一转换过程。位并行算法是一种利用计算机硬件的位运算能力来提高计算速度的技术，而倒置自动机M_R则用于辅助确定原Thompson自动机M中状态间的关系。通过这样的并行化处理，算法能够更有效地处理大型正则表达式，适用于多处理机环境和并行处理任务。在实际应用中，这种并行化算法对于提升编译器的性能、优化模式匹配操作以及在资源受限的环境中实现高效计算都具有重要意义。通过实例模拟并行转化过程，作者验证了该方法的有效性和可行性。这一研究不仅丰富了正则表达式转换理论，也为并行编译技术提供了新的思考方向。

第

卷第

期

2010

年

月

中原

工学

院

学

报

Feb.

, 2010

JOURNAL OF ZHONGYUAN U

VERSITY

TECHNOLOGY

文章编号

1671- 6906( 2010)

01-

0064- 04

构造正则表达式的

自动机并行算法研究

杨瑞敏任

(

中原工

学

院

河南工业大

学

设计艺术

学

院，郑州

450007)

摘

要

给出了

一

种从正则表达式到

自动机的并行化算法.先构造正则表达式的

ompso

自动

机

，再对其

消除巳边

，

实现

Tho

自动

机到

Glushkov

自动

机的转换

，

然后对

sh k

自动机的

等

价状态进行合并

，从而得到

一

种规模更小的有限自动机，即

自动机，最后以实例模拟其并行转化过程

关键词，

有限自动机;状态;正则表达式;并行化

中图分类号

TP391

文献标识码

001:

10.

3969/j.

sn. 1671-

6906.2010.0

017

随着计算机技术的发展多处理机的环境和井行

处理

已

成为计

算

机

学科

的研究热点

[1]

在各

种领域得

到广泛应用.正则表达式(

RE)

在编译

技术和模式匹

配中占有

重要

地位[

]

而编译技术是整个计算机软件

系统的基础，效率的高低决定着整个系统的运行速度.

构造正则

表达

式的

NFA

成为其关键环节[巧，而目前

广

泛应用

的有

Thompson

、

Glushkov

和

种有

限

自动

机，它们的规模逐渐

变

小[

]

在等

价的前提下，

自动

机的状态越少，越

节省系统资源

.因此，为正则

表

达式建立

一

个较小的

有

限

自动

机(

NFA)

成

为编译系

统的关键技术.

正则

表达

式到

NFA

的井行转换成为井行编译研

究领域的重要分支.目前正则表达式直接转换为

旧

hkov

自动

机的

算法已经

出

现

[4 -

但是

Thomp

自动

机更有利于并行计

算.

本文采用的

方法是

先

构造正则

表达

式带己的

NFA

，即

Thompson

自动

机[

再

对其消除巳边，实现

Thompson

自动

机到

Glushkov

自动

机的并行转换.最后对

Glushkov

自动

机的

等

价状态进行

合并

从而得到最小的

NFA

即

Follo

自动机.在文献

[

中，

YAMAMOTO

利

用位

井行算法，引入

Thomp

自动

机

的倒

置自动

机

，利用函数

Bitset

来确定

中各个状态之间的关

系，逐渐消除

巳

边，在

产

生

Glushkov

自动

机的

函数

时，引入矩阵

T[aJ

，

来确定各个状态的输入

字符.

对

收稿日期

2009-

11-

作者简介

:杨瑞敏

(

1983-

)，女

，

河南

临颖人

，

硕士

于大规模的自动机来说，该方法显得非常笨重

事实

上

，根据

Thompson

自动

机和

Glushkov

自动

机本

身

的性质以及各个状态之间的关系，本文利用

问，

函数直接消除

巳

边，根据

hko

自动机的性质

(下文)，省略矩阵

T[aJ

，

可以

直接

产

生

的

Glushkov

自动机，从而

大大节省

了运

算

的时间和开销.

另

外，

在

文献[

中，并没

有直接

利用

Glushkov

自动

机的结

果，

产生

的

自动

机，对于如何

寻

找

Glushkov

自动

机的

等

价类，没

有给

出

系统的介绍.本文通过构

造

hko

自动机的状态关系表来寻找它的等价

类，简单明了，大

大减

少了

在各

个函数间

寻

找等

价类的

时间.

理论基础

正则表达式

定义

设

为

一

字母表，在该字母

表中正则

表达

式定义如下:

(1)

表达

式也可空

串)和

α(

)分别表示空集、

集合

/习和

集合

/α}

(2)

假如正

则

表达式

和

分别

表示集合

和

品，那么

(rl

斗、

(

r 1

和

(r;

)

分别表示集合

井)

、

R1R

连接

和

;

(

闭包)

正则表达式和有限自动机的等价性

(1)对于任何

有

限

自动

机

，

都存

在

一

个正则

表

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38664612

粉丝: 6
资源: 888

正则表达式到Follow自动机的并行转换算法

THOMPSON 算法的实现

正则表达式与自动机的转换

构造正则表达式的简化DFA算法

编译原理：形式化以及确定有限自动机原理

OpenCV部署YOLOv5-pose人体姿态估计（C++和Python双版本）.zip

ARIMA+Transformer+LSTM心跳时间序列预测模型源码+设计文档（课设新开发项目）.zip

体育馆管理系统(代码+数据库+LW)

基于HTML、TypeScript、JavaScript的全面运动健康手环App设计源码

2021科大讯飞车辆贷违预测大赛冠军源码+全部资料.zip

【锂电池剩余寿命预测】CNN卷积神经网络锂电池剩余寿命预测，马里兰大学锂电池数据集（Pytorch完整源码和数据）

最新资源