首页 | 官方网站   微博 | 高级检索  
     

基于广义后缀树结合过滤因子的正则表达式匹配算法
引用本文:林婧,何震瀛.基于广义后缀树结合过滤因子的正则表达式匹配算法[J].计算机应用与软件,2022,39(1):266-270,286.
作者姓名:林婧  何震瀛
作者单位:复旦大学软件学院 上海 201203;复旦大学上海市数据科学重点实验室 上海 200433;复旦大学计算机科学技术学院 上海 201203;复旦大学上海市数据科学重点实验室 上海 200433
基金项目:国家重点研发计划项目(2018YFB1004404)。
摘    要:为了提高正则表达式在文本集合上的匹配效率,提出一种基于广义后缀树与过滤因子相结合的正则表达式匹配技术。根据给定的文本集合构建广义后缀树,通过在广义后缀树上定位过滤因子得到有效的候选匹配集合,利用过滤因子的序列信息进一步过滤候选集合,进而对候选集合中的字符串进行验证,得到匹配结果。通过在真实的数据集上进行实验,证明了该算法能够有效地提高正则表达式的匹配性能。

关 键 词:正则表达式  算法性能  过滤技术

REGULAR EXPRESSION MATCHING ALGORITHM BASED ON GENERALIZED SUFFIX TREE COMBINE FILTER FACTOR
Lin Jing,He Zhenying.REGULAR EXPRESSION MATCHING ALGORITHM BASED ON GENERALIZED SUFFIX TREE COMBINE FILTER FACTOR[J].Computer Applications and Software,2022,39(1):266-270,286.
Authors:Lin Jing  He Zhenying
Affiliation:(School of Software,Fudan University,Shanghai 201203,China;School of Computer Science,Fudan University,Shanghai 201203,China;Shanghai Key Laboratory of Data Science,Fudan University,Shanghai 200433,China)
Abstract:To improve the matching performance of regular expression on text sets,a new approach that leverages generalized suffix tree and filter factors is proposed.It firstly used generalized suffix tree to construct an index for the given text set.Secondly,it obtained the candidate matching set by leveraging the index structure to locate the filter factors.Then,experiments on real datasets show that the matching algorithm based on generalized suffix tree and filter factors can effectively improve the matching performance of regular expressions.
Keywords:Regular expression  Performance  Filter technical
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号