正则表达式的原理和个人经验

正则表达式是程序员非常常用的工具，利用它对数据进行查找和抽取非常高效和方便，所以很有必要对其有较为深入的了解。

正则使用的时候一定要注意他的自动机特性，具体来说就是每个节点只会关注他下一个输入让他达到的状态。有个比较经典的trap，用正则a*?b去匹配aab，粗看一下肯定以为匹配结果会是ab，其实不然。他先去匹配第一个a，然后去判断下一个是不是b，如果不是，那么再看是不是还是a，所以结果是aab。

正则表达式有NFA和DFA两种实现，相比较而言，DFA的效率更高，而NFA的实现比较简单且空间占用比较小。不管哪种实现，其实功能上都没有什么区别，但需要注意的是不同的正则表达式的具体实现上可能会不一样，比如用java写的正则在grep下就不一定适用，其实就是较为复杂的正则可能会出问题。具体的原理可以看一下之前转的文章。

另外使用的时候有几个经验：

1. 对任意字符进行匹配，可以使用[\s\S]，这个是比较常用的习惯，虽然你还能写出很多其他一样功能的正则。

2. 利用环视来查看匹配结果的前后特征。这个在抽取且不用group的时候会经常用到，这个最好是要知道怎么用。

3. 去除不需要的group。这个经常会在写取固定的group值的时候会遇到这个麻烦，前面有个匹配不得不用到括号，这样会比预期多出来一个group，那么可以使用(?:xxx)来声明这个括号不是一个group。

4. 性能问题。其实我个人并不太关注正则表达式的优化，但是有一点是必须要注意的，香港虚拟主机，就是不要使用贪婪的嵌套，美国空间，网站空间，这个性能是很低的。

5. 用使用正则一样的环境来验证正则，比如java的程序需要调用正则，用写个java测试程序来验证。我做过一个简单java正则验证的GUI工具，用了很多年还挺顺手的，放到附件中给大家分享一下吧。

总的来说，使用正则不要硬搬，关键是掌握原理、灵活运用。希望大家都能把正则用的得心应手。

最后附一个常用正则的页面，也是很久以前在网上找的。里面对中文的匹配还是挺有用的。

我是在旅行吗？也许是的。

相关文章：

你感兴趣的文章：

标签云：