1.正则表达式笔记
必须记住的几个符号和组合
. 匹配除换行符以外的所有字符一次
? 匹配 0 次或一次
* 匹配 0 次或多次
+ 匹配 1 次或多次
使用范例:
x? 匹配 0 次或一次 x 字符串
x* 匹配 0 次或多次 x 字符串,但匹配可能的最少次数,*必须跟随一个字符后面,不能单独出现
x+ 匹配 1 次或多次 x 字符串,但匹配可能的最少次数,+必须跟随一个字符后面,不能单独出现
.* 匹配 0 次或一次的任何字符
.+ 匹配 1 次或多次的任何字符
界定范围和位置
^ 匹配字符开头的字符
$ 匹配字符结尾的字符
{m} 匹配刚好是 m 个 的指定字符串
{m,n} 匹配在 m个 以上 n个 以下 的指定字符串
{m,} 匹配 m个 以上 的指定字符串
[] 匹配符合 [] 内的字符
[^] 匹配不符合 [] 内的字符
[0-9] 匹配所有数字字符
[a-z] 匹配所有小写字母字符
[^0-9] 匹配所有非数字字符
[^a-z] 匹配所有非小写字母字符
\b 匹配以英文字母,数字为边界的字符串
\d 匹配一个数字的字符,和 [0-9] 语法一样
\w 英文字母或数字的字符串,和 [a-zA-Z0-9] 语法一样
\s 空格,和 [\n\t\r\f] 语法一样
\B 匹配不以英文字母,数值为边界的字符串
\D 非数字,其他同 \d
\S 非空格,和 [^\n\t\r\f] 语法一样
\W 非英文字母或数字的字符串,和 [^a-zA-Z0-9] 语法一样
a|b|c 匹配符合a字符 或是b字符 或是c字符 的字符串
abc 匹配含有 abc 的字符串
转义: 使用\ 来取消元字符的特殊意义。包括 . * + \ [ ] { } ( ) ^ $
?的多重定义-懒惰限定符
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复
断言匹配: 有4个
(?=exp) 零宽先行断言,它匹配文本中的某些位置,这些位置的后面能匹配给定的后缀exp。
比如/b/w+(?=ing/b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),
zc:根据后缀匹配而已。和$区别在于$是行尾匹配。
如I'm singing while you're dancing. 它会匹配sing和danc。
(?<=exp) 零宽后行断言,它匹配文本中的某些位置,这些位置的前面能给定的前缀匹配exp。
如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),
zc:匹配前缀。
例如在查找reading a book时,它匹配ading。
(?!exp) 零宽负向先行断言。会匹配后缀exp不存在的位置。
zc: 若不是exp或者没有则匹配,用^在于存在一个不匹配某个exp的其他字符,而!保证不匹配exp外可以不跟任何字符。
如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字。 也可以是只有前3位数字。比较\d{3}(^\d)有区别.
(?<!exp) 零宽负向后行断言。查找前缀exp不存在的位置.
条件匹配: (zc:这个复杂,但也不复杂。属于perl中的扩展部分,略)
Conditional Expressions
(?(condition)yes-pattern|no-pattern)
attempts to match yes-pattern if the condition is true, otherwise attempts to match no-pattern.
(?(condition)yes-pattern) attempts to match yes-pattern if the condition is true, otherwise fails.
condition may be either a forward lookahead assert, or the index of a marked sub-expression
(the condition becomes true if the sub-expression has been matched).
2. boost中分有match,search,replace,在vc中,其正则表达式以上\表示需要双反斜杠表示。其中在
match是匹配整个句子,在实际应用中,必须是构造整个句子的正则表达,而在一篇文章匹配的话,以search用的
比较多,如下见一个片段。没有用到std,可见用boost在匹配查询时,其比较麻烦:
void test123()
{
CString str = "singing while youre dancing.";
regex ee_all("\\b\\w+\\b");
cmatch result;
CString ret;
while(regex_search(str, result, ee_all,match_perl)){
for(int i=0; i < result.size(); i++){
ret = result[i].str().c_str();
AfxMessageBox(ret);
str = result[i].second;
}
}
}