正则表达式
基本语法
待补充
元字符
有一次笔者遇到了一个问题:要求在一堆字符串中找出所有带有字符”B“的字符串,但是如果“B”后面是“r”除外。熟悉化学的读者可能已经猜到了,没错,就是找出所有带有硼原子的分子,同时不把带有溴原子的分子给误找出来。
有些读者可能会说,简单啊,先找出来所有包含“B”的字符串,再去掉所有包含“Br”的字符串不就可以了?但很可惜这种方法行不通,因为存在这种字符串:O=S(=O)(BCCc1ccncc1)c1ccc(Br)cc1
当时笔者找了很多资料,问了很多人,都没有得到怎么写这个正则表达式的方法。直到一个偶然的机会,看到了一条网上的回答提到了正向否定预查,这才解决了这个问题。
字符 | 描述 |
---|---|
(?:pattern) | 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 “或” 字符 (|) 来组合一个模式的各个部分是很有用。例如, ‘industr(?:y|ies) 就是一个比 ‘industry|industries’ 更简略的表达式。 |
(?=pattern) | 正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,”Windows(?=95|98|NT|2000)”能匹配”Windows2000”中的”Windows”,但不能匹配”Windows3.1”中的”Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
(?!pattern) | 正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如”Windows(?!95|98|NT|2000)”能匹配”Windows3.1”中的”Windows”,但不能匹配”Windows2000”中的”Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
(?<=pattern) | 反向(look behind)肯定预查,与正向肯定预查类似,只是方向相反。例如,”`(?<=95 |
(?<!pattern) | 反向否定预查,与正向否定预查类似,只是方向相反。例如”`(?<!95 |
替换
在IDE的替换(Ctrl+R)功能中,也可以使用正则表达式来进行查找替换。将想要保存起来用于替换的内容用小括号括起来,作为一个组。调用时则使用$符号。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Chao Pang的个人主页!