正则表达式学习

\b是正则表达式规定的一个特殊代码(好吧,某些人叫它元字符,metacharacter),代表着单词的开头或结尾,也就 是单词的分界处。虽然通常英文的单词是由空格,标点符号或者换行来分隔的,但是\b并 不匹配这些单词分隔字符中的任何一个,它只匹配一个位置。如(\bhi\b,him,history,high)。

####.是另一个元字符,匹配除了换行符以 外的任意字符。 ####*同样是元字符,不过它代表的不是字符,也不是位置,而是数量——它 指定前边的内容可以连续重复使用任意次以使整个表达式得到匹配。 ####换行符就是’\n’,ASCII编码为10(十六进制0x0A)的字符。 ####\d是个新的元字符,匹配一位数字 (0,或1,或2,或……)。0\d{2}-\d{8}。 这里\d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)。

常用的元字符

  • . 匹配除换行符以外的任意字符
  • \w 匹配字母或数字或下划线或汉字
  • \s 匹配任意的空白符
  • \d 匹配数字
  • \b 匹配单词的开始或结束
  • ^ 匹配字符串的开始
  • $ 匹配字符串的结束

.常用的限定符

    • 重复零次或更多次
    • 重复一次或更多次
  • ? 重复零次或一次
  • {n} 重复n次
  • {n,} 重复n次或更多次
  • {n,m} 重复n到m次

(?0\d{2}[) -]?\d{8}:像(010)88886666,或022-22334455, 或02912345678等

分支条件:|,表示或

分组:(expression){n},表示括号内的表达式重复几次。如:(\d{1,3}.){3}