JS 正则表达式

🌙
手机阅读
本文目录结构

RegExp 构造函数创建了一个正则表达式对象,用于将文本与一个模式匹配。

有关正则表达式的介绍,请阅读 JavaScript 指南中的正则表达式章节。

var regex1 = /\w+/;
var regex2 = new RegExp('\\w+');

console.log(regex1);
// expected output: /\w+/

console.log(regex2);
// expected output: /\w+/

console.log(regex1 === regex2);
// expected output: false

语法

字面量,构造函数和工厂符号都是可以的:

/pattern/flags
new RegExp(pattern [, flags])
RegExp(pattern [, flags])

参数

pattern

正则表达式的文本。

flags

如果指定,标志可以具有以下值的任意组合:

g

全局匹配;找到所有匹配,而不是在第一个匹配后停止

i

忽略大小写

m

多行;将开始和结束字符(^ 和 $)视为在多行上工作(也就是,分别匹配每一行的开始和结束(由 \n 或 \r 分割),而不只是只匹配整个输入字符串的最开始和最末尾处。

u

Unicode; 将模式视为 Unicode 序列点的序列

y

粘性匹配;仅匹配目标字符串中此正则表达式的 lastIndex 属性指示的索引(并且不尝试从任何后续的索引匹配)。

s

dotAll 模式,匹配任何字符(包括终止符 ‘\n’)。

描述

有两种方法来创建一个 RegExp 对象:一是字面量、二是构造函数。要指示字符串,字面量的参数不使用引号,而构造函数的参数使用引号。因此,以下表达式创建相同的正则表达式:

/ab+c/i;
new RegExp('ab+c', 'i');
new RegExp(/ab+c/, 'i');

当表达式被赋值时,字面量形式提供正则表达式的编译(compilation)状态,当正则表达式保持为常量时使用字面量。例如当你在循环中使用字面量构造一个正则表达式时,正则表达式不会在每一次迭代中都被重新编译(recompiled)。

而正则表达式对象的构造函数,如 new RegExp(‘ab+c’) 提供了正则表达式运行时编译(runtime compilation)。如果你知道正则表达式模式将会改变,或者你事先不知道什么模式,而是从另一个来源获取,如用户输入,这些情况都可以使用构造函数。

从 ECMAScript 6 开始,当第一个参数为正则表达式而第二个标志参数存在时,new RegExp(/ab+c/, ‘i’) 不再抛出 TypeError (“当从其他正则表达式进行构造时不支持标志”)的异常,取而代之,将使用这些参数创建一个新的正则表达式。

当使用构造函数创造正则对象时,需要常规的字符转义规则(在前面加反斜杠 \)。比如,以下是等价的:

var re = new RegExp("\\w+");
var re = /\w+/;

正则元字符

参考:XXX

属性

RegExp.prototype

允许为所有正则对象添加属性。

RegExp.length

RegExp.length 值为 2。

Properties inherited from Function: arity, caller, constructor, length, name

方法

全局对象 RegExp 自身没有方法,不过它会继承一些方法通过原型链

Methods inherited from Function:
apply, call, toSource, toString

RegExp 实例

属性

查看已废弃的 RegExp 属性

注意,RegExp 对象的几个属性既有完整的长属性名,也有对应的类 Perl 的短属性名。两个属性都有着同样的值。JavaScript 的正则语法就是基于 Perl 的。

RegExp.prototype.constructor

创建该正则对象的构造函数。

RegExp.prototype.global

是否开启全局匹配,也就是匹配目标字符串中所有可能的匹配项,而不是只进行第一次匹配。

RegExp.prototype.ignoreCase

在匹配字符串时是否要忽略字符的大小写。

RegExp.prototype.lastIndex

下次匹配开始的字符串索引位置。

RegExp.prototype.multiline

是否开启多行模式匹配(影响 ^ 和 $ 的行为)。

RegExp.prototype.source

正则对象的源模式文本。

RegExp.prototype.sticky

是否开启粘滞匹配。

Properties inherited from Object:

parent, proto

方法

查看已废弃的 RegExp 方法

RegExp.prototype.exec()

在目标字符串中执行一次正则匹配操作。

RegExp.prototype.test()

测试当前正则是否能匹配目标字符串。

RegExp.prototype.toSource()

返回一个字符串,其值为该正则对象的字面量形式。覆盖了 Object.prototype.toSource 方法。

RegExp.prototype.toString()

返回一个字符串,其值为该正则对象的字面量形式。覆盖了 Object.prototype.toString() 方法。

Methods inherited from Object:

defineGetter, defineSetter, hasOwnProperty, isPrototypeOf, lookupGetter, lookupSetter, noSuchMethod, propertyIsEnumerable,

toLocaleString, unwatch, valueOf, watch

例子

例子:使用正则改变数据结构

下例使用 replace 方法 (继承自 String)去匹配姓名 first last 输出新的格式 last, first。脚本中使用 $1 和 $2 指明括号里先前的匹配。

var re = /(\w+)\s(\w+)/;
var str = "John Smith";
var newstr = str.replace(re, "$2, $1");
print(newstr);

显示 “Smith, John”.

例子:在多行中使用正则表达式

var s = “Please yes\nmake my day!”; s.match(/yes.*day/); // Returns null s.match(/yes[^]*day/); // Returns ‘yes\nmake my day’

例子:使用带有 ”sticky“ 标志的正则表达式

该例展示了,如何在正则表达式上使用 sticky 标志,用来匹配多行输入的单独行。

var text = "First line\nsecond line";
var regex = /(\S+) line\n?/y;

var match = regex.exec(text);
print(match[1]);  // prints "First"
print(regex.lastIndex); // prints 11

var match2 = regex.exec(text);
print(match2[1]); // prints "Second"
print(regex.lastIndex); // prints "22"

var match3 = regex.exec(text);
print(match3 === null); // prints "true"

可以使用 try { … } catch { … } 来测试运行时(run-time)是否支持 sticky 标志。这种情况下,必须使用 eval(…) 表达式或 RegExp(regex-string, flags-string) 语法(这是由于 /regex/flags 表示法将会在编译时刻被处理,因此在 catch 语句块处理异常前就会抛出一个异常。例如:

var supports_sticky;
try { RegExp('','y'); supports_sticky = true; }
catch(e) { supports_sticky = false; }
alert(supports_sticky); // alerts "false" in Firefox 2, "true" in Firefox 3+

例子:使用正则表达式和 Unicode 字符

正如上面表格提到的,\w 或 \W 只会匹配基本的 ASCII 字符;如 ‘a’ 到 ‘z’、 ‘A’ 到 ‘Z’、 0 到 9 及 ‘_’。为了匹配其他语言中的字符,如西里尔(Cyrillic)或 希伯来语(Hebrew),要使用 \uhhhh,“hhhh” 表示以十六进制表示的字符的 Unicode 值。下例展示了怎样从一个单词中分离出 Unicode 字符。

var text = "Образец text на русском языке";
var regex = /[\u0400-\u04FF]+/g;

var match = regex.exec(text);
print(match[1]);  // prints "Образец"
print(regex.lastIndex);  // prints "7"

var match2 = regex.exec(text);
print(match2[1]);  // prints "на" [did not print "text"]
print(regex.lastIndex);  // prints "15"

// and so on

这里有一个外部资源,用来获取 Unicode 中的不同区块范围:Regexp-unicode-block

例子:从 URL 中提取子域名

var url = "http://xxx.domain.com";
print(/[^.]+/.exec(url)[0].substr(7)); // prints "xxx"

例子:dotAll flag 使用

/foo.bar/u.test('foo\nbar');
// → false

/foo.bar/su.test('foo\nbar');
// → true

规范

Specification Status Comment
ECMAScript 1st Edition. Implemented in JavaScript 1.1 Standard Initial definition.
ECMAScript 5.1 (ECMA-262) RegExp Standard
ECMAScript 2015 (6th Edition, ECMA-262)RegExp Standard

AXIHE / 精选资源

浏览全部教程

面试题

学习网站

前端培训
自己甄别

前端书籍

关于朱安邦

我叫 朱安邦,阿西河的站长,在杭州。

以前是一名平面设计师,后来开始接接触前端开发,主要研究前端技术中的JS方向。

业余时间我喜欢分享和交流自己的技术,欢迎大家关注我的 Bilibili

关注我: Github / 知乎

于2021年离开前端领域,目前重心放在研究区块链上面了

我叫朱安邦,阿西河的站长

目前在杭州从事区块链周边的开发工作,机械专业,以前从事平面设计工作。

2014年底脱产在老家自学6个月的前端技术,自学期间几乎从未出过家门,最终找到了满意的前端工作。更多>

于2021年离开前端领域,目前从事区块链方面工作了