hive正則表達式-白红宇

hive正則表達式

阅读量：7103 次

发布时间：2019-06-28

本文共 790 字，大约阅读时间需要 2 分钟。

hive中实现正則表達式，与java中的正則表達式有所差别：

这里经过探索总结了一些：

hive中的正则能够用，可是有所差别，差别在于原来的‘\’ 转义，这里变成了双斜杠了‘\\’

hive中的正则解析函数：regexp_extract; 比如：‘匹配 10.122.248’

select regexp_extract(host,'(^[\\w]+)\\.([\\w]+)\\.([\\w]+)',0) aa from browsewebpagelog where dt like '20140630%';

第一參数：要处理的字段，第二參数须要匹配的正則表達式。第三个參数:0是显示与之匹配的整个字符串，1,是显示第一个括号中面的，2是显示第二个括号中面的字段...

语法: regexp_extract(string subject, string pattern, int index)

返回值: string

说明：将字符串subject依照pattern正則表達式的规则拆分，返回index指定的字符。

注意。在有些情况下要使用转义字符

举例：

hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 1) from dual;

the

hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 2) from dual;

bar

hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 0) from dual;

foothebar