Esper学习之七:EPL语法(三)

转载请注明出处:

国庆七天,本想出去玩玩,可是哪里都是人,所以还是家里蹲吧。上篇说到了Select Clause和From Clause,今天这篇就说说Aggregation,Group by,Having和Output Clause。先预告一下,由于例子比较多,所以篇幅会有些长,需要各位耐心观看哦。

1.Aggregation

和SQL一样,EPL也有Aggregation,即聚合函数。语法如下:

aggregate_function([all|distinct] expression)aggregate_function就是聚合函数的名字,比如avg,sum等。expression通常是事件流的某个属性,也可以是不同事件流的多个属性,或者是属性和常量、函数之间的运算。举例如下。// 查询最新5秒的Apple的平均价格select avg(price) as aPrice from Apple.win:time(5 sec)// 查询最新10个Apple的价格总和的两倍select sum(price*2) as sPrice from Apple.win:length(10)// 查询最新10个Apple的价格,并用函数计算后再算平均值select avg(Compute.getResult(price)) from Apple.win:length(10)函数只能是静态方法,普通方法不可用。即使是事件流里包含的静态方法,也必须用“类名.方法名”的方式进行引用。

可以使用distinct关键字对expression加以约束,表示去掉expression产生的重复的值。默认情况下为all关键字,即所有的expression值都参与聚合运算。例如:

// 查询最新5秒的Apple的平均价格select avg(distinct price) as aPrice from Apple.win:time(5 sec)// 假如:5秒内进入了三个Apple事件,price分别为2,1,2。则针对该EPL的平均值为(2+1)/2=1.5。因为有distinct的修饰,所以第二个2不参与运算,事件总数即为2,而不是3。以上就是聚合函数的使用方法,除此之外需要注意一下几点

1.聚合函数能用于Select和Having,但是不能用于Where

2.sum,avg,media,stddev,avedev只能计算数值,至于media,stddev和avedev代表什么意思,请自行百度。

3.Esper会忽略expression为null不让参与聚合运算,但是count函数除外,即使是null也认为是一个事件。如果事件流集合中没有包含任何事件,或者包含的事件中用于聚合计算的expression都是null(比如收集5秒内进入的事件即为一个事件流集合),则所有聚合函数都返回null。

2.Group by

Group by通常配合聚合函数使用。语法和SQL基本一样,产生的效果就是以某一个或者多个字段进行分组,然后使聚合函数作用于不同组的数据。简单语法如下:

group by aggregate_free_expression [, aggregate_free_expression] [, …]使用Group by要注意一下几点:

1.Group by后面的内容不能包含聚合函数

2.Group by后面的内容不能是之前select子句中聚合函数修饰的属性名

3.通常情况要保证分组数量有限制,以防止内存溢出。但是如果分组分了很多,就需要使用@Hint加以控制。

2.1.Group by基本用法

针对上面的第三点,后面再说,先举几个例子说明下简单用法:

// 根据color和size来对10个Apple事件进行分组计算平均priceselect avg(price) as aPrice, color, size from Apple.win:length_batch(10) group by color,size该句子遵从SQL的标准,如果某个事件的color和size和之前进入的事件的一样,则归为一组,否则新建一组,并计算平均price// 根据size来对10个Apple事件进行分组计算平均price和colorselect avg(price) as aPrice, color, size from Apple.win:length_batch(10) group by size

可以发现,group by的对象只有size,而select中color不聚合,则生成的结果时,聚合函数会根据相同的size分组进行平均price的计算,但是color不是分组条件,所以color有多少个就有多少组,即使存在一样的color也不会影响分组数量(实际上就是不分组),但一定记住,,聚合函数还是会根据分组条件计算其修饰的属性。

// 根据size来对10个Apple事件进行分组计算平均price和colorselect avg(price) as aPrice, color from Apple.win:length_batch(10) group by size这一次select子句中没有包含分组的字段size,但是效果和上一个句子一样。Esper仍然会根据相同的size进行分组计算平均price,只不过计算结果中只有平均price和color,并且有十排结果。// 根据size乘color来对10个Apple事件进行分组计算平均priceselect avg(price) as aPrice, size*color from Apple.win:length_batch(10) group by size*colorgroup by的对象只是一个值,以相同的值进行分组,所以上面和和普通的属性字段一样,计算一个值进行分组。如果group by后面的表达式值为null,则所有为null的事件都被分为一组进行计算。但是如果使用了count函数,则表达式为null的事件不会被计算在内。

2.2.@Hint

@Hint是Esper中注解的其中一个,如果不了解注解,可以先看看Esper学习之五:EPL语法(一)的第7节再继续阅读@Hint的内容。之前对@Hint一笔带过,那是因为它是专用于Group by的。我们平时使用Group by的时候,会遇到分组数量太多的情况。比如以时间单位进行分组,那么内存使用一定是一个大问题。因此@Hint为其设计了两个属性,用于限制Group by的生存时间,使虚拟机能及时回收内存。这两个属性分别为reclaim_group_aged和reclaim_group_freq

reclaim_group_aged

该属性后面跟着的是正整数,以秒为单位,表示在n秒内,若分组的数据没有进行更新,则分组数据被Esper回收。例如:

// 根据color对10秒内进入的Apple事件进行分组计算平均price,并且对5秒内没有数据更新的分组进行回收@Hint(‘reclaim_group_aged=5’)select avg(price) as aPrice, color from Apple.win:time(10 sec) group by color //括号内可以使单引号也可以是双引号

reclaim_group_freq

该属性后面跟着的是正整数,以秒为单位,表示每n秒清理一次分组,可清理的分组是reclaim_group_aged决定的,也就是说要使用该参数,就要配合reclaim_group_aged一起使用。可能不是很好理解,先看看例子:

// 根据color对10秒内进入的Apple事件进行分组计算平均price。对8秒内没有数据更新的分组进行回收,每2秒回收一次@Hint(‘reclaim_group_aged=8,reclaim_group_freq=2’)select avg(price) as aPrice, color from Apple.win:time(10 sec) group by color 如果不使用reclaim_group_freq属性,则默认值和reclaim_group_aged的值一样,对上面来说就是回收的条件为8秒内没有数据更新,且每8秒回收一次。这样的话有可能出现这么一种情况,上一个8秒的某个分组在下一个8秒还没到达时就已经持续8秒没有数据更新了(这句话会不会有点绕?),但是必须等到回收的时间点到达时才能回收这个分组。在分组产生很快的情况下,这样的回收不及时很可能会造成内存溢出。reclaim_group_freq正是为这种情况做准备,回收的频率高一些,在一定程度上能提高内存的使用率。

上面这两个属性的值除了可以使用正整数之外,也可以使用预先定义的变量或者常量

3.Having

自己不喜欢的人,可以报之以沉默微笑;

Esper学习之七:EPL语法(三)

相关文章:

  • 【算法】直接插入排序C语言实现
  • 嵌入式 FAAC1.28 在海思HI3518C/HI3518A平台linux中的编译优化
  • 你感兴趣的文章:

    标签云:

    亚洲高清电影在线, 免费高清电影, 八戒影院夜间, 八戒电影最新大片, 出轨在线电影, 午夜电影院, 在线影院a1166, 在线电影院, 在线观看美剧下载, 日本爱情电影, 日韩高清电影在线, 电影天堂网, 直播盒子app, 聚合直播, 高清美剧, 高清美剧在线观看 EhViewer-E站, E站, E站绿色版, qqmulu.com, qq目录网, qq网站目录,