流计算核心概念解析之 window
流计算是当前备受关注的一个大数据研究与应用领域,旨在实时或近实时地处理大量无界数据。区别于批处理,流处理中处理的数据集是无界的,所以聚集操作(如 reduce、sum、count 等)无法应用于整个数据集,否则聚集操作的结果可能永远都不会输出。我们需要将无界的数据集切分成一些有界的片段,将聚集操作应用于这些片段,从而能够在无界的数据集上得到持续的聚集操作输出结果,这一切分过程即被称为 window。流计算领域的许多概念、系统设计、实现细节都围绕着 window 展开,window 的支持程度也是我们对众多的流计算框架进行选型的重要依据。要理解 window,我们需要回答以下关键问题: