Apache Spark 互动版

SQL中的数据集

如果你熟悉SQL,可以用SQL的思维考虑下什么是集合操作:

UPDATE USER SET GENDER='FEMALE'

上面的SQL语句就是一个集合操作,对一个数据集合,执行一条UPDATE操作,整个数据集都被修改了。

UPDATE语句有两个特点,这也是集合操作的要素:

1.对集合的每个记录执行相同的操作

UPDATE更新了集合中的所有记录,这些记录的 GENDER 字段值都被更新为 FEMALE

2.这个操作的具体行为是用户指定的

UPDATE通过SET子句,指定更新那些字段,怎么更新。

想想SQL,那里的操作基本都是集合级别的!