本文目录一览:
sparksql怎么批量删除分区
用beeline的方式。可以执行成功有beeline的方式,即hive原生hivesql能按条件删除;而使用spark-sql,或spark-beeline等方式执行会报错。
SQL SERVER中怎么删除文件组和文件
文件与文件组的删除,如果因为以前的分区方案不合理,需要取消分区,或者按另外一种方式分区,就需要涉及到文件与文件组的删除操作,如果没有掌握正确步骤,有时候可能无法删除,会提示你“文件不为空,无法删除”或者“文件组不为空,不能删除”等等,如果不知道技巧,会很郁闷!本人就曾经经历过这样的郁闷!在百度也没找到正确答案。
1、 文件的删除:首先要先清空文件里的数据,删除之前数据一定要记得先备份,可将数据复制到其他表,然后执行:
DBCC SHRINKFILE (FileName, EMPTYFILE);
文件中的内容删除后,再执行删除文件命令,DataBaseName表示数据名,FileName 表示文件名:
ALTER DATABASE [DataBaseName] REMOVE FILE FileName;
2、文件组的删除:
当文件组的文件被删除后,按正常理解,应该就可以直接删除文件组,实际是不行的,你无法删除文件组。
因为还有几个东西依赖文件组,一是分区方案,二是使用该分区方案的分区表。
所以要删除分区方案才能删除文件组。但要删除分区方案之前要先更改依赖它的分区表,使其不依赖它。
这个主要是更改分区表的分区列,使其不使用分区方案,如果实在不会更改,在表里数据已经备份的前提下,可以直接删除表来解决。
然后再删除分区表方案,最后就可以直接删除文件组了。
总结前面的删除过程:
1、修改分区表,使其不依赖分区方案。
2、删除分区方案(依赖要删除的文件组)。
DROP PARTITION SCHEME [Part_func_scheme_Name]
3、直接删除文件组。
ALTER DATABASE [DataBaseName] REMOVE FILEGROUP [FGName]
DataBaseName表示数据名,FGName 表示文件组名。
Maxcompute批量分区删除
ps : Maxcompute数据仓库建设的分享。
大致介绍下Maxcompute, Maxcompute是阿里的一个大数据工具,基于Maxcompute阿里搭建了一个Datawork的数据平台。可以很“方便”的从各种数据源导入数据,做数据分析、机器学习等。-sql删除分区文件
“方便"之所以加个引号,是因为某些方面的确很方便,当然业务实在复杂了,很多时候也存在用的很难受的地方。
更多介绍去阿里官网了解吧。
回到正题,这里主要分享下批量删除分区的一个小技巧。
介绍下分区的概念,Table是一个数据表,也是一个分区的数组。分区把Table的数据分成了一个个的区块。
Maxcompute是个不支持某条数据修改删除的数据仓库。而分区是可以删除和新增的。引入分区,就可以做到在小颗粒度上做到修改和删除的功能。
首先描述下为何会有大量的分区需要删除的场景。
分区数量多了之后,文件将会变多。一个是Maxcompute对于表的分区是一个上限数量,另一个是分区数量多了之后计算将会很慢。
这些源数据将会经过清洗产生对应的中间表或者结果集,供BI或者数据分析使用。而源数据为了方便管理,可以通过sql聚合成一个大分区来存放。而原来的很多分区就可以删除,以便腾出空间。
一般正常删除分区是通过sql来删除。
这种方式只能一次删除一个分区,当分区有上万个的时候就不适用了。
这种情况可以通过pyodps来轻松的批量删除分区。
下面是一个删除datahub归档分区的实例
可以在dataworks里面新建个pyodps的节点来每天运行,一劳永逸。
如果是放在python本地运行的话建议使用ipython。具体还需要配置下odps的环境。可以参考下 官方文档 。
Dataworks使用中分库分表很多,怎么配置大量的同步任务。有经验的可以一起研究下。