Apache Spark:何时执行spark清理磁盘缓存(persist() w/ StorageLevel.useDisk == true)

发布时间:2024-11-21 08:35

了解大数据处理的工具如Hadoop或Spark #生活知识# #科技生活# #编程学习#

Apache Spark:何时执行spark清理磁盘缓存(persist() w/ StorageLevel.useDisk == true)

社区首页 >问答首页 >Apache Spark:何时执行spark清理磁盘缓存(persist() w/ StorageLevel.useDisk == true)

Stack Overflow用户

提问于 2019-01-24 08:40:46

我正在尝试弄清楚在应用程序将一些数据保存到磁盘后,Spark cleanup是什么时候。从代码中看,ContextCleaner.keepCleaning()似乎正在使用尽力而为的方法进行清理(在调用SparkContext.stop()时是最新的)。

我不知道如果清理失败会发生什么,特别是有没有一个维护任务可以处理它?

如果不是,推荐的方法是什么来确保完成这样的清理(我们可以创建一个恶魔,但我们应该如何配置它,使它能够找到正确的文件,并且它是必需的?)。

我们需要一个确定性的机制,因为集群处理的数据可能包含PII,我们需要保证它将被清除以维护合规性。

谢谢!

回答 1

Stack Overflow用户

发布于 2019-01-25 08:17:59

我不确定你使用的是哪个spark版本。正如您所提到的,Spark有一个清理线程,用于通过弱引用队列自动删除未使用的(弱可达)对象。由于这个线程被设置为守护进程,并且它不会在内部抛出异常,所以我认为即使清理线程退出,主线程也会继续运行。

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接:

https://stackoverflow.com/questions/54342443

复制

saveAsObjectFile和persist in apache spark有什么不同?

23

运行Spark App: Persist

14

Spark Persist和UnPersist

113

扫码加入开发者社群

扫码关注腾讯云开发者公众号

网址:Apache Spark:何时执行spark清理磁盘缓存(persist() w/ StorageLevel.useDisk == true) https://www.yuejiaxmz.com/news/view/170675

相关内容

【时间序列管理秘籍】:xts数据包基础及深度解析
怎么清理磁盘 如何清理磁盘
如何清理mac磁盘?快速清理小妙招在这里
Apache 压力测试工具ab
Windows BleachBit 磁盘清理工具
末日生存必备装备清单(生活+武器)
基于python代码,家庭财务管理系统(可以存盘和读盘)
Google Chrome谷歌浏览器清理缓存的常用方法
任务管理资源
windows自带磁盘清理深度挖掘

随便看看