Apache Spark:何时执行spark清理磁盘缓存(persist() w/ StorageLevel.useDisk == true)
了解大数据处理的工具如Hadoop或Spark #生活知识# #科技生活# #编程学习#
Apache Spark:何时执行spark清理磁盘缓存(persist() w/ StorageLevel.useDisk == true)
社区首页 >问答首页 >Apache Spark:何时执行spark清理磁盘缓存(persist() w/ StorageLevel.useDisk == true)
Stack Overflow用户
提问于 2019-01-24 08:40:46
我正在尝试弄清楚在应用程序将一些数据保存到磁盘后,Spark cleanup是什么时候。从代码中看,ContextCleaner.keepCleaning()似乎正在使用尽力而为的方法进行清理(在调用SparkContext.stop()时是最新的)。
我不知道如果清理失败会发生什么,特别是有没有一个维护任务可以处理它?
如果不是,推荐的方法是什么来确保完成这样的清理(我们可以创建一个恶魔,但我们应该如何配置它,使它能够找到正确的文件,并且它是必需的?)。
我们需要一个确定性的机制,因为集群处理的数据可能包含PII,我们需要保证它将被清除以维护合规性。
谢谢!
回答 1
Stack Overflow用户
发布于 2019-01-25 08:17:59
我不确定你使用的是哪个spark版本。正如您所提到的,Spark有一个清理线程,用于通过弱引用队列自动删除未使用的(弱可达)对象。由于这个线程被设置为守护进程,并且它不会在内部抛出异常,所以我认为即使清理线程退出,主线程也会继续运行。
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:
https://stackoverflow.com/questions/54342443
复制
saveAsObjectFile和persist in apache spark有什么不同?23
运行Spark App: Persist14
Spark Persist和UnPersist113
网址:Apache Spark:何时执行spark清理磁盘缓存(persist() w/ StorageLevel.useDisk == true) https://www.yuejiaxmz.com/news/view/170675
相关内容
【时间序列管理秘籍】:xts数据包基础及深度解析怎么清理磁盘 如何清理磁盘
如何清理mac磁盘?快速清理小妙招在这里
Apache 压力测试工具ab
Windows BleachBit 磁盘清理工具
末日生存必备装备清单(生活+武器)
基于python代码,家庭财务管理系统(可以存盘和读盘)
Google Chrome谷歌浏览器清理缓存的常用方法
任务管理资源
windows自带磁盘清理深度挖掘