Spark环境配置笔记

发布时间:2024-11-29 16:26

在安静环境下进行深度笔记 #生活技巧# #学习技巧# #笔记整理策略#

最新推荐文章于 2022-06-12 21:24:03 发布

红瓤大柚子 于 2019-08-11 21:56:59 发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

Spark环境配置笔记

本地Pycharm调试Spark环境配置 Pycharm 首先得装上(尽量别用社区版)Java8/ Python2都安装好(没难度,有问题自行百度)下载Hadoop包/Scala包/Spark-Hadoop包(注意版本对应)不管有用没用先用pip把py4j模块装上。同时pip安装pyspark模块Pycharm中 Run/Debug Configurations -> Environment -> Environment variables: 添加(SPARK_HOME,PYTHONPATH,HADOOP_HOME)三个环境变量

PYTHONUNBUFFERED=1;SPARK_HOME=D:\spark-2.4.3-bin-hadoop2.6;PYTHONPATH=D:\spark-2.4.3-bin-hadoop2.6\python;HADOOP_HOME=D:\hadoop-2.6.5
在这里插入图片描述

为PySpark项目添加依赖库:
Pycharm中 File -> Project: -> Project Structure -> Add ContentRoot
(依赖库zip包都在spark-hadoop文件夹 /bin 目录下)
在这里插入图片描述配置完成。 PySpark本地调试遇到的坑 SparkConf的坑
初始化SparkContext的代码如下所示:

conf = SparkConf().setAppName("wordcount").setMaster("local") sc = SparkContext(conf) 12

结果报告运行错误:

ERROR SparkContext: Error initializing SparkContext. org.apache.spark.SparkException: Could not parse Master URL: '<pyspark.conf.SparkConf object at 0x0000000002D95908>' 12

根据错误提示,以为是Master的设置有问题,实际上是实例化SparkContext有问题。阅读代码,发现它的构造函数声明如下所示:

def __init__(self, master=None, appName=None, sparkHome=None, pyFiles=None, environment=None, batchSize=0, serializer=PickleSerializer(), conf=None, gateway=None, jsc=None, profiler_cls=BasicProfiler): 123

而前面的代码仅仅是简单的将conf传递给SparkContext构造函数,这就会导致Spark会将conf看做是master参数的值,即默认为第一个参数。所以这里要带名参数:

sc = SparkContext(conf=conf) 1

网址:Spark环境配置笔记 https://www.yuejiaxmz.com/news/view/314148

相关内容

Apache Spark:何时执行spark清理磁盘缓存(persist() w/ StorageLevel.useDisk == true)
PyCharm+Python3.8+OpenCV4.1集成环境安装配置
[笔记本电脑] 如何清洁笔记本电脑
亚马逊推出社交应用Spark:全新购物分享平台
个人办公及开发环境设计
笔记本怎么防尘
绿色环保很简单 笔记本常用节能小技巧(全文)
笔记本电脑壁纸尺寸? 笔记本电脑壁纸布置
笔记
笔记本该如何保养维护?

随便看看