Spark环境配置笔记

发布时间：2024-11-29 16:26

在安静环境下进行深度笔记 #生活技巧# #学习技巧# #笔记整理策略#

最新推荐文章于 2022-06-12 21:24:03 发布

红瓤大柚子于 2019-08-11 21:56:59 发布

Spark环境配置笔记

本地Pycharm调试Spark环境配置 Pycharm 首先得装上(尽量别用社区版)Java8/ Python2都安装好（没难度，有问题自行百度）下载Hadoop包/Scala包/Spark-Hadoop包（注意版本对应）不管有用没用先用pip把py4j模块装上。同时pip安装pyspark模块Pycharm中 Run/Debug Configurations -> Environment -> Environment variables: 添加（SPARK_HOME，PYTHONPATH，HADOOP_HOME）三个环境变量

PYTHONUNBUFFERED=1;SPARK_HOME=D:\spark-2.4.3-bin-hadoop2.6;PYTHONPATH=D:\spark-2.4.3-bin-hadoop2.6\python;HADOOP_HOME=D:\hadoop-2.6.5
在这里插入图片描述

为PySpark项目添加依赖库：
Pycharm中 File -> Project: -> Project Structure -> Add ContentRoot
（依赖库zip包都在spark-hadoop文件夹 /bin 目录下）
在这里插入图片描述

配置完成。 PySpark本地调试遇到的坑 SparkConf的坑
初始化SparkContext的代码如下所示：

conf = SparkConf().setAppName("wordcount").setMaster("local") sc = SparkContext(conf) 12

结果报告运行错误：

ERROR SparkContext: Error initializing SparkContext. org.apache.spark.SparkException: Could not parse Master URL: '<pyspark.conf.SparkConf object at 0x0000000002D95908>' 12

根据错误提示，以为是Master的设置有问题，实际上是实例化SparkContext有问题。阅读代码，发现它的构造函数声明如下所示：

def __init__(self, master=None, appName=None, sparkHome=None, pyFiles=None, environment=None, batchSize=0, serializer=PickleSerializer(), conf=None, gateway=None, jsc=None, profiler_cls=BasicProfiler): 123

而前面的代码仅仅是简单的将conf传递给SparkContext构造函数，这就会导致Spark会将conf看做是master参数的值，即默认为第一个参数。所以这里要带名参数：

sc = SparkContext(conf=conf) 1

网址：Spark环境配置笔记 https://www.yuejiaxmz.com/news/view/314148

⬅️上一篇：红木家具如何融入现代家居环境？难

➡️下一篇：个人家居与环境衞生守则.PDF

Spark环境配置笔记

Spark环境配置笔记

相关内容

随便看看

最新动态分享

热点动态分享

专题

推荐动态分享