pyspark demo - 小小的草=孙革兵 - ITeye博客

`

sunbin

浏览: 341620 次
性别:
来自: 深圳

最近访客更多访客>>

xiaomabobo

lch1985110

ganxiwen

u012363178

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

sunbin：不好意思，这个用于个人记录。http://sunbin.ite ...
Spring boot+Spring Security 4配置整合实例
v韧竹v：大神，你这个有demo源码吗？我安装您这边操作的，好像有问题， ...
Spring boot+Spring Security 4配置整合实例
sunbin：西蜀石兰写道关键的是controller建立了一个中转吧，这 ...
Spring Boot 添加JSP支持【转】
czwanglei：这篇文章写的真不错。。
Spring Boot 添加JSP支持【转】
西蜀石兰：关键的是controller建立了一个中转吧，这样所有的jsp ...
Spring Boot 添加JSP支持【转】

pyspark demo

博客分类：

hadoop

阅读更多

demo

spark 在不使用mllib的情况下，可以使用python的数据分析。

使用方法如下

代码可以运行

eclipse添加 window--preferences---pydev----interpreters---python interpreter

1、环境变量

SPARK_HOME=C:\spark-2.3.1-bin-hadoop2.6

SPARK_LOCAL_IP=本机ip/localhost

2、jar包

libraries中添加

C:\spark-2.3.1-bin-hadoop2.6\python

C:\spark-2.3.1-bin-hadoop2.6\python\lib\*

3、代码

# coding=UTF-8
import findspark
findspark.init()
from pyspark import SparkContext
def show(x):
    print(x)
sc = SparkContext("local", "First App")
lines = sc.textFile("../../../words").cache()
words=lines.flatMap(lambda line:line.split(" "),True)
pairWords = words.map(lambda word : (word,1),True)
result = pairWords.reduceByKey(lambda v1,v2:v1+v2, 3)
result.foreach(lambda x:show(x))
result.saveAsTextFile("../../../wc-result2")

代码执行(eclipse 可直接运行，集群提交如下)

$SPARK_HOME/bin/spark-submit firstapp.py

分享到：

spark 统计黑名单之外的数据次数 | Spark集群搭建 & spark-shell & Master HA

2020-04-02 23:51
浏览 356
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

5、pyspark集群与导入用户自定义模块执行demo.pdf: 5、pyspark集群与导入用户自定义模块执行demo.pdf

pyspark 随机森林的实现: 主要介绍了pyspark 随机森林的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

sgx-pyspark-sql-demo: git clone https://github.com/scontain/sgx-pyspark-demo && cd sgx-pyspark-demo docker run -it --rm -v ` pwd ` :/fspf --privileged -p 8080:8080 -p 6868:6868 -p 28778:28778 registry.scontain....

pyspark-setup-demo：具有Jupyter Docker堆栈的PySpark和Jupyter Notebook演示: 有关该项目的完整信息，请阅读相关博客文章建筑建立从GitHub克隆此项目： git clone \ --branch v2 --single-branch --depth 1 --no-tags \ https://github.com/garystafford/pyspark-setup-demo.git 为PostgreSQL...

kmeans-pyspark:Spark中分布式K-means聚类的Python实现: 本地开发和运营依存关系确保您已将Python 2.7和pip一起安装。然后运行： pip install -r requirements.txt正在运行的工作使用中央作业运行程序模块src/index.py运行所有作业。您完全不需要编辑此文件。...

在python中使用pyspark读写Hive数据操作: pyspark读取hive数据非常简单，因为它有专门的接口来读取，完全不需要像hbase那样，需要做很多配置，pyspark提供的操作hive的接口，使得程序可以直接使用SQL语句从hive里面查询需要的数据，代码如下： from pyspark...

spark_recommendation:pyspark烧瓶: 基于spark的协同过滤算法ALS的实现demo 考虑到后期数据可视化的因素，采python的pyspark模块来实现，后期可视化使用web框架flask，前遍历输出推荐的电影名。 extract.py : 提取数据集中的user字段进行保存，用来判断...

aliyun-emapreduce-demo: 本项目包含以下示例： ...PySpark WordCount: 单词统计依赖资源测试数据（data目录下）： The_Sorrows_of_Young_Werther.txt：可作为WordCount（MapReduce/Spark）的输入数据 patterns.txt：WordCount（MapReduce）作

aws-airflow-demo:帖子的项目文件: 使用Apache Airflow在Amazon EMR上运行PySpark应用程序概述文章的项目文件，。请参阅帖子以获取有关使用项目文件的完整说明。建筑学以下是该帖子演示的最终高级架构。该图以红色显示了DAG Run请求的大概路线...

vscode-virtual-document-python-demo:用于python的IntelliSense并在markdown文件中悬停的虚拟文档演示: 虚拟文档Python演示段落演示 # Note Title ## Paragraph Title ```python PYSPARK 1610625457 import time import datetime time.sleep(5) print(datetime.datetime.now()) ```

SparkLearning_NoteBook:Spark 学习notebook: 基于Spark的学习实践笔记，内附jupyter notebook实践,可以根据里面的一步步操作学习Spark RDD的基本API操作、Spark MLlib 相关操作和Spark实践Demo等。本项目配有完整依赖环境的实战Docker镜像，具体Docker Hub路径...

基于python3使用spark的统计分析，涵盖spark的几大模块+源代码+文档说明: 基于PySpark的统计分析,主要分为以下模块： ```angular2html 1.spark_core:spark的基本操作，统计、wordcount、TopN等,数据主要来自英文新闻网站和自己随机构造的数据 2.spark_mllib:针对spark mllib里面机器学习...

黄金分割法matlab源代码-study_path_dat:大数据方向学习路线参考资料: ML&DL&RL项目的demo 大数据框架学习计算机视觉及其相关框架语音实践 Python开发论文查找和项目实现 tensorflowSpark docker deepFM 工程模板智能算法 OpenCV工程采样优化优化方法选取网站罗列工具：...

Global site tag (gtag.js) - Google Analytics