分类: Spark

6 篇文章

Hadoop依赖打包jar-with-dependencies的包冲突问题
前言 最近在写一个Java项目,需要访问HDFS并执行一些操作。为了部署方便,使用Maven的assembly插件打包成一个可执行包。 在本地用IDEA调试时,各个功能一切正常,但是当打包成jar包,丢到服务器上执行,却出问题了。 问题出现 将打包好的jar包放到服务器上执行,出现如下报错信息: org.apache.hadoop.fs.Unsup…
Spark Streaming添加自定义SparkUI页面,展示Kafka消费进度
前言 在进行Spark任务开发时,我们有时想自己定制一个Spark UI界面,比如,笔者在进行Spark Streaming处理Kafka数据时,想要直观的了解Kafka消费状况以确定是否有积压。通常情况下,需要借助其它工具(如Kafka Manager等)进行观察。 为了更方便的观察Kafka的积压情况,笔者查阅资料,发现Spark UI是可以定…
[Spark] 从字符串创建StructType
    在使用Spark开发的过程中,DataFrame是经常使用的一个数据类型,它比RDD有了更加高级的API,更高的执行效率。     然而,某些情况下,经需要将一个RDD转换为DataFrame,这一步经常需要生成一个StructType来生成DataFrame的schema。直接生成StructTyp…
[Spark] Scala集合类详解
    Spark常用Scala语言进行开发,Spark中的RDD处理过程中,经常会与Scala集合进行互相转换。 首先,盗一张图来说明Scala集合类的继承关系 Scala集合类的继承关系 由上图可知,Scala中集合主要分为三大类: 1. Seq,是一组有序的元素。  2. Set,是一组没有重复元素的集合。  3. Map,是一组k-v对。 …
[Spark]Zookeeper3.4.12和Kafka1.0.0的安装及配置
    Spark程序的开发,难免会迁涉到Kafka的有关内容,而Kafka的运行又依赖于Zookeeper。 Zookeeper的安装与部署     官网下载的Kafka程序包里面已经包含的一个Zookeeper程序,在这些文章中,我们没有使用它,而是使用了独立的Zookeeper程序。 先去官网下载Zoo…
[Spark]Spark2.1.0与Hadoop2.7.5的集群安装及配置
    工作快两个月了,已经大半年没有更新了,决定继续更新博客。续更的第一个系列将会是与目前工作相关Spark系列。第一篇就从Spark的安装与配置开始。 集群的准备 要搭建Spark集群环境,首先要准备集群。笔者这里使用了三台机器,都为debian8系统。 三台机的信息如下: 172.30.232.140 master 172…