使用spark.createDataFrame报错 - - ITeye博客

`

ronaldoLY

浏览: 42247 次
性别:

最近访客更多访客>>

AlphaPay

u011997289

qq756514656

jxtlks

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

kjmmlzq19851226：问道有先后，术业有专攻。学会很快，精通很慢，贵在坚持
最近面试的一点感想
liuxuan251314： ...
最近面试的一点感想
77tt77：字符串统计数字，效率很低。一个字符出现几次，都要遍历一次，而且 ...
集合框架总结0719
xiaozhi6156：面试是个辛苦活..
最近面试的一点感想
minn84：此处不留爷，自有留爷处
最近面试的一点感想

使用spark.createDataFrame报错

博客分类：

python

阅读更多

spark_df = spark.createDataFrame(df)

pandas df转换为spark df时报错

Can not merge type <class 'pyspark.sql.types.LongType'> and <class 'pyspark.sql.types.StringType'>

原因：df中有空值，去掉空值，强转类型即可

df['item_id'].astype(int)

df['item_geohash'].astype(str)

df['item_category'].astype(str)

df =df.replace(np.NaN, '')

分享到：

天池新人实战赛之[离线赛]尝试（一） | 反向传播算法学习

2018-04-08 21:02
浏览 1326
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

【hive on spark Error】return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask.: ERROR : FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. 前言报错信息异常分析配置改动后记前言在成功消除Cloudare管理界面上那些可恶的警告之后，我又对yarn...

High.Performance.Spark.Best.Practices.for.Scaling.and.Optimizing.Apache.Spark.: High.Performance.Spark.Best.Practices.for.Scaling.and.Optimizing.Apache.Spark. High.Performance.Spark.Best.Practices.for.Scaling.and.Optimizing.Apache.Spark.

mondrian-4.3.0.1.2-SPARK.jar: mondrian-4.3.0.1.2-SPARK.jar

Learning Spark.pdf: Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning ...

my presentation on RDD & Spark.pptx: 这是一个Apache Spark的演讲ppt，全都是英文的，制作时间是2020年的。包含Spart的最近状态，RDD和其生态。my presentation on RDD & Spark.pptx

spark-md5.js: 可用于大文件的哈希 (function (factory) { if (typeof exports === 'object') { // Node/CommonJS module.exports = factory(); } else if (typeof define === 'function' && define.amd) { ...

Packt.Machine Learning with Spark.2015: Packt.Machine Learning with Spark.2015

大数据技术之spark.docx: 大数据技术之spark.docx

JAVA spark创建DataFrame的方法: 主要介绍了JAVA spark创建DataFrame的方法，帮助大家更好的理解和学习spark，感兴趣的朋友可以了解下

Mastering.Apache.Spark.2.x: machine learning and Juypter Notebooks, Zeppelin, Docker and Kubernetes for cloud-based Spark. During the course of the book, you will also learn about the latest enhancements in Apache Spark 2.2, ...

【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource: df = spark.read.format(com.mongodb.spark.sql.DefaultSource).load() File /home/cisco/spark-2.2.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/sql/readwriter.py, line 165, in load

Spark的shuffle调优: spark.reducer.maxSizeInFlight 48m reduce task的buffer缓冲，代表了每个reduce task每次能够拉取的map side数据最大大小，如果内存充足，可以考虑加大，从而减少网络传输次数，提升性能 spark.shuffle....

MongoDB+Spark.pdf: MongoDB+Spark.pdf MongoDB+Spark.pdf MongoDB+Spark.pdf

spark.md5.js: spark.md5.js用于计算文件的md5值，使用方式SparkMD5.ArrayBuffer.hash(ev.target.result);

Packt.Big.Data.Analytics.with.Spark.and.Hadoop: Packt.Big.Data.Analytics.with.Spark.and.Hadoop Packt.Big.Data.Analytics.with.Spark.and.Hadoop

Spark创建RDD、DataFrame各种情况的默认分区数: 熟悉Spark的分区对于Spark性能调优很重要，本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数，其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDFS文件的Block数量有关，还有很坑的某些...

Big.Data.Analytics.with.Spark.and.Hadoop.17858: It is moving away from MapReduce to Spark. So, advantages of Spark over MapReduce are explained at great depth to reap benefits of in-memory speeds. DataFrames API, Data Sources API and new Data set ...

Pro.Spark.Streaming.The.Zen.of.Real-Time.Analytics.Using.Apache.Spark.1484: Learn the right cutting-edge skills and knowledge to leverage Spark Streaming to implement a wide array of real-time, streaming applications. Pro Spark Streaming walks you through end-to-end real-time...

Spark.sql数据库部分的内容: Spark.sql数据库部分的内容

Global site tag (gtag.js) - Google Analytics