频道导航

python – 为什么带有1行的DataFrame上的collect()使用2000个exectors？

2019-05-07 Python 前端之家

前端之家收集整理的这篇文章主要介绍了python – 为什么带有1行的DataFrame上的collect()使用2000个exectors？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

这是我能想到的最简单的DataFrame.我正在使用PySpark 1.6.1.

# one row of data
rows = [ (1,2) ]
cols = [ "a","b" ]
df   = sqlContext.createDataFrame(rows,cols)

所以数据框完全适合内存,没有对任何文件的引用,对我来说看起来很微不足道.

然而,当我收集数据时,它使用2000个执行程序：

df.collect()

在收集期间,使用2000执行者：

[Stage 2:===================================================>(1985 + 15) / 2000]

然后是预期的输出：

[Row(a=1,b=2)]

为什么会这样？ DataFrame不应该完全在驱动程序的内存中吗？

最佳答案

所以我稍微研究了一下代码,试图弄清楚发生了什么.似乎sqlContext.createDataFrame确实没有尝试根据数据设置合理的参数值.

为什么2000任务？

Spark使用2000个任务,因为我的数据框有2000个分区. (尽管看起来像分区比行更明显是胡说八道.)

这可以通过以下方式看出：

>>> df.rdd.getNumPartitions()
2000

为什么DataFrame有2000个分区？

发生这种情况是因为sqlContext.createDataFrame使用默认的分区数(在我的情况下为2000)结束,而不管数据的组织方式或数据的行数.

代码跟踪如下.

在sql / context.py中,sqlContext.createDataFrame函数调用(在本例中)：

rdd,schema = self._createFromLocal(data,schema)

反过来调用：

return self._sc.parallelize(data),schema

sqlContext.parallelize函数在context.py中定义：

numSlices = int(numSlices) if numSlices is not None else self.defaultParallelism

没有检查行数,也无法从sqlContext.createDataFrame指定切片数.

如何更改DataFrame的分区数？

使用DataFrame.coalesce.

>>> smdf = df.coalesce(1)
>>> smdf.rdd.getNumPartitions()
1
>>> smdf.explain()
== Physical Plan ==
Coalesce 1
+- Scan ExistingRDD[a#0L,b#1L]
>>> smdf.collect()
[Row(a=1,b=2)]

原文链接：https://www.f2er.com/python/438575.html

上一篇：python – 使用Panda read_csv列出下一篇：python – 添加数字,然后将元组列

猜你在找的Python相关文章

爬虫实战：探索XPath爬虫技巧之热榜新闻

在这篇文章中，我们深入学习了XPath作为一种常见的网络爬虫技巧。XPath是一种用于定位和选...

作者：努力的小雨时间：2024-09-28

谁说后端不能画出美丽的动图？让我来给大家拜个年！

祝福大家龙年快乐！愿你们的生活像龙一样充满力量和勇气，愿你们在新的一年里，追逐梦想，...

作者：努力的小雨时间：2024-09-28

爬虫实战：从网页到本地，如何轻松实现小说离线阅读

今天在爬虫实战中，除了正常爬取网页数据外，我们还添加了一个下载功能，主要任务是爬取小...

作者：努力的小雨时间：2024-09-28

爬虫实战+数据分析：全国消费支出分析及未来预测

完美收官，本文是爬虫实战的最后一章了，所以尽管本文着重呈现爬虫实战，但其中有一大部分...

作者：努力的小雨时间：2024-09-28

Java开发者的Python进修指南：JSON利器之官方json库、demjson和orjson的实用指南

JSON是一种流行的数据传输格式，Python中有多种处理JSON的方式。官方的json库是最常用的，...

作者：努力的小雨时间：2024-09-28

使用Python的turtle模块绘制美丽的樱花树

通过本文的学习和实践，我们掌握了使用Python的turtle模块来创作樱花树图画的技巧，这个过...

作者：努力的小雨时间：2024-09-28

利用大型语言模型轻松打造浪漫时刻

在这篇文章中，我们介绍了如何利用大型语言模型为情人节营造难忘的氛围。通过上传图片并进...

作者：努力的小雨时间：2024-09-28

成为一个合格程序员所必备的三种常见LeetCode排序算法

排序算法是一种通过特定的算法因式将一组或多组数据按照既定模式进行重新排序的方法。通过...

作者：努力的小雨时间：2024-09-28

5分钟上手Python爬虫：从干饭开始，轻松掌握技巧

本文的重点在于引导读者如何初步掌握爬虫技术。初步掌握爬虫技术并不难，但是在实际操作中...

作者：努力的小雨时间：2024-09-28

AI实用指南：5分钟搭建你自己的LLM聊天应用

本文介绍了如何快速搭建一个基于大型语言模型（LLM）的混元聊天应用。强调了开发速度的重要...

作者：努力的小雨时间：2024-09-28

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章