这个演讲假设您已经有了一个基本的了解标准以外的火花,让我们探索使PySpark入门快,如何最佳规模PySpark工作。如果您使用Python和火花在一起,想要更快的工作——这是对你说话。这个演讲涵盖了许多重要的主题使可伸缩的Apache火花项目——从抽样重用为处理键/值数据考虑,避免groupByKey为什么重要以及更多。我们还包括Python具体考虑,像DataFrames /数据集之间的差异和传统抽样与Python。我们也探讨一些技巧来混和Python和JVM代码的情况下性能开销太大了。
BOB低频彩了解更多: