Xinrong是Databricks公司的软件工程师。她的主要兴趣是考拉和PySpark。她是考拉项目的主要贡献者之一。
Koalas是一个开源项目bob下载地址,它在Apache Spark上提供pandas api。Pandas是数据科学的标准工具,通常是探索和操作数据集的第一步,但Pandas不能很好地扩展到大数据。考拉通过为熊猫提供在Apache Spark上运行的等效api来填补这一空白。
还有许多库试图扩展pandas api,例如Vaex、Modin等等。Dask就是其中之一,在pandas用户中很受欢迎,它也可以在自己的集群上工作,类似于Koalas,它位于Spark集群之上。在这次演讲中,我们将介绍考拉和它的现状,以及考拉和Dask的比较,包括基准测试。
(daisna21-sessions-od)