Xinrong孟

开发人员,砖

    Xinrong是Databricks公司的软件工程师。她的主要兴趣是考拉和PySpark。她是考拉项目的主要贡献者之一。

    过去的会议

    2021年峰会 考拉:考拉的工作效果如何?

    2021年5月26日04:25 PM PT

    Koalas是一个开源项目bob下载地址,它在Apache Spark上提供pandas api。Pandas是数据科学的标准工具,通常是探索和操作数据集的第一步,但Pandas不能很好地扩展到大数据。考拉通过为熊猫提供在Apache Spark上运行的等效api来填补这一空白。

    还有许多库试图扩展pandas api,例如Vaex、Modin等等。Dask就是其中之一,在pandas用户中很受欢迎,它也可以在自己的集群上工作,类似于Koalas,它位于Spark集群之上。在这次演讲中,我们将介绍考拉和它的现状,以及考拉和Dask的比较,包括基准测试。

    在本节中请注意:
    Takuya Ueshin,软件工程师,数据库
    Xinrong孟,开发员,Databricks

    (daisna21-sessions-od)