DataFrames
回到术语表什么是数据帧?
一个DataFrame是一种数据结构,它将数据组织到包含行和列的2维表中,非常类似于电子表格。dataframe是现代数据分析中最常用的数据结构之一,因为它们是一种灵活而直观的存储和处理数据的方式。
每个DataFrame包含一个蓝图,称为模式,它定义了每个列的名称和数据类型。Spark dataframe可以包含通用的数据类型,如StringType和IntegerType,以及特定于Spark的数据类型,如StructType。缺失或不完整的值存储为零数据帧中的值。
一个简单的类比是,DataFrame就像一个带有命名列的电子表格。然而,它们之间的区别在于,电子表格位于特定位置的一台计算机上,而DataFrame可以跨越数千台计算机。通过这种方式,DataFrames使得使用分布式计算集群对大数据进行分析成为可能。
将数据放在多台计算机上的原因应该是直观的:要么数据太大,一台计算机无法容纳,要么在一台计算机上执行计算需要太长时间。
DataFrame的概念在许多不同的语言和框架中都很常见。DataFrames是pandas(流行的Python数据分析库)中使用的主要数据类型,在R、Scala和其他语言中也使用DataFrames。
额外的资源
回到术语表