pyspark.pandas.read_delta

pyspark.pandas。 read_delta ( 路径:str,版本:可选(str]=没有一个,时间戳:可选(str]=没有一个,index_col:联盟(str,列表(str),没有一个)=没有一个,* *选项:任何 )→pyspark.pandas.frame.DataFrame

三角洲湖表一些文件系统读取并返回一个DataFrame。

如果三角洲湖表已经存储在目录(又名metastore),使用“read_table”。

参数
路径 字符串

路径表三角洲湖。

版本 字符串,可选

指定表的版本(基于三角洲的内部事务版)阅读,用δ的时间旅行特性。这组三角洲的“versionAsOf”选项。请注意,这个参数时间戳参数不能同时使用,否则它将提高ValueError

时间戳 字符串,可选

指定表版本读取(基于时间戳),用δ的时间旅行特性。这一定是一个有效的日期或时间戳字符串的火花,并设置三角洲的“timestampAsOf”选项。请注意,这个参数版本参数不能同时使用,否则它将提高ValueError

index_col str和str列表,可选的,默认值:没有

表的索引列火花。

选项

可以传递到三角洲的附加选项。

返回
DataFrame

例子

> > >ps范围(1)to_delta(% s/ read_delta / foo”%路径)> > >psread_delta(% s/ read_delta / foo”%路径)id0 0
> > >ps范围(10,15,num_partitions=1)to_delta(% s/ read_delta / foo”%路径,模式=“覆盖”)> > >psread_delta(% s/ read_delta / foo”%路径)id0 101 112 123 134 14
> > >psread_delta(% s/ read_delta / foo”%路径,版本=0)id0 0

你可以保留指数往返如下。

> > >ps范围(10,15,num_partitions=1)to_delta(% s/ read_delta /酒吧'%路径,index_col=“指数”)> > >psread_delta(% s/ read_delta /酒吧'%路径,index_col=“指数”)id指数0 101 112 123 134 14