pyspark.pandas.read_delta¶
-
pyspark.pandas。
read_delta
( 路径:str,版本:可选(str]=没有一个,时间戳:可选(str]=没有一个,index_col:联盟(str,列表(str),没有一个)=没有一个,* *选项:任何 )→pyspark.pandas.frame.DataFrame¶ -
三角洲湖表一些文件系统读取并返回一个DataFrame。
如果三角洲湖表已经存储在目录(又名metastore),使用“read_table”。
- 参数
-
- 路径 字符串
-
路径表三角洲湖。
- 版本 字符串,可选
-
指定表的版本(基于三角洲的内部事务版)阅读,用δ的时间旅行特性。这组三角洲的“versionAsOf”选项。请注意,这个参数时间戳参数不能同时使用,否则它将提高ValueError。
- 时间戳 字符串,可选
-
指定表版本读取(基于时间戳),用δ的时间旅行特性。这一定是一个有效的日期或时间戳字符串的火花,并设置三角洲的“timestampAsOf”选项。请注意,这个参数版本参数不能同时使用,否则它将提高ValueError。
- index_col str和str列表,可选的,默认值:没有
-
表的索引列火花。
- 选项
-
可以传递到三角洲的附加选项。
- 返回
-
- DataFrame
例子
> > >ps。范围(1)。to_delta(”% s/ read_delta / foo”%路径)> > >ps。read_delta(”% s/ read_delta / foo”%路径)id0 0
> > >ps。范围(10,15,num_partitions=1)。to_delta(”% s/ read_delta / foo”%路径,…模式=“覆盖”)> > >ps。read_delta(”% s/ read_delta / foo”%路径)id0 101 112 123 134 14
> > >ps。read_delta(”% s/ read_delta / foo”%路径,版本=0)id0 0
你可以保留指数往返如下。
> > >ps。范围(10,15,num_partitions=1)。to_delta(…”% s/ read_delta /酒吧'%路径,index_col=“指数”)> > >ps。read_delta(”% s/ read_delta /酒吧'%路径,index_col=“指数”)id指数0 101 112 123 134 14