pyspark.pandas.read_delta¶

pyspark.pandas。 read_delta ( 路径:str,版本:可选(str]=没有一个,时间戳:可选(str]=没有一个,index_col:联盟(str,列表(str),没有一个)=没有一个,* *选项:任何 )→pyspark.pandas.frame.DataFrame¶

三角洲湖表一些文件系统读取并返回一个DataFrame。

如果三角洲湖表已经存储在目录(又名metastore),使用“read_table”。

参数

路径字符串: 路径表三角洲湖。
版本字符串,可选: 指定表的版本(基于三角洲的内部事务版)阅读,用δ的时间旅行特性。这组三角洲的“versionAsOf”选项。请注意,这个参数时间戳参数不能同时使用,否则它将提高ValueError。
时间戳 字符串,可选: 指定表版本读取(基于时间戳),用δ的时间旅行特性。这一定是一个有效的日期或时间戳字符串的火花,并设置三角洲的“timestampAsOf”选项。请注意,这个参数版本参数不能同时使用,否则它将提高ValueError。
index_col str和str列表,可选的,默认值:没有: 表的索引列火花。
选项: 可以传递到三角洲的附加选项。

返回

DataFrame

另请参阅

DataFrame.to_delta
read_table
read_spark_io
read_parquet

例子

           > > >ps。范围(1)。to_delta(”% s/ read_delta / foo”%路径)> > >ps。read_delta(”% s/ read_delta / foo”%路径)id0 0
          

           > > >ps。范围(10,15,num_partitions=1)。to_delta(”% s/ read_delta / foo”%路径,…模式=“覆盖”)> > >ps。read_delta(”% s/ read_delta / foo”%路径)id0 101 112 123 134 14
          

           > > >ps。read_delta(”% s/ read_delta / foo”%路径,版本=0)id0 0
          

你可以保留指数往返如下。

           > > >ps。范围(10,15,num_partitions=1)。to_delta(…”% s/ read_delta /酒吧'%路径,index_col=“指数”)> > >ps。read_delta(”% s/ read_delta /酒吧'%路径,index_col=“指数”)id指数0 101 112 123 134 14
          

以前的

pyspark.pandas.DataFrame.to_table

下一个

pyspark.pandas.DataFrame.to_delta