Databricks Runtime 5.3 ML(不支持)

Databricks于2019年4月发布了这张图片。

Databricks Runtime 5.3 ML为机器学习和数据科学提供了一个现成的环境Databricks Runtime 5.3(不支持).Databricks Runtime for ML包含许多流行的机器学习库,包括TensorFlow、PyTorch、Keras和XGBoost。它还支持使用Horovod进行分布式深度学习训练。

有关更多信息,包括创建Databricks Runtime ML集群的说明,请参见介绍Databricks运行时机器学习

新功能

Databricks Runtime 5.3 ML是建立在Databricks Runtime 5.3之上的。有关Databricks Runtime 5.3中的新特性的信息,请参见Databricks Runtime 5.3(不支持)发行说明。除了库更新, Databricks Runtime 5.3 ML引入了以下新特性:

  • MLflow+Apache Spark MLlibDatabricks Runtime 5.3 ML支持自动日志记录MLflow运行适用于使用PySpark调优算法的模型CrossValidator而且TrainValidationSplit

    预览

    此功能已在私人预览.请与Databricks销售代表联系以了解如何启用它。

  • 将下列库升级到最新版本:

    • PyArrow从0.8.0到0.12.1:BinaryType支持基于箭头的转换,可以在PandasUDF

    • Horovod从0.15.2到0.16.0。

    • TensorboardX从1.4到1.6。

Databricks ML模型导出API已弃用。Databricks建议改用MLeap,它提供了更广泛的MLlib模型类型覆盖。欲知详情,请浏览MLeap ML模型导出

系统环境

Databricks Runtime 5.3 ML的系统环境与Databricks Runtime 5.3不同:

  • PythonPython 2集群为2.7.15,Python 3集群为3.6.5。

  • DBUtils: Databricks Runtime 5.3 ML不包含库实用程序(dbutls . Library)

  • 对于GPU集群,以下NVIDIA GPU库:

    • 特斯拉司机396.44

    • CUDA 9.2

    • CUDNN 7.2.1

以下部分列出了Databricks Runtime 5.3 ML中包含的不同于Databricks Runtime 5.3的库。

顶级库

Databricks Runtime 5.3 ML包括以下顶级

Python库

Databricks Runtime 5.3 ML使用Conda进行Python包管理。因此,与Databricks运行时相比,预安装的Python库有很大的不同。以下是使用Conda包管理器安装的Python包和版本的完整列表。

图书馆

版本

图书馆

版本

图书馆

版本

absl-py

0.7.0

argparse

1.4.0

asn1crypto

0.24.0

阿斯特

是0.7.1

backports-abc

0.5

backports.functools-lru-cache

1.5

backports.weakref

1.0.post1

bcrypt

3.1.6

漂白剂

2.1.3

宝途

2.48.0

boto3

1.7.62

botocore

1.10.62

certifi

2018.04.16

cffi

1.11.5

chardet

3.0.4

cloudpickle

0.5.3

彩色光

0.3.9

configparser

3.5.0

密码学

2.2.2

周期计

0.10.0

Cython

0.28.2

装饰

4.3.0

docutils

0.14

entrypoints

0.2.3

enum34

1.1.6

et-xmlfile

1.0.1

funcsigs

1.0.2中

functools32

3.2.3-2

fusepy

2.0.4

期货

3.2.0

使惊讶

0.2.2

grpcio

1.12.1

h5py

2.8.0

horovod

0.16.0

html5lib

1.0.1

idna

2.6

ipaddress

1.0.22

ipython

5.7.0

ipython_genutils

0.2.0

jdcal

1.4

Jinja2

2.10

jmespath

0.9.3

jsonschema

2.6.0

jupyter-client

5.2.3

jupyter-core

4.4.0

Keras

2.2.4

Keras-Applications

1.0.6

Keras-Preprocessing

1.0.5

kiwisolver

1.0.1

linecache2

1.0.0

llvmlite

0.23.1

lxml

4.2.1

减价

3.0.1

MarkupSafe

1.0

matplotlib

2.2.2

使走调

0.8.3

mleap

0.8.1

模拟

2.0.0

msgpack

0.5.6

nbconvert

5.3.1

nbformat

4.4.0

鼻子

1.3.7

nose-exclude

0.5.0

numba

0.38.0 + 0. g2a2b772fc.dirty

numpy

1.14.3

olefile

0.45.1

openpyxl

2.5.3

熊猫

0.23.0

pandocfilters

1.4.2

paramiko

2.4.1

pathlib2

2.3.2

容易受骗的人

0.5.0

pbr

5.1.1

pexpect

4.5.0

pickleshare

0.7.4

枕头

5.1.0

皮普

10.0.1

厚度

3.11

prompt-toolkit

1.0.15

protobuf

3.6.1

psutil

5.6.0

psycopg2

2.7.5

ptyprocess

0.5.2

pyarrow

0.12.1

pyasn1

0.4.5

pycparser

2.18

Pygments

2.2.0

PyNaCl

1.3.0

pyOpenSSL

18.0.0

pyparsing

2.2.0

PySocks

1.6.8

Python

2.7.15

python-dateutil

2.7.3

pytz

2018.4

PyYAML

3.12

pyzmq

17.0.0

请求

2.18.4

s3transfer

0.1.13

scandir

1.7

scikit-learn

0.19.1

scipy

1.1.0

seaborn

0.8.1

setuptools

39.1.0

simplegeneric

0.8.1

singledispatch

3.4.0.3

六个

1.11.0

statsmodels

0.9.0

subprocess32

3.5.3

tensorboard

1.12.2

tensorboardX

1.6

tensorflow

1.12.0

termcolor

1.1.0

testpath

0.3.1

火炬

0.4.1

torchvision

0.2.1

龙卷风

正式

traceback2

1.4.0

traitlets

4.3.2

unittest2

1.1.0

urllib3

1.22

virtualenv

16.0.0

wcwidth

0.1.7

webencodings

0.5.1

Werkzeug

0.14.1

0.31.1

打包

1.10.11

wsgiref

0.1.2

此外,以下Spark包中还包含Python模块:

火花包

Python模块

版本

graphframes

graphframes

0.7.0-db1-spark2.4

spark-deep-learning

sparkdl

1.5.0-db1-spark2.4

tensorframes

tensorframes

0.6.0-s_2.11

Java和Scala库(Scala 2.11集群)

除了在Databricks Runtime 5.3中的Java和Scala库之外,Databricks Runtime 5.3 ML还包含以下jar:

组ID

工件ID

版本

com.databricks

spark-deep-learning

1.5.0-db1-spark2.4

com.typesafe.akka

akka-actor_2.11

2.3.11

ml.combust.mleap

mleap-databricks-runtime_2.11

0.13.0

ml.dmlc

xgboost4j

0.81

ml.dmlc

xgboost4j-spark

0.81

org.graphframes

graphframes_2.11

0.7.0-db1-spark2.4

org.tensorflow

libtensorflow

1.12.0

org.tensorflow

libtensorflow_jni

1.12.0

org.tensorflow

spark-tensorflow-connector_2.11

1.12.0

org.tensorflow

tensorflow

1.12.0

org.tensorframes

tensorframes

0.6.0-s_2.11