砖运行时为10.1毫升(不支持)

砖10.1运行时机器学习为机器学习和数据提供了一个准备好了环境科学的基础上砖运行时的10.1(不支持)。砖运行时毫升含有许多流行的机器学习库,包括TensorFlow PyTorch, XGBoost。它还支持使用Horovod分布深度学习培训。

更多信息,包括指令创建砖集群运行时毫升、明白了介绍砖运行时机器学习

请注意

这些版本注释可能包括引用功能不可用这个版本的谷歌云。

新特性和改进

砖砖的运行时10.1毫升之上10.1运行时。有什么新信息的砖10.1运行时,包括Apache火花MLlib和SparkR,看到砖运行时的10.1(不支持)发行说明。

增强砖AutoML

在砖10.1运行时,砖AutoML包括改进的语义类型检测,在培训新警告潜在的数据问题,新功能,防止过度拟合模型,并且能够把输入数据集分割成火车,验证集和测试集顺序。

额外的语义类型检测

AutoML现在支持额外的语义类型检测:

  • 数字列包含分类标签被当作一个分类类型。

  • 字符串列包含英语文本被当作一个文本功能。

您还可以添加注释指定列的数据类型。有关详细信息,请参见语义类型检测

警报在培训期间潜在的数据问题

现在AutoML检测和潜在问题的数据集生成警报。示例警报包括支持列类型和高基数列。这些警报出现在实验在新页警报选项卡。额外的警报信息包含在数据探索笔记本。有关更多信息,请参见运行试验和监测结果

减少模型过度拟合

两个新功能使用AutoML时减少过度拟合模型的可能性:

  • 现在AutoML报告测试指标的额外验证和训练指标。

  • AutoML现在使用早期停止。它停止训练和调优模型如果验证指标不再是改善。

将数据集分为训练/验证/测试集顺序

对于分类和回归问题,可以将数据集分为训练,验证集和测试集顺序。看到将数据分为训练/验证/测试集获取详细信息。

增强砖特色商店

砖特性存储现在支持额外的数据类型的功能表:BinaryType,DecimalType,MapType。有关更多信息,请参见支持的数据类型

Mlflow

可用以下改进在Mlflow 1.21.0版开始,这是包含在砖运行时的10.1毫升。

  • (模型)升级fastai模型味道支持fastai v2(2.4.1及以上)。

  • 引入一个mlflow(模型)。先知model flavor for Prophet time series models.

  • (得分)修复模式执行错误,错误地把日期字符串datetime对象。

Hyperopt

SparkTrials现在支持early_stopping_fn参数fmin。您可以使用早期停止函数来指定条件时Hyperopt应该停止hyperparameter调优之前评估的最大数量。例如,您可以使用这个参数调优如果目标函数不再减少。有关详细信息,请参见fmin ()

重大变化砖Python运行时毫升的环境

Python包升级

  • automl 1.3.1 = > 1.4.1

  • feature_store 0.3.4 = > 0.3.5

  • 假期0.11.2 = > 0.11.3.1

  • horovod 0.22.1 = > 0.23.0

  • hyperopt 0.2.5。db2 = > 0.2.5.db4

  • imbalanced-learn 0.8.0 = > 0.8.1

  • lightgbm 3.1.1 = > 3.3.0

  • mlflow 1.20.2 = > 1.21.0

  • petastorm 0.11.2 = > 0.11.3

  • 情节5.1.0 = > 5.3.0

  • pytorch 1.9.0 = > 1.9.1

  • 宽大的3.1.2 = > 3.1.3

  • sparkdl 2.2.0_db3 = > 2.2.0_db4

  • torchvision 0.10.0 = > 0.10.1

  • 变形金刚4.9.2 = > 4.11.3

Python包添加

  • fasttext = > 0.9.2

  • tensorboard-plugin-profile = > 2.5.0

的用法

MLlib自动化MLflow跟踪弃用集群上运行砖运行时10.1毫升以上。相反,使用MLflow PySpark毫升autologging通过调用mlflow.pyspark.ml.autolog ()。Autologging是默认启用的砖Autologging

系统环境

砖的系统环境运行时10.1毫升不同于砖运行时的10.1如下:

下面的章节列表库包含在砖运行时的10.1毫升,不同于那些包含在砖10.1运行时。

Python库

砖运行时10.1毫升使用Virtualenv Python包管理,包括许多流行毫升包。

除了包中指定在下面几节中,砖运行时10.1毫升的还包括以下方案:

  • hyperopt 0.2.5.db4

  • sparkdl 2.2.0-db4

  • feature_store 0.3.5

  • automl 1.4.0

请注意

砖运行时10.1毫升包括scikit-learn版本0.24而不是1.0版本不兼容的问题。scikit-learn包与许多其他包砖运行时10.1毫升。

你可以升级到1.0版本scikit-learn;然而,砖不支持这个版本。

升级,使用notebook-scoped库。从一个笔记本,运行%皮普安装——升级“scikit-learn > = 1.0 < 1.1”

另一种方法是使用它集群init脚本:

# ! / bin / bash- e pip安装,升级“scikit-learn > = 1.0 < 1.1”

Python库对CPU集群

图书馆

版本

图书馆

版本

图书馆

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白剂

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目录

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

铿锵声

5.0

点击

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密码学

3.4.7

周期计

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.3

databricks-cli

0.14.3

dbus-python

1.2.16

装饰

5.0.6

defusedxml

是0.7.1

莳萝

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未来

0.18.2

使惊讶

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.0.19

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

绝地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

lightgbm

3.3.0

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鲭鲨

1.1.3

减价

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走调

0.8.4

mleap

0.18.1

mlflow-skinny

1.21.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

笔记本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包装

20.9

熊猫

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感觉”

0.6.0

容易受骗的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕头

8.2.0

皮普

21.0.1

情节

5.3.0

3.0.5

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.0

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1发布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1发布

python编辑器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正则表达式

2021.4.4

请求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鹏科技电子

0.39.0

simplejson

3.17.2

六个

1.15.0

切片机

0.0.7

smart-open

5.2.0

smmap

3.0.5

宽大的

3.1.3

spacy-legacy

3.0.8

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

汇总

0.8.7

tangled-up-in-unicode

0.1.0

韧性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow-cpu

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.9

threadpoolctl

魅惑

分词器

0.10.3

火炬

1.9.1 + cpu

torchvision

0.10.1 + cpu

龙卷风

6.1

tqdm

4.59.0

traitlets

5.0.5

变形金刚

4.11.3

打字机

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

愿景

0.7.4

芥末酱

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化锌碘仿糊

3.4.1

Python库在GPU集群

图书馆

版本

图书馆

版本

图书馆

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白剂

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目录

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

铿锵声

5.0

点击

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密码学

3.4.7

周期计

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.3

databricks-cli

0.14.3

dbus-python

1.2.16

装饰

5.0.6

defusedxml

是0.7.1

莳萝

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未来

0.18.2

使惊讶

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.0.19

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

绝地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

lightgbm

3.3.0

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鲭鲨

1.1.3

减价

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走调

0.8.4

mleap

0.18.1

mlflow-skinny

1.21.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

笔记本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包装

20.9

熊猫

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感觉”

0.6.0

容易受骗的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕头

8.2.0

皮普

21.0.1

情节

5.3.0

3.0.5

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.1发布

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1发布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1发布

python编辑器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正则表达式

2021.4.4

请求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鹏科技电子

0.39.0

simplejson

3.17.2

六个

1.15.0

切片机

0.0.7

smart-open

5.2.0

smmap

3.0.5

宽大的

3.1.3

spacy-legacy

3.0.8

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

汇总

0.8.7

tangled-up-in-unicode

0.1.0

韧性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.9

threadpoolctl

魅惑

分词器

0.10.3

火炬

1.9.1 + cu111

torchvision

0.10.1 + cu111

龙卷风

6.1

tqdm

4.59.0

traitlets

5.0.5

变形金刚

4.11.3

打字机

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

愿景

0.7.4

芥末酱

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化锌碘仿糊

3.4.1

引发包包含Python模块

火花包

Python模块

版本

graphframes

graphframes

0.8.2-db1-spark3.2

R库

R库的完全相同R库在砖10.1运行时。

Java和Scala库(Scala 2.12集群)

除了Java和Scala库砖10.1运行时,砖运行时10.1毫升包含以下jar:

CPU集群

组ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-spark_2.12

1.4.1

ml.dmlc

xgboost4j_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db6-spark3.2

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

组ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-gpu_2.12

1.4.1

ml.dmlc

xgboost4j-spark-gpu_2.12

1.4.1-spark3.2

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.21.0

org.mlflow

mlflow-spark

1.21.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0