开始
加载和管理数据
处理数据
政府
引用和资源
2023年8月1日更新
给我们反馈
您可以执行自然语言处理任务等砖使用流行的开源库的火花毫升和spark-nlp或专有库通过砖与约翰·斯诺合作实验室。bob下载地址bob体育外网下载
与拥抱NLP的例子的脸,看到额外的资源
火花毫升包含一系列的文本处理工具来创建特性从文本列。您可以创建从文本输入功能直接在你的模型训练算法火花毫升管道用火花毫升。火花毫升支持的范围文字处理器,包括标记、障碍处理、word2vec散列和特性。
你可以扩展出许多深刻的学习方法对自然语言处理引发使用开源火花NLP库。该库支持自然语言处理标准操作,如分词,命名实体识别,使用包括向量化注释器。你也可以总结,进行命名实体识别、翻译,并生成文本使用许多pre-trained深度学习模型的基础上火花NLP的变形金刚如伯特和T5马里昂。
火花NLP提供了许多pre-trained模型可以使用最少的代码。这部分包含一个例子使用机器翻译的玛丽安变压器。全套的例子,请参阅火花NLP文档。
用火花NLP,创建或者使用集群运行任何兼容运行时。
安装火花NLP在集群上使用最新的Maven坐标引发NLP,等com.johnsnowlabs.nlp: spark-nlp_2.12:4.1.0。
com.johnsnowlabs.nlp: spark-nlp_2.12:4.1.0
笔记本电池,安装sparknlppython库:
sparknlp
%皮普安装sparknlp
构造一个管道进行翻译并运行它在一些示例文本:
从sparknlp.base进口DocumentAssembler从sparknlp.annotator进口SentenceDetectorDLModel,MarianTransformer从pyspark.ml进口管道document_assembler=DocumentAssembler()。setInputCol(“文本”)。setOutputCol(“文档”)sentence_detector=SentenceDetectorDLModel。pretrained(“sentence_detector_dl”,“xx”)\。setInputCols(“文档”)。setOutputCol(“句子”)marian_transformer=MarianTransformer。pretrained()\。setInputCols(“句子”)。setOutputCol(“翻译”)管道=管道()。setStages([document_assembler,sentence_detector,marian_transformer])数据=火花。createDataFrame([[“你可以使用火花NLP翻译文本。”+\“这个例子管道翻译英语,法语”]])。toDF(“文本”)#创建一个管道模型,可以跨多个数据帧被重用模型=管道。适合(数据)#你可以使用模型在任何一个“文本”列的数据帧结果=模型。变换(数据)显示(结果。选择(“文本”,“translation.result”))
笔记本的例子说明了如何使用火花NLP培训命名实体识别模型,MLflow保存模型,使用该模型推理在文本。指的是约翰·斯诺为火花NLP实验室文档学习如何训练更多的自然语言处理模型。
在新标签页打开笔记本
约翰·斯诺实验室火花NLP为医疗保健是一个私有库临床和生物医学文本挖掘。这个库提供pre-trained模型识别和处理临床实体,药物,风险因素,解剖学、人口、和敏感数据。你可以试着火花NLP医疗使用合作伙伴连接与约翰·斯诺集成实验室。你需要与约翰·斯诺实验室试验或支付帐户。阅读更多关于约翰·斯诺的全部功能实验室火花NLP医疗和文档在使用网站。