非结构化的自由文本医疗记录是医疗保健中许多关键事实的唯一来源。因此,准确的自然语言处理是许多医疗保健人工智能应用的关键组成部分,如临床决策支持、临床路径推荐、队列选择、患者风险或异常检测。NLP深度学习的最新进展使临床语言理解的准确性和可扩展性达到了一个新的水平,首次使广泛的应用成为可能。
本讲座的第一部分将介绍深度学习技术、解释能力特征和已应用的NLP管道体系结构。我们将简要介绍关键的底层技术:用于医疗保健的Spark NLP、BERT嵌入和特定于医疗保健的嵌入。然后,我们将描述如何将这些应用于解决医疗保健环境中的挑战:理解临床术语、提取感兴趣的专业特定事实,以及使用迁移学习来最小化所需的特定于任务的注释量。还将介绍MLflow的使用及其与Spark NLP的集成,以跟踪实验并重现结果。
演讲的第二部分将涉及自动化深度学习:一旦临床注释人员添加或更正标记数据,系统就能训练、调整和测量模型。我们将介绍注释过程和准则;为什么需要自动化来处理跨提供者、文档类型和地理位置的临床语言的多样性;以及这在实践中是如何运作的。提供可解释的结果(包括在文本中突出显示提取的语义事实的证据)是另一个关键的业务需求,我们将展示如何解决这个需求。本次演讲面向数据科学家、软件工程师、架构师和领导者,他们必须设计真实的临床AI应用程序,并对将NLP和深度学习的最新进展应用于该领域的经验教训感兴趣。
-大家好,希望你们在2020年Spark+AI峰会上玩得开心,谢谢你们的到来。我叫Vishakha Sharma,我是罗氏公司的首席数据科学家,我将和我的同事Yogesh Pandit,他是罗氏公司的软件工程师,以及John Snow实验室的CTO David Talby一起演讲。
我们演讲的题目是罗氏公司临床语言理解的自动化和可解释深度学习。在演讲的第一部分,我们将介绍为什么患者和医生需要大规模的精确和自动化的自然语言理解。在演讲的第二部分,我们将介绍如何构建深度学习NLP和OCR模型,以及解决这些挑战的管道。最后,我们将介绍在生产中实现真实医疗保健数据的最先进的准确性。充分披露,罗氏是John Snow实验室的一个愉快的客户,我们将共同呈现这次演讲,以提供罗氏使用Spark NLP的高水平概述,Spark NLP是John Snow实验室的一款产品。在演讲中所包含或陈述的任何内容都不构成罗氏对约翰·斯诺实验室产品的认可。John Snow Labs完全负责与John Snow Labs产品相关的任何声明的准确性和完整性,包括产品的性能。
简单介绍一下罗氏,它有120年的历史,总部设在瑞士巴塞尔。它有两个主要的业务部门,诊断和制药。它在体外诊断和癌症治疗方面是全球领先的。在诊断领域,我们有一个名为诊断信息解决方案的团队。
我们的主要重点是NAVIFY决策支持组合,我们主要在肿瘤学领域工作。
NAVIFY TB(肿瘤板)是一款基于云的工作流产品,可安全地将相关聚合数据集成并显示到单个整体患者仪表板中,供肿瘤护理团队审查、调整并决定对患者的最佳治疗方案。临床决策支持应用程序生态系统是安全的,并与NAVIFY肿瘤板完全集成。我们有三个临床决策支持应用程序。NAVIFY指南,NAVIFY临床试验匹配,和NAVIFY出版物搜索。
对于癌症患者来说,在他们的治疗过程中会产生大量的数据点,例如基因组学,病理学,放射学,他们的临床数据。这里的目标是通过解锁这些数据源来导航患者旅程的复杂性,并生成纵向视图。从更全面的角度来看,解锁非结构化数据是非常重要的,因为很多时候,很多时候,这些数据包含诊断和治疗信息。这些数据使我们能够进行临床决策支持和人口分析。在这次演讲中,我们将重点讨论病理学中的非结构化文本数据。这是一个病理报告的例子。
病理报告非常多样化。它们有行话、表格、键值对和手写笔记。如果你看到右边,这是一个病理领域的样本报告。
在很多情况下,当病理学家检查样本报告时,它看起来是这样的。你们有多少人见过这样的东西?这是手写的文字。如果你仔细阅读,你会发现,他们在谈论肿瘤部位,肿瘤分期,ICD编码,以及其他一些东西。所有这些注释使这份报告非常有价值,但挑战是,我们如何提取所有这些信息?
看完这些报告后,很明显,除了NLP,我们还需要OCR来有效地提取信息。什么是NLP?自然语言处理是人工智能的一个领域,它帮助计算机理解、解释和操纵人类语言。NLP涉及许多学科,包括计算机科学和计算语言学。它有可能填补人类交流和计算机理解之间的空白。什么是OCR?光学字符识别是计算机对印刷或书写的文本字符的识别。因此,我们需要高精度的自然语言处理,专门用于医疗数据,用最少的时间来训练模型。这可以扩展到新的内容类型。我们需要OCR具有较高的准确性和保留文档结构(如表、列表和背景)的能力。 We had a bunch of requirements from tools and services that would help us achieve this task or needs, like scalability, compliance, low-cost ability to run on print or in the cloud. The success of NLP approaches heavily depends on being able to understand the domain. And as a first step, we want to identify named entities from the domain specific documents. These entities are highly specific to the use cases.
医疗保健数据非常异构和复杂,需要高质量的标签数据和领域专业知识,这对任何组织来说都非常昂贵和耗时。在罗氏,我们已经将超过45个肿瘤实体从病理学中提取到书籍中。以下是一些被诊断为肺癌、乳腺癌和结肠癌的患者的手术病理报告。突出显示的文本显示了感兴趣的实体及其相关标签。第一个例子显示了一个肺部病人的诊断信息,肺,右上叶病变,楔形活检腺癌,中度分化,肺是一个位置,右边是一个侧面,楔形活检是一个过程,2.5厘米是肿瘤的大小,它说手术边缘没有涉及。
第二个例子显示了一个乳房病人的显微描述。组织学类型为有转移特征的浸润性导管癌,肉瘤样癌区域,组织学分级未提及,总分级为3级。在这句话中,我们将浸润性导管癌标记为癌型,将肉瘤样癌也标记为癌型,将三级标记为分级。
最后一个例子说明了结肠病人的临床资料和病理诊断。肿瘤部位为升结肠肿块,最终诊断为右结肠伴阑尾、半结肠切除术、两处腺癌、近端升结肠和远端升结肠。如果你看到这个例子,你会看到多次提到类型、本地化和过程。我们的方法是,第一步,尽可能广泛地分类内容。这帮助我们通过实体提取获得更高的召回率,然后在下一步中,通过将实体映射到标准概念来实现更高的精度。
简单地说,NER就是实体提取,它是信息提取的一个子任务,旨在将非结构化文本中提到的命名实体定位并分类到预定义的类别中,例如肿瘤部位、肿瘤类型等等。Spark NLP提供了CNN+Bi-LSTM和Bio-Bert实现,我们已经训练了模型,从病理报告中提取了超过45个标签。CNN+Bi-LSTM是一种新型的神经网络架构,它使用混合的双向LSTM自动检测单词和字符级别的特征,CNN是一种卷积神经网络架构,消除了大多数特征工程的需要。BERT代表的是来自变压器的双向编码器表示。与最近的语言表示模型不同,BERT旨在通过在所有层中联合调节左右上下文,从未标记的文本中预先训练深度双向表示。Bio-BERT是第一个基于特定领域的基于bert的模型,该模型在生物医学领域,如PubMed摘要和DNC全文文章的语料库上进行了预训练。所以让我把它交给Yogesh,他会告诉你更多关于我们的工作流程。-非常感谢你的背景介绍,Vishakha。那么,让我简单地谈谈我们是如何采用这种方法的。让我开始讲一点背景知识。 So when we started, we started off with a more traditional entity recognition approach like CRF, and it worked really well for us when we had like a small well-labeled data set. But as we started to expand beyond the domains, like from pathology to radiology or the genomics side, as we started expanding beyond cancer types, this approach started to crack. Training was taking much, much longer. You couldn’t efficiently leverage word embeddings, clinical word embeddings, and transfer learning across domains and cancer types was not efficient. So that is when we started to experiment with the CNN based approach. It has been working really well for us. We use a Spark NLP-based implementation of it, and we’ve been able to achieve good results with it. It is also a state-of-the-art implementation based on a certain publicly available data sites.
我们工作流程中的下一个组件是光学字符识别。Vishakha简要介绍了这个,但让我们快速重申一下,光学字符识别基本上是能够将PDF或图像,比如PDF和图像中的文本转换为机器可读的文本。所以这里的目标是,你可以想象,对吧?能够始终如一地将pdf文件转换为机器可读的文本,实际上是在病理学,基因组学和放射学家的领域。因此,为了评估像OCR这样的系统,我们使用了从字符错误率开始的矩阵的组合,它只是将参考文档转换为输出文本所需的最小操作数。因此,我们也基于一个单词编辑器来评估它,它只是指在参考文档和输出文本之间有多少单词被替换、删除或插入。所以你可以想象,像基于单词错误率的评估,它有自己的挑战,比如处理间距或者像处理单词序列的长度。因此,我们也研究了一个稍微高级一点的度量标准,它是基于单词袋的。所以我们不是评估单词错误率,而是评估一袋单词错误率,你可以想象,就是一堆单词,基本上是一组单词。每一个指标,我们都是根据OCR系统参数来衡量的,比如引擎模型,它会告诉你,文档是否为纯文本,或者上面是否有图像层,然后是页面分割模式,它会告诉你文档上是否有字符,或者上面是否有一团文本,或者上面是否有表格之类的东西。 And then some other factors like the scaling of the layer on the PDF, and erosion, and all of that. So overall, based on these metrics, and against the ground proof that we basically generated ourselves, we landed on a set of values for the parameters that has been performing really well for the data that we have. So this is kind of how we experimented and optimized our OCR pipeline.
因此管道中的下一个组件是实体解析。我们讲过命名实体识别,也讲过OCR,但只有这两种方法,你不能从非结构化文本中得到结构。什么是实体解析?所以实体解析基本上就是移除重复的规范化数据基于大的等待记录,这些记录基本上对应于你的数据集中真实世界的实体。你们在屏幕上看到的只是一个概念的例子以及这些概念的代码。所以我们的想法是,我们一直在探索使用临床词嵌入,这些块都来自实体识别。我们试图将这些块解析为标准术语中的一个概念。就像你想象的那样,你的实体识别器会有多个模型,你需要有多个模型来实现你的集成解决方案,这取决于所使用的术语。
现在我们已经讨论了在这里发挥作用的技术,让我谈谈这个过程。
你在这个屏幕上看到的,在左边,我们正在谈论标记数据和建立模型。在右边,我们讨论的是部署模型,基本上是为模型服务。这里有很多元素。到目前为止,为了以自动化的方式构建模型,我们坚持使用老式的Jenkins,我们使用它进行编排。我的意思是,主要原因是这在我们的基础设施中是现成的,所以我们坚持使用Jenkins。我们做出的另一个选择是继续使用木星,当然是为了进行探索性分析,但我们也坚持使用它来运行我们的管道。所以我们所做的就是使用一个叫做Papermill的开源bob下载地址工具,它可以参数化我们的Jupyter笔记本,我们可以在我们的编组器中以命令行脚本的形式运行它们。
这使得我们的工作流程相当简单。所以我们不需要维护一个笔记本,然后维护脚本,基本上在我们的缩放中运行。在那之后,如果你能看到,如果你能看到,在图表上,我们使用MLflow来跟踪我们的参数,我们的性能,并记录我们的工件。所以这让我们能够比较,提取和部署任何历史回合的任何神器。在那之后,我们将模型部署在一个容器中,这个容器被提供给模型服务器,然后它们只提供两个api。这更像是我们的沙盒环境。当我们转向生产时,更多的是手工操作,因为我们处在一个受管制的环境中。
继续我们的工作流程,这是一个放大的视图,展示了所有这些技术的消费者,把NLP技术放在一起会得到什么,这张幻灯片基本上告诉你,比如,如果你有一个PDF文档,你需要通过OCR运行它,它会把你带回文本。
当然,如果它不是PDF文档,
我们不需要,不需要使用OCR。然后,该文本通过命名实体识别模型运行。你可以有一个,也可以有很多个,这样基本上就得到了模型预测的所有实体。
在你得到这些实体之后,你会用它们来映射术语api,你基本上把它们解析为标准术语。
我们有一条边它基本上协调了所有这些。因此,最终用户只需要将输入作为文档处理,将输出作为结构化数据处理。
你可能会想,对吧?我的意思是,看看整个管道,一个人需要写多少代码才能让一个模型运行起来?所以幸运的是,它不是很多。
这是Spark NLP的一个代码片段。你可以看到有一个使用BERT嵌入和基于深度学习的实体识别器构建的模型。我们的管道看起来和这个很像。当然,周围有一些锅炉盘来让事情进行,但我们的模型的训练,就像它是什么一样简单。所以这真的帮助我们使事情变得简单。我们能够以更快的速度通过改变或实验来重复。
说了这么多,我想以整个NLP过程来结束这一部分,这对罗氏来说是一段旅程。我们从零开始,一直致力于扩展到更多的领域,并试图将尽可能多的信息提取自动化。
所以我们想,就像Vishakha介绍的那样,我们从病理学开始我们正在向更多的领域努力,比如放射学和基因组学。我们希望利用到目前为止我们所学到的知识来应对这个新的挑战。现在让我把它交给David,他会告诉你们更多关于Spark NLP的知识,这是我们在所有工作中一直使用的工具。-谢谢Yogesh,大家好。我想讲的是Spark NLP,是库,正如Yogesh和Vishakha解释的那样,它是这些项目和这些用例的启用库之一。
所以我们希望这将使你们能够理解如何在你们自己的项目中最好地使用这些,在一般情况下,即使它是在医疗保健领域的NLP,我真的觉得你们只是在这种非常特定的领域中使用它们,混合理解程序。一方面,你想从最先进的算法模型和实现开始,但另一方面,你也知道你愿意训练自己的算法模型和实现,但你需要回答特定的问题,这些问题需要在上下文中回答。Spark NLP是一个开源库。bob下载地址
它的目标是提供最先进的自然语言处理研究的工业生产级实现。
所以这个团队所做的就是阅读最新的论文,最新的研究,试图复制它们。凡是不能生产一般产品的,都成为生产级产品的一部分。它可能会成为Python、Scala和Java api的开bob下载地址源库。
它也有一个生态系统,有100多个预先训练好的模型和预先训练好的管道,我认为,你可以很容易地用三行代码激活它们,现在,它是一个非常活跃的社区,2018年有26个新版本,2019年有13个新版本。同样的速度将在2020年继续。2019年初,Spark NLP成为企业中使用最广泛的NLP库,而就在几周前,O 'Reilly在2020年发布了企业服务中人工智能的采用。Spark NLP是迄今为止在生产和企业中使用最广泛的NLP库。
在Spark NLP之上,用于构建这个项目的产品,是用于医疗的Spark NLP,这是一个扩展,这是必需的,因为我想你们已经在医疗NLP中看到了,但你们的医疗NLP与通用语言NLP是一个不同的问题,一直到有不同的国家,研究论文,不同基准的会议,我们会处理它。所以有一个不同的代码库和一套不同的模型来提供最先进的临床和医疗NLP解决方案。正如你在这里看到的,它有整个相同的碱基,我们说过,你可以用它来做其他的东西。但接下来是六个具体的保健,首先,像标记化,词性,拼写检查,甚至句子模仿。然后在它之上,识别临床实体,例如,我们在这里看到的肿瘤实体。这里实现了临床实体连接。所以做实体解析,是,我们应该解释,在能够做一个实体,专门编码在一个医学术语中,发现这是一个断言,所以很好,我们可以提取术语糖尿病,但在大多数情况下,如果我们不能区分患者之间的糖尿病患者,没有糖尿病,他们怀疑糖尿病,或者患者有糖尿病家族史。所以如果你不能区分这四个,只知道这个项几乎是没有用的。如果你想看病人的风险,提到病人的临床试验,所有的命令都在案例中。现在,我们要找到最佳的下一步行动来做出支持它的决定。 The other very important features like de-identification of both structured and unstructured data, as well as the OCR capability here, which we have seen here. And on top of it, Spark NLP comes with more than 50 pre-trained models, some of them on embedding, some of them are NER models, reassertion surface models and the inking models, but very important as you’ve just seen is the ability to train your own. Because most often, if you’re in the healthcare setting and you’re working in a specific specialty or specific use case, you will want to tune your models to extract specific focus on those specific entities. In this use case, now, we do not care about symptoms, problems, and drugs, We care about the specific size, laterality, histology of the tumor. And then the question is, okay, how fast can you get to a point where you have a very high accuracy, more than 40 specific in this case?
因此,一般来说,在Spark NLP、Spark NLP for Healthcare和Spark OCR的设计中,有三个主要设计目标:确保准确性、可伸缩性和速度。
准确性,当我们说最先进的,这不是一个营销术语,这是一个学术术语,这意味着如果一个算法是最先进的,它真的能在任何同行评审的论文中提供最好的公共学术基准的准确性。所以基本上这是他们所需要的最好的,研究界已经能够以可验证的方式生产出来。
正如你所看到的,这是一种非常正式的方式,Spark NLP确实比其他库做得更好,真的,但只是通过采用一些最新的进展在唯一学习和持续学习。最重要的是,在过去的两三个月里发生了一些真正的新事情,这真的是两个,2.4版本,NLP认知深度学习算法被重做,在嵌入中,在Spark OCR中,现在有20个不同的注释器,能够预处理图像。所以它提到了侵蚀和缩放,现在你也可以做一个降噪,一个自动缩放,Stu校正和其他算法,使你能够提高图像的准确性在你尝试提取文本之前。在临床实体解决方案中,现在也已经完成了。当你有更精确的算法时,它是有效的,它实际上抑制了新模型的帮助,比如映射在更大的技术中,比如[听不清],这些技术也可以开箱即用。2.5件事,我的意思是,就在一个月前,是对ALBERT和XLNet嵌入式的集成支持,Spark NLP在2020年为这两项新任务提供了非常先进的结果,那就是拼写检查和情感分析,因为它的可训练性也打破了情感检测。
在可伸缩性方面,Spark NLP是基于Apache Spark的,实际上,它是获得分布式开源NLP库的唯一途径。bob下载地址是的,你可以在任何Spark集群上运行。还有一件重要的事情,特别是在医疗保健环境中,当您处理患者数据时。使用这些数据,它只是一个图书馆。所以这不是一种服务,你不需要把你的数据发送给第三方,在这种情况下,它是自己的合规,共享,隐私问题。您可以自己在容器上的本地机器上或需要扩展时遇到这种情况。你可以在集群和你在右边看到的基准上进行扩展,它只是AWS EMR与零代码更改以及这些基准背后的整个故事,如果你想生产它,它可以在网上得到。Apache Spark在这方面确实让我们受益。因为它处理了分布式计算带来的所有棘手问题,比如最小化变换,优化缓存,最小化我们在实际运行整个管道之前执行计划时使用的带宽量。所以Apache Spark社区和DataBricks团队做了很多工作来利用这些,并确保Spark可以清楚地从我们提供的算法中榨出最大的能量。当然,分布式计算并不是魔法。 And the speed up you’ll see, it depends heavily on the use case. So if you’re doing inference for example, you’ll like it, you’ll see nearly linear speed ups, but if you’re training say an RNN, which is by nature more iterative, you’re going to see sublinear speed ups.
在速度方面,Spark NLP的另一件事是确保它针对最新最好的算法平台进行了优化,特别是来自英特尔和英伟达的算法平台。bob体育客户端下载所以英伟达显然有gpu,它有好几代,每一代都增加了不同类型的内存架构,甚至指令。在英特尔,在过去的三年里,开始生产具有深度学习特定指令的芯片,它有一个优势,它可以使用比GQ上的内存更多的内存,这在一些用例中肯定有帮助,Spark NLP为英特尔和英伟达优化了构建。这个特定的用例比较了两代英特尔芯片和Nvidia的特斯拉P-100,在这个特定的用例中,它只是训练一个法语的NER认知模型。
英特尔的速度比AWS快19%而且价格几乎是AWS的一半。
因此,在这个特定的用例中,我们不仅使用开源的Spark NLP,我们还将Spark NLP用于医疗保健。bob下载地址我们还关心的是,对于这些用例,它有多准确?最重要的两个任务是识别临床实体。我们实际上可以正确地开始实体,从肿瘤学和放射学报告,然后我们能正确地将它们解析为医学术语吗?临床实体识别,顺便说一下,这两种算法在医疗保健代码库中有不同的实现。
因为这样才能让你在这个领域获得最先进的技术。
正如你所看到的,当你比较当今最先进的技术时,它实际上已经变得非常好了。它在网上做能源进展,上面列出了论文和基准,告诉你目前最先进的是什么,还有那些有分数的论文,它还做了一些非常不错的免费网站,让你可以跟踪空间,这很神奇,因为它在过去几年里发展得非常快。现在,如果你发表了一篇学术论文,你声称你有最先进的结果,你可能会在第一名的位置上呆上8到10周。也就是说,我们的工作就是要赶上最先进的技术,也就是说,我们得不停地跑,对吧?不断添加新的东西,不断利用这些新的创新,这太棒了。这里我们可以看到一些关于实体识别的公共基准测试,再次清楚地表明,这是Spark NLP的最新版本,我们将在公共基准测试中使用它。它有准确性,因此标准的公共数据集,重要的是,Roche,用例不仅如此,而且事实是,如果你对比,例如,只使用预框架模型,Spark NLP是可训练的。所以我们在这里能做的是一般的训练数据,使用临床医生的特定肿瘤数据,对吧?然后你就可以对模型进行微调了,对吧?所以我们仍然在使用同样的废话架构。 We can use the same Bio-BERT in buildings, we can produce a highly accurate model for this use case. Which is a, unique probably.
第二个重要任务是实体解析。这是你在NLP阶段需要做的另一件事因为你需要,你想知道一些,例如,肾衰竭和肾功能下降是一样的。
在医疗保健领域,有很多很多方法来写本质上相同的东西,所以如果你不规范化,只是使用实体,而不是将它们映射到标准术语,问题不只是与其他系统集成,它使用这些代码,关键是你生活在我的旅行特征空间中,对吧?因为你真正想要的使用方法是,如果我知道,有肾功能不全,这增加了病人的风险,这可能意味着我们如何治疗他们。我不想让他们用三种不同的方法来识别这个,三个完全不同的特征。这是你想在文本层面或NLP层面上做的事情。这也是从盒子里拿出来的。我们之前谈过,但也是可以训练的。例如,如果你在寻找具体的特征,在这种情况下,我们可以训练一个模型并实现这些特征。你也可以有公共基准,学术数据集或NCBI上的共享,在当前的数字中,开箱文件夹。
所以如果你想了解更多,或者只是试着自BOB低频彩己运行这个,Spark NLP现在有一个很好的东西是colab笔记本。如果你看这些,这些链接,基本上是github.com/JohnSnowLabs/spark-nlp-workshop,下面是公共笔记本。当你打开它们时,每个实验室都有一个按钮说运行Colab,然后你可以在你自己的谷歌帐户中运行它,所以真的没有什么需要安装或设置的。它会告诉你如何使用预训练的模型,然后如何在不同类型的情况下训练你自己的模型,这是一个很好的开始方式。除此之外,如果您在医疗保健行业工作,一定要考虑尝试用于医疗保健的Spark NLP。如果你在另一个需要你训练你自己模型的领域工作,比如你在法律领域工作,你在金融领域工作,你在保险领域工作,最好的事情可能是从开源库开始,看看你需要给出的最小数量的文档和例子,以便为你的领域训练一个调优的模型。bob下载地址
我想你们会发现这个数字在过去的两年里随着变压器和[听不清]的进步有了显著的下降。如果你还有其他问题,我们很乐意回答。请与我们联系。
我们总是很感兴趣,你必须知道人们在做什么,上帝保佑这个非常活跃的社区。我们很可能能够回答这个问题,无论它是一个简单的内存不足问题,还是一个关于如何获得用例的更大的问题。就到这里,非常感谢大家。
就到这里,非常感谢大家。
约翰·斯诺实验室
大卫·塔尔比(David Talby)是约翰·斯诺实验室(John Snow Labs)的首席技术官,帮助医疗保健和生命科学公司充分利用人工智能。David是Spark NLP的创建者,这是世界上在企业中使用最广泛的自然语言处理库。他在构建和运营网络规模的软件平台和团队方面拥有丰富的经验,包括创业公司、微软在美国和欧洲的必应,以及亚马逊在西雅图和英国的金融系统。bob体育客户端下载David拥有计算机科学博士学位和计算机科学和工商管理硕士学位。
罗氏公司
Vishakha Sharma是罗氏诊断信息解决方案的首席数据科学家,她领导了自然语言处理(NLP)和机器学习(ML)等高级分析计划,以发现改进navafi产品组合的关键见解,从而实现更好、更高效的患者护理。Vishakha撰写了40多篇同行评审的出版物和论文,并发表了15多场受邀演讲。她在ACM-W、NeurIPS、AMIA和ACM-BCB的项目委员会任职。她的研究工作得到了NIH大数据到知识(BD2K)计划的资助,以构建NLP精准医疗软件。她拥有计算机科学博士学位。
罗氏公司
Yogesh Pandit是罗氏诊断信息解决方案分析组的软件工程师。目前,他正在领导NLP工作,以支持公司的NAVIFY平台,该平台旨在支持肿瘤护理团队对患者的治疗决策进行审查、讨论和调整。bob体育客户端下载Yogesh是一名生物信息学家,拥有生物医学NLP经验的机器学习爱好者。在过去的几年里,他一直致力于在生命科学和医疗保健领域构建利用数据的应用程序。