火花的应用程序

回到术语表
Spark应用程序由一个司机过程和一套遗嘱执行人流程。驱动进程运行你的main()函数,位于集群中的一个节点上,负责三件事:维护Spark应用程序的信息;响应的:响应用户的程序或输入的;以及跨执行程序(临时定义)分析、分发和调度工作。驱动进程是绝对必要的——它是Spark应用程序的核心,在应用程序的生命周期内维护所有相关信息。的执行人负责实际执行驱动程序分配给它们的工作。这意味着,每个执行程序只负责两件事:执行驱动程序分配给它的代码,并将该执行程序上的计算状态报告给驱动程序节点。火花的应用程序集群管理器控制物理机器,并为Spark Applications分配资源。这可以是几个核心集群管理器之一:Spark的独立集群管理器、YARN或Mesos。这意味着集群中可以同时运行多个Spark应用程序。我们将在本书的第四部分:生产应用中更深入地讨论集群管理器。在前面的插图中,我们看到左边是我们的驱动程序,右边是四个执行程序。在这个图中,我们去掉了集群节点的概念。用户可以通过配置指定每个节点上应该有多少个执行程序。(glossary-cta)

额外的资源


回到术语表