文章解释如何搭建ApacheEC2机并连接Databricks高层次步骤创建Kafka集群并用Databricks笔记本连接
步骤1:AWS创建新VPC
- 创建新VPC时设置新VPCCIDR范围不同于Databricks VPCCIDR范围例举 :
- 数据布列克斯VPC7f4c0d18CIDRIP范围10205.0.0/16.
- 新建VPCic-8eb11f7CIDRIP范围10.10.0/16.
- 数据布列克斯VPC7f4c0d18CIDRIP范围10205.0.0/16.
- 新建互联网网关并附加到新VPC路由表允许切入EC2机
- 创建新互联网网关
- 附加到VPCic-8eb11f7.
- 创建新互联网网关
步骤2:在新VPC启动EC2实例
EC2实例发布新VPCic-8eb11f7步骤1创建
步骤3:安装新EC2实例
- SSH带键对进机
ssh -i keypair.pem ec2-user@ec2-xx-xxx-xx-xxx.us-west-2.compute.amazonaws.com
- 下载卡夫卡并提取归档
wget https://apache.claz.org/kafka/0.10.2.1/kafka_2.12-0.10.2.1.tgz tar -zxf kafka_2.12-0.10.2.1.tgz
- 启动动物园维护者进程
cd kafka_2.12-0.10.2.1 bin/zookeeper-server-start.sh config/zookeeper.properties
- 编辑config/server.properties文件集10.10.143.166私有EC2节点
advertised.listeners=PLAINTEXT:/10.10.143.166:9092
- 启动Kafka中介
kafka_2.1-0.10.2.1bin/kafka-server启动
步骤4:对等二维
- 创建新对等连接
- 将对等连接添加到DatabricksVPC和新KafkaVPC路径表
- 卡夫卡VPC加入路径表并加入DatabricksVPC
- databricksVPC中转路线表并加进KafkaVPC
- 卡夫卡VPC加入路径表并加入DatabricksVPC
更多信息见VPC对等.
第五步:从笔记本调用Kafka代理
- 验证您可访问EC2实例运行卡夫卡代理
- ssh向Kafka中介
ssh-i键盘.pemec2user
- 从命令行创建新题
sbin/kafka-conder-dropse.sh-roid-listlocalhost:9092-粒子字数 < LICENSE
- 读数据笔记本
scala导入org.ache.sql函数._valkafka=spark.readStream.format