替代数据
回到术语表什么是替代数据?
替代数据是通过使用其他人没有使用的替代数据源收集的信息;非传统信息来源。对替代数据的分析可以提供超出行业常规数据源所能提供的见解。然而,究竟什么是替代数据因行业而异,因为它取决于您和您的竞争对手已经在使用的传统数据源。典型的备选数据类型
当我们谈论替代数据时,有几种主要使用的数据类型:- 卫星数据,
- 移动数据
- 传感器数据
- 网络数据。
- 地理位置(人流量)
- 信用卡交易
- 电子邮件收据
- pos交易
- 社交媒体帖子
- 网上浏览活动
- 集装箱收据
- 产品评论
- 价格追踪器
- 天气和小气候
- 航班和航运追踪器
- 原始数据的获取
- 第三方授权
- 网页搜集(或网络收集,或Web数据提取).web scraper是一种应用程序编程接口(API),可以从网站中提取数据,并能够收集所需主题的关键见解,从而在您的行业中蓬勃发展。较新的网络抓取方式包括监听来自网络服务器的数据。例如,JSON通常被用作客户端和web服务器之间的传输存储机制。
自动抓取技术
- HTML解析:HTML解析使用Java脚本完成,目标是线性或嵌套的HTML页面。
- DOM解析:文档对象模型(DOM)定义XML文件中包含的样式、结构和内容。
- 垂直聚合:垂直聚合平台是由具有强大计算能力的组织创建bob体育客户端下载的,这些组织针对特定的垂直领域。
- XPath:XML路径语言或XPath是一种可用于XML文档的查询语言。
- 谷歌文档:谷歌表的使用方式与使用Python或Ruby等编程语言编写scraper几乎相同,因此,它是介绍某些类型的scraper基础知识的好方法。
- 文本模式匹配:这是一种正则表达式匹配技术,使用UNIX grep命令,并与流行的编程语言(如Perl或Python)结合使用。
额外的资源
回到术语表