替代数据

回到术语表

什么是替代数据?

替代数据是通过使用其他人没有使用的替代数据源收集的信息;非传统信息来源。对替代数据的分析可以提供超出行业常规数据源所能提供的见解。然而,究竟什么是替代数据因行业而异,因为它取决于您和您的竞争对手已经在使用的传统数据源。

典型的备选数据类型

当我们谈论替代数据时,有几种主要使用的数据类型:
  • 卫星数据,
  • 移动数据
  • 传感器数据
  • 网络数据。
然而,替代数据还包括:
  • 地理位置(人流量)
  • 信用卡交易
  • 电子邮件收据
  • pos交易
  • 社交媒体帖子
  • 网上浏览活动
  • 集装箱收据
  • 产品评论
  • 价格追踪器
  • 天气和小气候
  • 航班和航运追踪器
典型的备选数据类型近年来,来自移动设备、卫星、传感器和网站的数据不断增加,产生了大量的结构化、半结构化和非结构化数据,我们称之为大数据。使用替代数据可以让您获得独特的见解,具有竞争力的行业优势,并提高利润。您可以组合来自不同来源的数据集,以获得公司特定的、竞争激烈的市场格局的清晰概述。有三种主要的方法可以用来访问替代数据:
  • 原始数据的获取
  • 第三方授权
  • 网页搜集(或网络收集,或Web数据提取).web scraper是一种应用程序编程接口(API),可以从网站中提取数据,并能够收集所需主题的关键见解,从而在您的行业中蓬勃发展。较新的网络抓取方式包括监听来自网络服务器的数据。例如,JSON通常被用作客户端和web服务器之间的传输存储机制。

自动抓取技术

  • HTML解析:HTML解析使用Java脚本完成,目标是线性或嵌套的HTML页面。
  • DOM解析:文档对象模型(DOM)定义XML文件中包含的样式、结构和内容。
  • 垂直聚合:垂直聚合平台是由具有强大计算能力的组织创建bob体育客户端下载的,这些组织针对特定的垂直领域。
  • XPath:XML路径语言或XPath是一种可用于XML文档的查询语言。
  • 谷歌文档:谷歌表的使用方式与使用Python或Ruby等编程语言编写scraper几乎相同,因此,它是介绍某些类型的scraper基础知识的好方法。
  • 文本模式匹配:这是一种正则表达式匹配技术,使用UNIX grep命令,并与流行的编程语言(如Perl或Python)结合使用。

额外的资源


回到术语表