大数据分析

回到术语表

数据与大数据分析的区别

的发明之前Hadoop在美国,支撑现代存储和计算系统的技术是相对基础的,这使得公司主要局限于分析“小数据”。然而,即使是这种相对基本的分析形式也可能很困难,尤其是新数据源的集成。传统的数据分析依赖于关系数据库(如SQL数据库)的使用,关系数据库由结构化数据表组成,原始数据的每个字节都需要以特定的方式进行格式化,然后才能将其输入数据库进行分析。这个过程往往很漫长,俗称提取、转换、加载(或ETL)每个新数据源都需要。这种由三部分组成的过程和方法的主要问题是,它非常耗时和劳动,有时数据科学家和工程师需要长达18个月的时间来实现或更改。大数据分析之前的ETL不过,一旦数据进入数据库,在大多数情况下,数据分析师就可以很容易地进行查询和分析。但随着互联网、电子商务、社交媒体、移动设备、营销自动化、物联网(IoT)设备等的出现,原始数据的规模、数量和复杂性变得太多,只有少数机构无法在正常业务过程中分析。

什么是大数据分析?

大数据分析是检查由电子商务、移动设备、社交媒体和物联网(IoT)等各种来源产生的庞大而多样的数据集(或大数据)的复杂过程。它涉及集成不同的数据源,将非结构化数据转换为结构化数据,并使用专门的工具和技术从数据中生成见解,这些工具和技术将数据处理分散到整个网络中。现有的数字数据量正在快速增长,每两年翻一番。大数据分析是一种管理和分析所有这些数据源的不同方法的解决方案。虽然传统数据分析的原则通常仍然适用,但大数据分析的规模和复杂性要求开发新的方法来存储和处理所涉及的千兆字节的结构化和非结构化数据。对更快速度和更大存储容量的需求创造了一个技术真空,很快就被新的存储方法所填补,如数据仓库和存储空间数据的湖泊,非关系数据库,如NoSQL,以及数据处理和数据管理技术和框架,如开源Apache Hadoop,bob下载地址火花,蜂巢.大数据分析利用先进的分析技术来分析真正的大数据集,包括来自各种来源的结构化、半结构化和非结构化数据,大小从tb到zb不等。

大数据分析中最常见的数据类型包括:

  • 网络数据。客户层面的网络行为数据,如访问、页面浏览、搜索、购买等。
  • 文本数据。从电子邮件、新闻文章、Facebook订阅、Word文档等文本来源生成的数据是最大、使用最广泛的非结构化数据类型之一。
  • 时间和位置,或地理空间数据。GPS和手机,以及Wi-Fi连接,使时间和位置信息成为越来越多有趣的数据来源。这还可以包括与道路、建筑物、湖泊、地址、人、工作场所和交通路线相关的地理数据,这些数据都是由地理信息系统生成的。
  • 实时媒体。实时数据源可以包括实时流或基于事件的数据。
  • 智能电网和传感器数据。来自汽车、石油管道、风车涡轮机和其他传感器的传感器数据通常以极高的频率收集。
  • 社交网络数据。来自Facebook、LinkedIn、Instagram等社交网站的非结构化文本(评论、点赞等)正在增长。甚至可以进行链接分析来揭示给定用户的网络。
  • 关联数据:这种类型的数据是使用标准的Web技术(如HTTP、RDF、SPARQL和url)收集的。
  • 网络数据。与大型社交网络(如Facebook和Twitter)或技术网络(如互联网、电话和交通网络)相关的数据。
大数据分析帮助组织利用他们的数据,并使用先进的数据科学技术和方法,如自然语言处理、深度学习和数据分析机器学习,揭示隐藏的模式、未知的相关性、市场趋势和客户偏好,以识别新的机会,并做出更明智的业务决策。

使用大数据分析的优势包括:

  • 降低成本。云计算和存储技术,如Amazon Web Services (AWS)和Microsoft Azure,以及Apache Hadoop、Spark和Hive,可以帮助企业在存储和处理大型数据集时降低成本。
  • 提高决策能力。凭借Spark和内存分析的速度,再加上快速分析新数据源的能力,企业可以生成实时决策所需的即时和可操作的见解。
  • 新产品和服务。在大数据分析工具的帮助下,企业可以更精确地分析客户需求,更容易在产品和服务方面满足客户的需求。
  • 欺诈检测大数据分析也被用于防止欺诈,主要是在金融服务行业,但它在所有垂直行业的重要性和使用量都在增加。

额外的资源


回到术语表