定  位

Apusic大数据平台(Apusic BigData Platform,ADP)通过对大数据存储、分布式计算、数据分析、数据访问的全方位支持,支撑企业的大数据架构及解决方案,帮助企业构建大数据业务体系。

用户面临的挑战

今天的政府和企业正在需要能够处理“大数据”,即数据量巨大,从TB级别跃升到PB级别;数据种类繁多,包括网络日志、传感器数据、视频图片、地理位置信息等;处理速度快,遵循1秒定律,可以从各种类型的数据中快速获得高价值的信息;只要合理利用数据并对其进行正确的分析,将会带来很高的回报。业界将其归纳为4V,volume(数据体量大)、variety(数据类型繁多)、velocity(处理速度快)和value(高价值)。

面对大量数据集中处理的需求,过去一般会采用数据仓库技术(Data Warehouse)。数据仓库是一个面向主题、集成的、相对稳定的、反应历史变化的数据集合,用户支持管理决策。在今天需要处理大数据时,数据仓库就面临了很多局限性。

数据规模急剧增长

传统的数据仓库系统会遇到可扩展性问题,而且整体成本高昂;数据内容每18个月会翻倍。(Source: Gartner Group, Pattern-Based Strategy: Getting Value from Big Data)

大数据的数据类型繁多

除了结构化数据,还有大量的半结构(semi-structured)/无结构数据(unstructured),传统数据仓库只适合处理结构化数据,对于半结构/无结构数据,需要经过比较耗时的ETL(extract-transform-load)过程进行转换处理。大于80%的增长数据来自于无结构数据(Source: Gartner Group, Pattern-Based Strategy: Getting Value from Big Data)

传统数据仓库满足不了实时性的要求

随着现在传感器网络、物联网(IoT)的发展,数据产生的速度越来越快,同时越及时处理数据,越能产生更大的价值,凸显了实时大数据技术的重要性。

近年来Apache Hadoop逐渐成为大数据处理的主要平台。Hadoop生态系统是一系列开源项目的集合,它使构建大规模分布式数据处理系统更加容易。Hadoop的核心由分布式文件系统、资源调度框架和MapReduce分布式处理框架构成,基于Hadoop核心的多个开源项目满足不同的数据处理需求,主要包括Hive数据仓库,Mahout 数据挖掘算法库,Storm流处理引擎,HBase列族型NoSQL数据库,Sqoop 数据ETL工具等。Hadoop可以作为大数据平台的基础,但由于它包含的开源项目众多,各项目之间的兼容性可能存在问题,使系统部署维护困难,管理使用成本高,需要大量的后续开发维护工作,不利于产品的普及推广使用。

ADP基于Hadoop生态系统,针对性地对Apache Hadoop进行了系列技术开发,成为满足新一代数据管理需求的一站式大数据综合平台。

产品的核心价值

统一的计算平台

  • ADP支持批处理统计分析、交互式SQL分析,实时流处理(Streaming),机器学习和图计算,这些不同类型的处理都可以在一个应用中无缝使用,客户无需切换平台或架构即可完成复杂的任务。减少了开发和维护成本。

支持多租户

  • ADP支持多租户部署。政府、企业的不同部门不再需要排队等待获取访问大数据平台的资源,他们可以并行的运行大数据处理作业。IT部门可以为不同部门使用基于策略的自动创建集群和自动资源回收。

集成企业级存储

  • ADP的StoreGrid技术满足了在政府、企业应用大数据技术的决定性挑战。使用StoreGrid,用户可以直接在已经存在的企业级存储上运行大数据处理作业。ADP支持Swift,NFS,GlusterFS等多种存储系统,用户在运行数据分析作业前不必先移动数据。

极致的IO性能优化

  • ADP的IOFaster技术提供了应用感知的分层数据缓存,为虚拟化环境提供了极致的IO性能优化,甚至超越了直接部署在物理裸机上的性能。配合StoreGrid技术,IOFaster为底层存储系统带来了意义重大的性能提升,让大数据分析作业运行效率倍增。

解决大数据技术部署、应用复杂问题

  • ADP使用户具备了大数据云服务的能力,让Hadoop和Spark变成了服务能力,可以随时按需部署。利用Docker容器技术,消除了大数据基础设施部署的复杂性,用户可以在分钟级的创建和销毁Hadoop或Spark集群,更方便的管理资源。

让用户随心所欲的选择分析工具

  • ADP为用户提供了完整的大数据分析流程和工具,满足广泛和多变的需求场景,包括MapReduce批处理,交互式查询、流计算和机器学习等,同时整合了行业领先的数据分析工具,让数据科学家可以随心所欲选择他们擅长的工具。

灵活的部署架构

  • ADP支持虚拟化环境和物理裸机等各类服务器,让用户按需选择最适合的服务器类型,同时支持混合部署,更灵活的适应不同配置的存储和服务器。ADP会自动平衡计算资源,使服务器配置差异对大数据计算作业透明。

节省数据中心运营成本

  • ADP将数据分析过程和底层存储相分离,用户可以按需的独立扩展计算和存储资源,更加高效的利用服务器资源,利用StoreGrid直接访问企业级存储中的数据,消除了数据拷贝和冗余,降低数据中心的整体运营成本

产品架构及特点

应用场景

政府、企业的数据仓库和数据集市的构建,流式数据的实时计算处理。