大数据管理与分析平台

大数据时代开启了“样本=总体”的全数据模式,大规模传感数据、日志数据、多媒体数据等已成为企业的战略性资源和核心竞争力。同时,大数据体量大、类型多、速度快、质量低等特性对当前数据管理与分析方案提出了巨大挑战。如何实现可用性高、可靠性好、易用性强的一体化大数据管理与分析平台,是企业在大数据时代最迫切的需求之一。

近年来,项目团队在国家“核高基”科技重大专项等课题的支持下,面向大规模非结构化数据存储难、查询慢、理解浅等问题,设计并实现了一体化“非结构化数据管理平台(LaUMDS)”。平台具有以下特性:实现统一存储键值型、文件型、对象型数据的自由表数据模型,基于存储副本的一致性建模给出了度量、增强、修复等核心算法,设计了分布式存储中的柔性事务机制;实现了文本、图像、视频、音频等非结构化数据的统一查询引擎,定义了声明式查询语言LaSQL,支持倒排索引、高维索引、哈希索引等查询执行器;实现基于分布式计算框架MapReduce/Spark的数据分析引擎,支持表征学习、迁移学习等前沿机器学习算法。此外,提供了系统监控和辅助管理套件,保证平台的安全运行。

目前,所研大数据平台先后部署到盘古搜索、三一集团、国家气象中心等多个企事业部门的大数据业务系统中。实践表明,平台的存储系统能够高效地存储数百亿级的传感数据、千万级的文件数据、日增长量达16TB级的非结构化气象数据,具备高可用性、高可靠性和良好的数据一致性;平台的查询引擎能够快速地检索十亿级的非结构化高维向量数据,准确率达到国内领先水平,查询吞吐量达到每秒万级,胜任面向特定领域的互联网在线应用;平台的分析引擎除具备传统的统计分析、数据挖掘等功能外,还支持了分布式统计优化、迁移学习、表征学习等新特性,支持三一重工异常事件检测、万达影视票房预测、大数据系统日志分析与问题定位等任务实施。

big_data_analytic_engine_big