梅宏院士等:大数据技术的四大挑战与十大趋势
时间:
2023-02-28 20:57
|来源:
分享:
全球大数据规模增长快速,2020年全球新增数据规模为64ZB,是2016年的400%,2035年新增数据将高达2140ZB1,大数据呈现指数级增长。随着数字经济的发展和数字化转型的深入,愈来愈多的数据资源正以数据要素的形态独立存在并参与数字经济活动全过程。因此构建以数据为中心的新型计算体系,以适用新的应用环境。如何组织和管理超大规模的数据要素已经成为一项难题:例如,针对大数据管理,面临数据跨域访问带来的各种问题、系统规模持续增大带来的可用性下降、维护大规模数据带来的成本和能耗持续增高等严峻挑战。
数据规模呈指数级增长,数据动态倾斜、稀疏关联、应用复杂,传统大数据处理架构数据处理成本高企、时效性差,如何满足规模海量、格式复杂、需求多变的大数据高效处理需求是大数据处理面临的重要挑战。
随着数据量持续地爆炸式增长和各类应用的不断拓展与深化,基于深度学习的主流方法因其仅关注单源单模态数据且模型只知其然不知其所以然的特性已无法满足发展需求。如何打破数据多源异构造成的隔阂,融合多域甚至全域数据中蕴含的知识,实现分析结果的可解释,从而提升其可用性,是当前大数据分析面临的主要挑战。
针对大数据应用过程中的对数据汇聚融合、质量保障、开放流通、标准化和生态系统建设的需求,大数据治理技术逐渐成为发展热点,然而当前系统化的大数据治理框架尚未形成,开放共享、质量评估、价值预测等关键技术远未成熟,成为制约大数据发展的主要瓶颈。
数据从一开始是依附于具体应用的。数据库技术的出现使得数据与应用实现了第一次分离。数据存储在数据库中,不再依赖具体的应用而存在。数据要素化的需求将推动数据与应用进一步分离,数据不再依赖于具体的业务场景,数据以独立的形态而存在于数据库中,并通过数据服务向不同的业务场景提供服务。例如,人口数据库,可以向全部的涉及人口信息的业务场景提供服务。
将形成一套完整的数联网基础软件理论、系统软件架构、关键技术体系,包括:针对数联网软件以数据为中心的特点,需要从复杂网络和复杂系统等复杂性理论出发,研究数联网软件的结构组成、行为模式和外在性质;针对数联网软件的数据传存算一体化需求,需要采用数据互操作技术和软件定义思想,研究数联网软件运行机理、体系结构与关键机制;针对数联网软件跨层级、跨地域、跨系统运行带来的可靠性、可用性、安全性等质量挑战,需要以数据驱动为手段,研究数联网环境下保障服务质量与保护质量的原理、机制与方法。
趋势三:从单域到跨域数据管理,促进数据要素的共享与协同
数据为中心计算的核心目标是数据价值的最大化,关键要打破“数据孤岛”,实现数据要素的高效共享与协同。传统数据管理局限在单一企业、业务、数据中心等内部,未来大数据管理将从传统的单域模式发展到跨域模式,跨越空间域、管辖域和信任域。但跨空间域造成网络时延较高且不稳定;跨管辖域造成数据与应用异构,数据管理复杂度大大提升;跨信任域则要求具备容忍各类恶意错误的能力,跨域带来的这些变化将为大数据技术带来了新的机遇和挑战。
趋势四:大数据管理与处理系统体系结构异构化日趋明显
体系结构创新进入“黄金十年”,围绕不同数据处理特征的新型加速器(GPU、TPU、APU 等各种xPU)层出不穷,存储器件快速发展,高速SSD、新型非易失内存、新型计算网络等成为大数据处理系统的重要硬件配置,计算与存储的融合趋势明显。为极大程度发挥数据管理能力,大数据管理系统在存储、网络、计算等硬件上最大化挖掘新型硬件的处理能力。在处理上针对不同数据处理需求,配置不同计算与存储硬件成为大数据处理系统的主流架构。数据驱动的计算架构快速发展,从控制流到数据流到系统设计切换成为大数据处理系统从微观到宏观的重要体系结构设计理念。