ICS35.240 CCS L 67 中华人民共和国国家标准 GB/T41818—2022 信息技术 大数据 面向分析的 数据存储与检索技术要求 Information technoiogy-Big data-Technical requirements for analysis-oriented data storage and retrieval 2023-05-01实施 2022-10-12发布 国家市场监督管理总局 发布 国家标准化管理委员会 GB/T41818—2022 目 次 前言 范围 1 2 规范性引用文件 3 术语和定义 缩略语 4 5 概述 6 数据表结构 6.1 数据表 6.2 子表 6.3 行组 列组 6.4 6.5 数据页 索引技术要求 7 8 数据存储技术要求 8.1 基本要求 8.2 存储布局实现 8.3数据处理 数据检索技术要求 9 附录A(资料性) 面向分析的数据存储与检索应用示例 参考文献 GB/T 41818—2022 前言 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任, 本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本文件起草单位:华为技术有限公司、北京大学、中国电子技术标准化研究院、中国人民大学、北京 航天智造科技发展有限公司、中汽研汽车检验中心(天津)有限公司、成都中科大旗软件股份有限公司、 浪潮软件科技有限公司、江苏赛西科技发展有限公司、深圳赛西信息技术有限公司、浪潮电子信息产业 股份有限公司、北京易华录信息技术股份有限公司、杭州中奥科技有限公司、方正国际软件(北京)有限 公司、山东黄河河务局山东黄河信息中心、山东省计算中心(国家超级计算济南中心)、四川大学华西医 院、湖南财政经济学院、杭州市第七人民医院、北京工业大学、北京理工大学、中山大学、桂林电子科技大 学、天津大学、中治赛迪工程技术股份有限公司、北京能科瑞元数字技术有限公司、北京启迪数字科技集 团有限公司、中国人民解放军国防科技大学、西北工业大学、西安电子科技大学、腾讯科技(深圳)有限公 司、河南云政数据管理有限公司、特斯联科技集团有限公司、深圳龙岗智能视听研究院、星环信息科技 (上海)有限公司。 本文件主要起草人:梅宏、杜小勇、符海芳、陈亮、范科峰、张群、赵华、赵俊峰、王亚沙、刘驰、尹卓、 王为中、曹幼林、下昊穹、金国栋、陈跃国、李民东、刘哲、邹萍、殷晋、贺可勋、冯谦、李武鸿、郑申俊、李冰、 张亮、石征、袁玥、赵斌、李威、王树良、洪江、黄先芝、胡清、王凌、陶智敏、李振东、张煜、逢锦山、张媛、 潘彬、孙光、章俊航、杨绍武、史殿习、杨震、于海阳、万海、何倩、雷建军、李斐、潘兆庆、彭勃、刘国杰、 张超超、贾晓杰、沈丽丽、张星星、邓乔、黎方学、车伟伟、肖学文、毛尚伟、杨刚、姚远、杨钰、张大鹏、 杨洪山。 II GB/T41818—2022 信息技术大数据 面向分析的 数据存储与检索技术要求 1范围 本文件规定了支撑多应用融合分析的天数据列式存储与检索技术要求。 本文件适用于面向分析的数据存储与检索的系统或子系统的设计、开发和使用 2规范性引用文件 2 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于 本文件。 GB/T35295—2017 信息技术大数据 术语 3术语和定义 3 GB/T35295一2017界定的以及下列术语和定义适用于本文件。 3.1 元数据 metadata 定义和描述其他数据的数据。 L来源:GB/T18391.12009,3.2.16 3.2 存储布局 storagelayout 数据在存储系统中的存储规划和安排。 注:通常包括各数据单元在存储系统中相对的存储顺序和存储位置的偏移等。 3.3 检索 retrieval 使用一定方法或工具,从数据集合中找出用户所需数据或数据相关信息的过程。 4缩略语 下列缩略语适用于本文件。 CSV:逗号分隔值(CommaSeparatedValues) EB:百亿亿字节(ExaByte) JSON:脚本对象(JavaScriptObjectNotation) OLAP:联机分析处理(On-lineAnalyticalProcessing) PB:千万亿字节(PetaByte) SQL:结构化查询语言(StructuredQueryLanguage) 1 GB/T41818—2022 WiFi:无线保真(WirelessFidelity) 5概述 在大数据场景中,数据分析是通往大数据应用的首要步骤,需要简便、快捷和准确的数据组织和管 理方法,这种组织和管理主要体现在存储和检索方面。检索活动与数据分析中的数据提取直接关联,存 储活动为数据分析提供便捷的数据组织。数据存储表的示例见附录A。 本文件描述的数据表为大数据场景下面向分析的数据存储和检索提供数据组织和管理方面的 支持。 6数据表结构 6.1数据表 数据表是对数据进行组织和管理的一种数据分层次编排结构和多层结构,其组成部分包括:数据子 表(以下简称“子表”)、数据行组(以下简称“行组”)、数据列组(以下简称“列组”)和数据页,如图1所示。 一张数据表包含1张或多张子表,主要用于对数据进行面向分析的组织和管理,数据表的元数据独立于 数据表外存储。这些组成部分统称为数据单元。 数据表 子表 行组 列组 数据页 图1楼 数据表结构图 6.2 子表 子表是组织和管理数据的最大数据单元,由子表头部、行组、子表尾部组成,一张子表内的数据可划 分为1~n个行组。子表的一般结构如图2所示。 子表头部给出子表的标识、版本信息以及子表的元数据。子表尾部给出子表的行组/列组索引,以 及行组位置信息。行组索引由多个列组索引组成。 子表索引由行组索引组成。首次使用时,由行组索引记录汇聚而成,可缓存在内存中。 2 GB/T41818—2022 子表 子表头部 版木信息 标识 子表元数据 行组1 ... 行组 子表尾部 行组位置信息 行组/列组索引 图 2 子表结构图 6.3 3行组 行组是子表横向划分的最小单元,一个行组包含1~L行的数据(L≥1),可划分为1~M个列组 (M≥1)。行组由行组元数据、数据页索引和列组构成,其中,行组元数据包含:列组元数据、列组位置和 列组内数据页位置等信息,列组元数据包含了数据页数据的大小、编码方式等信息。一般行组结构如 图3所示。 行组 行组元数据 数据页 (列组元数据、列组位置、列组内数据页位置) 列组 1 .. 列组 M 图3 行组结构图 6.4列组 列组是行组内数据纵向划分的最小单元,一个列组包含该行组内1~P列的数据(P≥1),列组可 划分为1~Q个数据页(Q≥1)。列组的一般结构如图4所示 列组 数据页1 .... 数据页Q 图 4 列组结构图 3 GB/T41818—2022 6.5数据页 数据页是列组内数据读写和数据过滤的最小单元,是一段裸数据,大小和格式等信息由行组中的列 组元数据信息提供。 7索引技术要求 引等。索引技术要求如下: a)J 应支持行组或列组级别的索引,通过索引可获得需要的行组,如倒排索引; b) 应支持数据页级别的索引,通过索引可获得需要的数据页,如最大最小索引; c) 应支持多个列组的索引组合; (P 应支持主索引、时空索引、多值列索引等多种索引方式进行组合; 宜支持索引构建后数据的更新和删除; f) 宜支持子表级别的索引,通过索引获得需要的子表,如二叉树索引; g) 宜支持异步索引构建能力。 注:异步索引构建指的是用户先将数据入库,再利用业务闲时对数据构建索引。 8数据存储技术要求 8.1 基本要求 数据存储的基本技术要求如下: 应支持数据按行组列组存储: b) 应支持数据持久化保存; c) 应支持文件存储、对象存储、内存存储等不同数据存储系统; (P 应支持依据不同维度对数据进行分类存储,如数据使用频率等; e) 宜支持总量达EB级,单表数据达万亿行级别的数据存储和检索; f) 宜支持对单条数据记录进行更新和删除; g) 宜基于第6章描述的数据表结构,设计和规划用于组织和管理数据存储的总体方案。 8.2 2存储布局实现 存储布局实现的技术要求如下: a 应随检索需求的重大变化及时调整存储布局; b) 应支持子表存储结构按行组来设定存储顺序; c) 应支持子表存储结构按行组来自动适应存储顺序: (P 应支持子表存储结构按列组来设定存储顺序; e) 应支持子表存储结构按列组来自动适应存储顺序; f) 应支持用户自定义行组存储布局中列组之间的存储顺序; g) 应支持用户自定义列组存储布局中行组之间的存储顺序; h) 应支持行组存储布局中自适应的列组分裂和合并; i) 应支持各数据单元大小的自适应调整; 4 GB/T 41818—2022 j)宜支持PB级数据查询响应为秒级,并且百列索引组合查询下的点查询响应最优为秒级; k)宜支持PB级数据导人延时(耗时)达到秒级,单机数据吞吐量大于每秒10万行。 8.3数据处理 8.3.1数据表管理 数据表管理的技术要求如下: a) 应支持创建表、删除表、修改表、添加列、删除列等数据单元操作能力; b) 应支持创建索引、删除索引、修改索引等数据索引操作能力; 应支持按数据表数据的更新和批量更新; 应支持数据表单条记录的删除和批量删除; e) 应支持对双精度浮点型、长整型等不同数据类型进行类型转换和列式数据压缩: f) 宜支持增加或删除数据表中的行组或列组、修改行组或列组的命名和数
GB-T 41818-2022 信息技术 大数据 面向分析的数据存储与检索技术要求
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2023-01-18 17:30:47上传分享