ICS03.060 CCS A 11 中华人民共和国国家标准 GB/T41462—2022 基于文本数据的金融风险防控要求 Requirements for financial risks control based on text data 2022-11-01实施 2022-04-15发布 国家市场监督管理总局 发布 国家标准化管理委员会 GB/T41462—2022 目 次 前言 范围 1 规范性引用文件 2 3 术语和定义 4 缩略语 5 整体框架 文本数据要求 6 1 预处理 信息抽取 8.1 概述 8.2 信息抽取整体框架 8.3 抽取内容及特征分析 8.4 抽取方法 9数据表示 9.1 总体要求 9.2 数据表示评估 9.3 基于RDFS结构化表示 10 10 分析预警 13 10.1 数据清洗 13 10.2 建模方法 13 10.3 分析方法 14 11 用户交互 14 12 系统评估 15 12.1 原则 15 12.2 类别 15 12.3评估方法 15 12.4 评估指标 16 13安全防护 16 13.1安全技术要求 16 13.2 安全管理要求 16 14软硬件要求 16 14.1硬件基本要求 16 14.2 软件基本要求 17 1 GB/T41462—2022 附录A(规范性) 基于AHP的指标权重确定方法 18 附录B(资料性) RDFS结构化描述 19 附录C(规范性) RDFS表示具体技术流程 22 参考文献 23 II GB/T41462—2022 前言 本文件按照GB/T1.1一2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件由中国人民银行提出、 本文件由全国金融标准化技术委员会(SAC/TC180)归口。 本文件起草单位:中国标准化研究院、中国银行业协会、北京理工大学、中国工商银行股份有限公 司、中国农业银行股份有限公司、中国建设银行股份有限公司、中国工商银行股份有限公司深圳分行、华 南师范大学、北京工业大学、中国科学院计算技术研究所、中国科学技术信息研究所、北京大学、上海对 外经贸大学、中国金融电子化公司、中国人民银行太原中心支行、北京海致星图科技有限公司、聊城大 学、江苏科技大学、广东外语外贸大学、北京师范大学、中版集团数字传媒有限公司、北京市科学技术情 报研究所。 本文件主要起草人:曹馨宇、王海涛、刘涌、赵小林、郝天永、刘磊、王石、李宽、张漪、邢宸睿、刘耀、 陈玉忠、曹存根、贾世军、穗志芳、刘亮亮、贾仰理、刘嘎琼、丁若尧、杨娟、聂大昕、严可、贺莉丽、李琪、 薄舜添、邓琳莹、陈文俊、徐浩、陈全保、李辉、邬天港 II GB/T41462—2022 基于文本数据的金融风险防控要求 1范围 本文件规定了基于文本数据金融风险防控的整体框架、文本数据要求、预处理、信息抽取、数据表 示、分析预警、用户交互、系统评估、安全防护、软硬件要求 本文件适用于金融相关的文本数据处理及金融信息的挖掘、抽取与分析。 2规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于 本文件 GB/T47542017 国民经济行业分类 GB/T202692006 信息安全技术信息系统安全管理要求 GB/T20271—2006 信息安全技术信息系统通用安全技术要求 GB/T32319—2015 银行业产品说明书描述规范 ISO21586:2020 金融服务的参考数据 银行产品服务说明描述规范[Referencedatafor financial services-Specification for the description of banking products or services (BPoS)J 3术语和定义 下列术语和定义适用于本文件。 3.1 学习learning 一个生物学系统或自动系统获得知识或技能的过程,使它可用于改进其性能 [来源:GB/T5271.31—2006,31.01.01] 3.2 概念 concept 为确定类别成员的抽象实体, 注:概念用于客体分类。 [来源:GB/T5271.31—2006,31.01.06] 3.3 语义 semantics 词或词组与它们的含义之间的关系。 来源:GB/T12200.11990,4.1.2.12 3.4 文本text 文本数据 textdata 以字符、符号、字、短语、段落、句子、表格或者其他字符排列形式出现的数据,旨在表达一个意义,其 1 GB/T41462—2022 解释主要以读者对某种自然语言或人工语言的理解为基础。 示例:打印在纸上或显示在屏幕上的业务信件 [来源:GB/T5271.1—2000,01.01.03,有修改] 3.5 信息(在信息处理中)information(ininformationprocessing) 关于客体(如事实、事件、事物、过程或思想,包括概念知识),在一定的场合中具有特定的意义。 [来源:GB/T5271.1—2000,01.01.01] 3.6 机器学习 machine learning 自动学习 automatic learning 功能单元通过获取新知识或技能,或通过重组现有知识或技能来改善其性能的过程。 [来源:GB/T5271.28—2001,28.01.21] 3.7 编码 code 汉字[汉语词语]编码Chinesecharacter[Chinesewordandphrase]coding 按照一定的规则,对指定的汉字[汉语词语集内的元素编制相应的代码。 [来源:GB/T12200.1—1990,4.1.4.1] 3.8 模式(用于人工智能) pattern(in artificial intelligence) 一组特征及其相互关系,用来识别在给定背景中的实体 注:这些特征可包括儿何形状、声音、图片、信号或文本。 [来源:GB/T5271.28—2001,28.02.08] 3.9 规则rule 启发式规则 heuristic rule 一种特别的书面规则,能将专家用于解决问题的知识和经验形式化 [来源:GB/T5271.28—2001,28.03.09,有修改] 3.10 抽取(用作动词) extract (信息检索)从一组选项中,选择并取出某些符合预先确定的性质的项。 [来源:GB/T17532—2005.8.9] 3.11 结构化表示 structuredrepresentation 一种格式化的、可识别的并具有一定的操作规范的文本数据的表示方法。 注:表示后的文本数据的性质和量值位置是固定的 示例:XML语言。 3.12 本体(主体)subject 一种用于描述领域中各个概念和概念间的关系。 示例:“金融” 3.13 属性 Eproperty 个体之间的二元关系。 2 GB/T41462—2022 [来源:GB/T37965—2019,3.14,有修改] 3.14 客体object 可感知或可想象到的任何事物 注:客体既包括客观存在并可观察到的事物(具体的如树木、房屋,抽象的如物价、自由),也包括想象的事物(如神 话人物)。 [来源:GB/T15237.1—2000,3.1.1 3.15 层次分析法 AnalyticHierarchyProcess;AHP 将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决 策方法。 [来源:GB/T31495.3—2015,附录C] 3.16 资产asset 对组织具有价值的任何东西。 [来源:GB/T25069—2010,2.3.113] 3.17 分类 classification 把信息进行划分(例如按照潜在欺骗、敏感性或信息关键度)以便应用适当控制措施的方法 示例:可按潜在欺骗、敏感性或信息关键度进行信息划分。 [来源:GB/T27910—2011.3.14] 3.18 风险 risk 不确定性对目标的影响。 [来源:GB/T23694—2013,2.1] 3.19 风险分析 riskanalysis 估计风险程度的系统过程。 [来源:GB/T23694—2013,4.6.1] 3.20 信用风险 creditrisk 方在到期日或未来的任意时候不能偿还其债务而产生的风险。信用风险又称为交易对手风险或 履约风险,指交易对方不履行到期债务的风险 [来源:GB/T27910—2011,3.19] 3.21 市场风险 marketrisk 由于基础资产市场价格的不利变动或者急剧波动而导致衍生工具价格或者价值变动的风险。基础 资产市场价格包括市场利率、汇率、股票、债券行情的变动。 [来源:商业银行资本管理办法] 3.22 操作风险 operational risk 由不完善或有问题的内部程序、员工和信息科技系统,以及外部事件所造成损失的风险。 [来源:GB/T27910—2011,3.50] 3 GB/T41462—2022 4缩略语 下列缩略语适用于本文件。 HTML:超文本标记语言(HyperTextMarkupLanguage) RDF:资源描述框架(ResourceDescriptionFramework) RDFS:资源描述框架模式(ResourceDescriptionFrameworkSchema) SVM:支持向量机(SupportVectorMachines) XML:可扩展标记语言(eXtensibeMarkupLanguage) 5整体框
GB-T 41462-2022 基于文本数据的金融风险防控要求
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2023-01-18 17:30:35上传分享