国家标准网
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210935013.2 (22)申请日 2022.08.04 (71)申请人 北京交通大 学 地址 100044 北京市海淀区上园村 3号 (72)发明人 杜晔 王心蕴 黎妹红 周俊杰 (74)专利代理 机构 北京卫平智业专利代理事务 所(普通合伙) 11392 专利代理师 闫萍 (51)Int.Cl. G06F 21/62(2013.01) G06F 16/35(2019.01) G06F 40/194(2020.01) G06F 40/216(2020.01) G06F 40/289(2020.01) (54)发明名称 一种无监 督的密点标注和辅助定密方法 (57)摘要 本发明涉及一种为一种无监督的密点标注 和辅助定密方法, 包括如下步骤: 1)在训练过程 之前, 针对不同秘密类型分别建立语料统计库; 2)从语料统计库中利用算法计算词语置信度, 按 不同类型进行密级置信度排序, 构建密点词库; 3)从语料统计库中利用多特征融合的密点句置 信度评估 方法, 提取已定密文档中不同密级的密 点句, 构建密点句库; 4)利用构建的密点词库和 密点句库对待定密文档进行密点标注; 5)根据待 标注文档的定密结果, 纳入对应类别, 更新词语 统计库中相关词语的记录。 该方法提高了密点标 注的效率和准确率, 通过辅助定密有效避免了定 密的随机性、 主观性。 权利要求书3页 说明书8页 附图2页 CN 115481429 A 2022.12.16 CN 115481429 A 1.一种无监 督的密点标注和辅助定密方法, 其特 征在于, 包括如下步骤: 步骤1, 针对不同秘密类型分别建立语料统计库; 步骤2, 根据步骤1得到的语料统计库计算词语置信度, 按不同类型进行密级置信度排 序, 构建密点词库; 步骤3, 根据步骤1得到的语料统计库, 利用多特征融合的密点句置信度评估算法, 提取 已定密文档中不同密级的密点句, 构建密点句库; 步骤4, 利用步骤2构建的密点词库和步骤3构建的密点句库对待定密文档进行密点标 注; 步骤5, 根据步骤4中得到的待标注文档的定密结果, 纳入对应类别, 更新词语统计库中 相关词语的记录 。 2.如权利要求1所述的一种无监督的密点标注和辅助定密方法, 其特征在于: 步骤2所 述根据步骤1得到的预 料统计库计算词语置信度的算法为改进的S S3算法, 如下式(1): gv(w, c)= lvσ(w, c)·sgλ(w, c)·snρ(w, c) (1); 上式中gv(w, c)为词语w专属于类别c的置信度; lvσ(w, c)是根据词 语在类别中的局部概率对词 语进行赋值, 通过定义类内分布系数和 改进局部概率, 考虑类内分布对词语分类区分度的影响, 以及文本间差异所带来的计算偏 差; sgλ(w, c)用于表示词语对 于类别的重要性; snρ(w, c)用于衡 量词语w对类别c重要的唯一 性; lvσ(w, c)、 sgλ(w, c)、 gv(w, c)分别如下式(2)、 (3)、 (4): 其中, nc表示类别c中所有的文本 数量, nw, c表示类别c中包含词语w的文本 数量, dc, j类别 c中的第j篇文本, W是所有词语的集合, wi∈W, 和 分别表示类别c中含有 最多和最少文本数的词语的文本数量, 是词语w在文本dc, j中出现的频数, 是文本dc, j中含有最大词频 数的词语的词频 数量; 其中, LVw={lvσ(w, ci)|ci∈C}, 即词语w的所有局部值的集合; 表示LVw的中位数; 即LVw的绝对中位差; 为超参数; 其中, 即C中除c外, 所有类别的sgλ(w, ci)的总和; 为 超参数。 3.如权利要求1所述的一种无监督的密点标注和辅助定密方法, 其特征在于: 步骤3所 述多特征融合的密点句置信度评估算法如下式(5): CScore(si)=γl×classificati on(si)+γ2×position(si)+γ3×summary(si) (5);权 利 要 求 书 1/3 页 2 CN 115481429 A 2其中, si表示文本d的第i个句子, 则d={s1, s2, ..., s|d|}, classification(si)表示句子 si的密点词特征得分, position(si)表示句子si的位置特征得分, summary(si)表示句子si的 总结词特 征得分, γ1、 γ2、 γ3为大于0的实数超参数, 且γ1+γ2+γ3=1。 4.如权利要求1所述的一种无监督的密点标注和辅助定密方法, 其特征在于: 所述式 (5)中的clas sificati on(si)、 positi on(si)、 summary(si)分别如下式(6)、 (7)、 (8): 其中, ni, j表示句子si在类别cj的词语总数, mi为句子si中词语的总数, |s|表示句子总 数, wi, k表示句子si的第k个词, gv(wi, k, cj)表示词语wi, k在类别cj的gv值, 的第j个分 量表示句子si在对应类别cj的GV值, 表示向量 的L1范数, 为向量 的最大分 量值, 同时记录GMAX对应的密级作为句子si的密级标签; 其中, i表示si是文本d的第i个句子, |d|表示文本d中句子的总数。 初始position(si)值 随着i值的增加而减少, 当i增长为句 子总数的一半时, position(si)值降至最低值, 随着i 值的持续增加, position(si)值回增, 保证了越靠近文本的首尾段, 句子的位置特征得分越 高; 其中, SList为总结词表, 对句子si的词语进行遍历, 当该句子有总结词表中的总结词 时, 该特征得分为1, 反 之则为0; 上述总结词包括: 所以、 因此、 总之、 总的来说、 综上 所述。 5.如权利要求1所述的一种无监督的密点标注和辅助定密方法, 其特征在于: 步骤4所 述对待定密文档进行密点标注的具体步骤为: 步骤4‑1, 读入需要 进行密点标注的文档; 步骤4‑2, 利用jieba分词工具将上述文档内容切分为单个的词语, 并且去除停用词, 分 为一系列词语集 合; 步骤4‑3: 将步骤4 ‑2生成的所有词语集合与密点词库进行比对, 在原文档中将所有 的 匹配词高亮标注, 并显示 其gv值作为置信度; 步骤4‑4: 根据步骤4 ‑3中标注出的匹配词语中的最高密级确定待标注文档的推荐密权 利 要 求 书 2/3 页 3 CN 115481429 A 3
专利 一种无监督的密点标注和辅助定密方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:34:41
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
T-CAMETA 001006.3—2022 工业网关 第3部分:面向数控系统的工业网关测评技术规范.pdf
GB-T 42457-2023 工业自动化和控制系统信息安全 产品安全开发生命周期要求 IEC 62443-4-1-2018.pdf
DB34-T 4757-2024 固定污染源废气挥发性有机物监测技术规范 安徽省.pdf
GB-T 31495.2-2015 信息安全技术 信息安全保障指标体系及评价方法 第2部分:指标体系.pdf
T-CIECCPA 039—2023 垃圾焚烧电力碳足迹量化与评价方法.pdf
信息安全学报 社工概念演化分析 2021.pdf
GB-T 26540-2022 墙体保温系统用钢丝网架复合保温板.pdf
GB-T 38485-2021 微生物痕量基因残留测定 微滴数字PCR法.pdf
DB65-T 3253-2020 建筑消防设施质量检测评定规程 新疆维吾尔自治区.pdf
GB-T 7932-2017 气动 对系统及其元件的一般规则和安全要求.pdf
GB-T 24533-2019 锂离子电池石墨类负极材料.pdf
T-WAPIA 045.4—2021 信息技术 系统间远程通信和信息交换 原子密钥建立与实体鉴别 第4 部分:采用预共享密钥的原子密钥建立与实体鉴别.pdf
GB-T 29767-2013 信息安全技术 公钥基础设施 桥CA体系证书分级规范.pdf
GB-T 18916.11-2021 取水定额 第11部分:选煤.pdf
GB 4943.1-2022 音视频、信息技术和通信技术设备 第1部分:安全要求.pdf
T-ZZB 0478—2018 风机用无刷直流电机.pdf
GB-T 42729-2023 锂离子电池和电池组安全使用指南.pdf
GB-T 24487-2022 氧化铝.pdf
民航 MH-T 0026-2005 民用航空重要信息系统灾难备份与恢复管理规范.pdf
AI安全白皮书 华为.pdf
交流群
-->
1
/
14
评价文档
赞助2元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。