首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

在 Hub 上使用 Presidio 进行自动 PII 检测实验

编程知识
2024年07月31日 22:03

我们在 Hugging Face Hub 上托管的机器学习 (ML) 数据集中发现了一个引人关注的现象: 包含个人未经记录的私密信息。这一现象为机器学习从业者带来了一些特殊挑战。

在本篇博客中,我们将深入探讨含有一种称为个人识别信息 (PII) 的私密信息的各类数据集,分析这些数据集存在的问题,并介绍我们在数据集 Hub 上正在测试的一个新功能,旨在帮助应对这些挑战。

包含个人识别信息 (PII) 的数据集类型

我们注意到包含个人识别信息 (PII) 的数据集主要有两种类型:

  1. 标注的 PII 数据集: 例如由 Ai4Privacy 提供的 PII-Masking-300k,这类数据集专门用于训练 PII 检测模型。这些模型用于检测和掩盖 PII,可以帮助进行在线内容审核或提供匿名化的数据库。
  2. 预训练数据集: 这些通常是大规模的数据集,往往有数 TB 大小,通常通过网络爬虫获得。尽管这些数据集一般会过滤掉某些类型的 PII,但由于数据量庞大和 PII 检测模型的不完善,仍可能有少量敏感信息遗漏。

机器学习数据集中的个人识别信息 (PII) 面临的挑战

机器学习数据集中存在的个人识别信息 (PII) 会为从业者带来几个挑战。首先,它引发了隐私问题,可能被用来推断个人的敏感信息。

此外,如果未能妥善处理 PII,它还可能影响机器学习模型的性能。例如,如果一个模型是在包含 PII 的数据集上训练的,它可能学会将特定的 PII 与特定的结果关联起来,这可能导致预测偏见或从训练集生成 PII。

数据集 Hub 上的新实验: Presidio 报告

为了应对这些挑战,我们正在数据集 Hub 上试验一项新功能,使用 Presidio——一种开源的最先进的个人识别信息 (PII) 检测工具。Presidio 依赖检测模式和机器学习模型来识别 PII。

通过这个新功能,用户将能够看到一个报告,估计数据集中 PII 的存在情况。这一信息对于机器学习从业者非常有价值,帮助他们在训练模型前做出明智的决策。例如,如果报告指出数据集包含敏感的 PII,从业者可能会选择使用像 Presidio 这样的工具进一步过滤数据集。

数据集所有者也可以通过使用这些报告来验证他们的 PII 过滤流程,从而在发布数据集之前受益于这一功能。

Presidio 报告的一个示例

让我们来看一个关于这个 预训练数据集 的 Presidio 报告的示例:

Presidio report

在这个例子中,Presidio 检测到数据集中有少量的电子邮件和敏感个人识别信息 (PII)。

结论

机器学习数据集中个人识别信息 (PII) 的存在是机器学习社区不断发展的挑战之一。 在 Hugging Face,我们致力于保持透明度,并帮助从业者应对这些挑战。 通过在数据集 Hub 上试验诸如 Presidio 报告之类的新功能,我们希望赋予用户做出明智决策的能力,并构建更健壯、更符合道德标准的机器学习模型。

我们还要感谢国家信息与自由委员会 (CNIL) 对 GDPR 合规性的帮助。 他们在指导我们应对人工智能和个人数据问题的复杂性方面提供了宝贵的帮助。 请在 这里 查看他们更新的人工智能操作指南。

敬请期待更多关于这一激动人心发展的更新!


英文原文: https://hf.co/blog/presidio-pii-detection

原文作者: Quentin Lhoest, Margaret Mitchell, Omri M, Omri Mendels

译者: Evinci

From:https://www.cnblogs.com/huggingface/p/18335707
本文地址: http://shuzixingkong.net/article/645
0评论
提交 加载更多评论
其他文章 代码随想录Day1
704.二分查找 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。 示例 1: 输入: nums = [-1,0,3,5,9,12], target = 9 输出: 4 解释:
代码随想录Day1 代码随想录Day1 代码随想录Day1
从C++看C#托管内存与非托管内存
进程的内存 一个exe文件,在没有运行时,其磁盘存储空间格式为函数代码段+全局变量段。加载为内存后,其进程内存模式增加为函数代码段+全局变量段+函数调用栈+堆区。我们重点讨论堆区。 进程内存 函数代码段 全局变量段 函数调用栈 堆区 托管堆与非托管堆 C# int a=10这种代码申请的内存空间位于
从C++看C#托管内存与非托管内存 从C++看C#托管内存与非托管内存 从C++看C#托管内存与非托管内存
架构演化思考总结(2)
架构演化思考总结(2) ​ —-–从命令模式中来探索处理依赖关系 在正式引入命令模式的概念之前,我们先从简单的案例来逐步演化大家在书面上常见到的内容。 public interface ICommand { void Execute(); } public class PlayMusicComman
架构演化思考总结(2)
RPC和 HTTP协议
RPC 和HTTP 的区别 服务发现 HTTP,知道服务域名,可以通过 DNS 解析 得到 服务的IP地址,从而进行访问 RPC 需要一个专门的中间服务去保存服务名和IP信息(注册中心,nacos、consul),想要访问某个服务,就得同时注册到 中间服务,然后获取需要顶用服务的IP 和端口信息 底
我用Awesome-Graphs看论文:解读GraphBolt
这次向大家分享一篇流图处理系统论文GraphBolt,看如何基于计算历史的方式实现增量图计算,并保证与全量图计算语义的一致性。
我用Awesome-Graphs看论文:解读GraphBolt 我用Awesome-Graphs看论文:解读GraphBolt 我用Awesome-Graphs看论文:解读GraphBolt
C#/.NET/.NET Core优秀项目和框架2024年7月简报
前言 公众号每月定期推广和分享的C#/.NET/.NET Core优秀项目和框架(每周至少会推荐两个优秀的项目和框架当然节假日除外),公众号推文中有项目和框架的介绍、功能特点、使用方式以及部分功能截图等(打不开或者打开GitHub很慢的同学可以优先查看公众号推文,文末一定会附带项目和框架源码地址)。
C#/.NET/.NET Core优秀项目和框架2024年7月简报 C#/.NET/.NET Core优秀项目和框架2024年7月简报 C#/.NET/.NET Core优秀项目和框架2024年7月简报
《最新出炉》系列初窥篇-Python+Playwright自动化测试-61 - 隐藏元素定位与操作
1.简介 对于前端隐藏元素,一直是自动化定位元素的隐形杀手,让人防不胜防。脚本跑到隐藏元素时位置时报各种各样的错误,可是这种隐藏的下拉菜单又没有办法避免,所以非常头痛,这一篇只为交流隐藏元素自动化定位处理方法以及宏哥自己的一点浅薄见解。 2.什么是隐藏元素 隐藏元素,熟悉前端的或者HTML的小伙伴或
《最新出炉》系列初窥篇-Python+Playwright自动化测试-61 - 隐藏元素定位与操作 《最新出炉》系列初窥篇-Python+Playwright自动化测试-61 - 隐藏元素定位与操作 《最新出炉》系列初窥篇-Python+Playwright自动化测试-61 - 隐藏元素定位与操作
BI 工具助力企业解锁数字化工厂,开启工业智能新视界
背景 在 2022 年公布的《“十四五”数字经济发展规划》中,政府不断增加对制造业数字化转型的政策支持力度,积极倡导制造企业采用最新技术,提升自动化、数字化和智能化水平。这一举措旨在强化国际竞争力,推动制造业由制造大国向制造强国转变。 然而,在制造业数字化和智能化升级的过程中,涉及以下一系列挑战和难
BI 工具助力企业解锁数字化工厂,开启工业智能新视界 BI 工具助力企业解锁数字化工厂,开启工业智能新视界 BI 工具助力企业解锁数字化工厂,开启工业智能新视界