加入收藏 | 设为首页 | 会员中心 | 我要投稿 唐山站长网 (https://www.0315zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

关于合成数据的一切

发布时间:2021-03-24 14:54:53 所属栏目:外闻 来源:互联网
导读:输乃至农业等各类用例实现数据定制。 由此掀起的革命浪潮正在孕育当中。StartUs Insights去年6月发布的研究结果表明,已经有50多家供应商开发出合成数据解决方案。但在具体介绍领先厂商之前,我们先来了解合成数据能够解决哪些具体问题。 真实数据带来的大麻



输乃至农业等各类用例实现数据定制。

由此掀起的革命浪潮正在孕育当中。StartUs Insights去年6月发布的研究结果表明,已经有50多家供应商开发出合成数据解决方案。但在具体介绍领先厂商之前,我们先来了解合成数据能够解决哪些具体问题。

真实数据带来的大麻烦

过去几年以来,人们越来越关注数据集中的固有偏差/偏见如何在无意之间给AI算法带来永久存在的系统性歧视。根据Gartner公司的预测,到2022年,由数据、算法或AI项目管理团队引入的偏差/偏见将在所有错误交付结果中占据85%的比例。

AI算法的激增也引发了人们对于数据隐私的日益关注。为此,欧盟通过GDPR、加利福尼亚州颁布州内隐私法案,弗吉尼亚州最近也着手制定更为严苛的消费者数据隐私与保护条款。

相关法律的出台,使消费者能够更好地控制其个人数据。例如,弗吉尼亚州的新法律向消费者授予访问、更正、删除及获取个人数据副本的权利,同时也允许消费者随时拒绝企业销售其个人数据、或者出于针对性广告发布等目的对个人数据/资料进行算法访问的行为。

通过限制信息访问渠道,个人信息确实得到了有效保护,但这同时也将牺牲算法的预测效果。要获得高准确性AI算法,模型希望数据供应越多越好;而如果得不到充足的数据,则AI优势在实际应用(例如协助医学诊断及药物研究)方面的表现也可能受到影响。

另一种隐私问题解决方案则是消费者信息匿名化。例如,我们可以通过掩蔽或消除身份特征(例如删除电子商务交易记录中的姓名、信用卡号,或者清除医疗记录中的身份内容等)实现个人数据匿名化。但越来越多的证据表明,即使对某一数据源完成匿名处理,对方仍能够利用不慎泄露的其他消费者数据集实现内容关联与还原。实际上,通过合并来自多个来源的数据,即使经过一定程度的匿名化,恶意方仍然能够整理出令人惊讶的清晰身份形象。在某些特定情况下,对方甚至能够直接关联公共来源数据,在无需任何恶意攻击的前提下完成身份定位。

合成数据解决方案

合成数据承诺在实现AI优势的同时,消除各类负面影响。除了将真实个人数据排除在外,合成数据还强调纠正现实场景中产生的种种偏差/偏见,由此实现超越真实数据的素材质量。

除了高度依赖个人数据的应用场景之外,合成数据还有其他多种用途。其一就是复杂的计算机视觉建模,这里往往涉及多种因素的实时交互。我们可以使用由高级游戏引擎合成的视频数据集创建出超逼真图像,用以描绘自动驾驶场景中可能发生的各种事件,由此获得现实场景下几乎不可能捕捉到、或者可能极度危险的图像或视频。这些合成数据集的出现,极大提升并改善了自动驾驶系统的训练效率与效果。

(编辑:唐山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读