电子技术派
发现数据异常的新算法优于当前软件

Researchers improve method to discover anomalies in data

华盛顿州立大学研究人员开发的一种算法可以比目前的异常检测软件更好地发现数据异常,包括在流数据中。

发表在《人工智能研究杂志》(Journal of Artificial Intelligence Research)上的这项工作为人工智能(AI)方法做出了根本性贡献,这些方法可能在许多需要快速发现大量数据异常的领域得到应用,例如网络安全、电网管理、错误信息和医疗诊断。

能够更好地发现异常意味着能够更容易地发现欺诈、医疗环境中的疾病或重要的异常信息,例如小行星的信号与来自其他恒星的光重叠。

“这项工作展示了人工智能和人类如何协同工作以协同解决异常发现问题的进展,”监督这项工作的Huie-Rogers计算机科学副教授Jana Doppa说。

“有了这些生成式人工智能技术,有很多数据包括错误信息,如果你想让人类检查所有这些数据,这是不可能的,因为它太大了。如果你的人力资源有限,而且你想快速发现错误信息之类的东西,你就希望算法能优先考虑哪些项目应该贴上标签。”

异常检测带来了传统人工智能问题中看不到的几个挑战。与正常数据相比,异常数据的数量非常少,通常不到2%。此外,异常数据和正常数据之间可能没有太大差异。

“所以,这就像大海捞针一样是个问题,”多帕说。“而且你甚至不知道在很多领域要找什么针。”

另一个问题是,对于大量数据,人工智能通常会发现太多的候选异常情况,无法传递给人们进行检查。

博士后研究员兼主要作者shubhomy Das说:“无论何时出现这些假阳性,你都在浪费大量人类的时间,我们希望尽量减少这种时间。”“我们如何利用最少的人类反馈来调整异常探测器,使误报率随着时间的推移而下降,并发现越来越多的不同的异常?”

作为工作的一部分,研究人员提供了新的理论和经验发现,解释了为什么计算机模型的集合在异常发现方面效果很好。他们发现,与没有反馈的系统相比,只需要少量的逐步反馈,人工智能算法就能学得更好,发现更多不同的异常情况。人类需要一个关于候选异常的解释,以理解为什么人工智能选择它们进行标记。

“一些可解释性或可解释性的概念很重要,”博士生和合著者拉基布·伊斯兰说。“我们认为,这在现有文献中基本上是缺失的。”

研究人员利用他们的新发现开发了一种算法,可以批量查看异常,从而提高了发现不同类型异常的能力。因此,在异常信用卡数据的情况下,算法会发现不同类型的异常行为,例如一个人奇怪的昂贵购买和/或在奇怪的地方进行的购买。

与目前的人工智能模型不同,研究人员开发的算法能够处理流数据,这在许多现实世界的应用中很常见。他们的算法可以检测和量化数据分布中的漂移,然后采取纠正措施。

Doppa说:“在数据流中发现异常的问题研究较少。”

研究人员的计算机代码和数据是公开的,他们现在计划将他们的算法部署在现实世界的系统中,以衡量它们的准确性和可用性。

更多信息:shubhomy Das等人,基于树的集成异常发现的有效性:见解,批处理和流主动学习,人工智能研究杂志(2024)。DOI: 10.1613/jair.1.14741由华盛顿州立大学提供引文:用于发现数据异常的新算法优于当前软件(2024年,7月26日)检索于2024年7月26日https://techxplore.com/news/2024-07-algorithm-anomalies-outperforms-current-software.html本文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。

点击分享到

热门推荐