首页 >> 精选知识 >

机器学习掌握海量数据集算法突破艾字节屏障

2023-09-13 17:01:38 来源: 用户: 

机器学习算法通过识别海量数据集的关键特征并将其划分为不会阻塞计算机硬件的可管理批次,展示了处理超出计算机可用内存的数据的能力。该算法由洛斯阿拉莫斯国家实验室开发,在橡树岭国家实验室Summit(世界第五快的超级计算机)上进行测试运行时,创下了分解巨大数据集的世界纪录。

这种高度可扩展的算法在笔记本电脑和超级计算机上同样高效,它解决了阻碍处理来自癌症研究、卫星图像、社交媒体网络、国家安全科学和研究等数据丰富的应用程序的信息的硬件瓶颈。

洛斯阿拉莫斯国家实验室的计算物理学家IsmaelBoureima表示:“我们开发了非负矩阵分解方法的‘内存不足’实现,使您能够在给定硬件上分解比以前更大的数据集。”Boureima是《超级计算杂志》上关于破纪录算法的论文的第一作者。

“我们的实施只是将大数据分解为可以使用可用资源进行处理的较小单元。因此,它是跟上呈指数增长的数据集的有用工具。”

“传统的数据分析要求数据符合内存限制。我们的方法挑战了这一概念,”洛斯阿拉莫斯机器学习科学家、该论文的合著者ManishBhattarai说。

“我们引入了一种内存不足的解决方案。当数据量超过可用内存时,我们的算法会将其分解为更小的段。它一次处理一个段,将它们循环进出内存。这种技术使我们拥有有效管理和分析超大数据集的独特能力。”

Boureima表示,现代异构高性能计算机系统的分布式算法可以在小到台式计算机的硬件上使用,也可以在像Chicoma、Summit或即将推出的Venado超级计算机这样大型和复杂的硬件上使用。

“问题不再是是否可以分解更大的矩阵,而是分解需要多长时间,”布雷马说。

洛斯阿拉莫斯实施利用GPU等硬件功能来加速计算和快速互连,以在计算机之间高效地移动数据。同时,该算法有效地同时完成多个任务。

非负矩阵分解是洛斯阿拉莫斯SmartTensors项目下开发的高性能算法的另一部分。

Boureima说,在机器学习中,非负矩阵分解可以用作无监督学习的一种形式,从数据中提取意义。“这对于机器学习和数据分析非常重要,因为该算法可以识别数据中对用户具有特殊意义的可解释的潜在特征。”

破纪录的跑步

在洛斯阿拉莫斯团队破纪录的运行中,该算法使用25,000个GPU处理了340TB的密集矩阵和11EB的稀疏矩阵。

这篇新论文的合著者、洛斯阿拉莫斯大学的理论物理学家博伊安·亚历山德罗夫(BoianAlexandrov)表示:“据我们所知,我们正在达到艾字节分解的水平,这是其他人尚未做到的。”他领导了开发SmartTensors人工智能平台的团队。

分解或分解数据是一种专门的数据挖掘技术,旨在提取相关信息,将数据简化为可理解的格式。

Bhattarai进一步强调了他们算法的可扩展性,并表示:“相比之下,传统方法经常遇到瓶颈,主要是由于计算机处理器与其内存之间的数据传输滞后。”

“我们还表明你不一定需要大型计算机,”布雷马说。“如果您能负担得起的话,扩展到25,000个GPU是很棒的,但我们的算法在台式计算机上将非常有用,可以处理您以前无法处理的事情。”

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章