首页 >> 生活 >

用于代码的AI鼓励协作开放的科学发现

2022-10-30 14:55:01 来源: 用户: 

我们已经看到,模式分析和机器智能应用于图像,音频和视频信号以及自然语言文本的最新进展非常显着,但应用于人为产生的另一人工制品(计算机程序源代码)的应用却没有那么多。在2018年KDD的FEED研讨会上将发表的一篇论文中,我们展示了一个朝着代码的语义分析取得进展的系统。这样,我们为机器真正推理程序代码并从中学习提供了基础。

最近在IJCAI 2018上进行了展示的这项工作是由IBM社会公益事业研究员Evan Patterson构思和领导的,专门研究数据科学软件。数据科学程序是一种特殊的计算机代码,通常很短,但是充满了语义丰富的内容,这些内容指定了一系列数据转换,分析,建模和解释操作。我们的技术执行数据分析(想象一个R或Python脚本)并捕获分析中调用的所有函数。然后将这些功能连接到数据科学本体我们已经创建,执行了几个简化步骤并生成了程序的语义流程图表示。例如,下面的流程图是根据类风湿关节炎数据自动生成的。

该技术适用于各种编程语言和程序包。下面的三个代码段是用R编写的,带有NumPy和SciPy软件包的Python,以及带有Pandas和Scikit-learn软件包的Python。全部产生完全相同的语义流程图。

我们可以将提取的语义流图视为一个数据点,就像一个图像或一段文本一样,在其上执行更高级别的任务。利用我们开发的表示形式,我们可以为实践数据科学家提供多种有用的功能,包括智能搜索和自动完成分析,推荐相似或互补分析,对特定问题或数据集进行的所有分析的空间可视化,翻译或样式转换,甚至是机器生成的新颖数据分析(即计算创造力),都基于对代码功能的真正语义理解。

数据科学本体是用我们开发的一种新的本体语言编写的,名为Monoidal本体和计算语言(Monocl)。该工作线于2016年与多发性硬化症加速治疗项目合作启动。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章