我们如何教导人工智能系统按照人类目标和价值观行事
人工智能安全的核心在于价值对齐问题,许多研究人员使用逆强化学习(IRL)等技术与人工智能系统进行交互,以教授人类价值观。从理论上讲,通过IRL,人工智能系统可以通过观察人类行为和接收人类反馈来了解人类的价值以及如何最好地帮助他们。
但人类行为并不总是反映人类的价值观,而人的反馈往往是有偏见的。我们说当我们放松时我们想要健康的食物,但是当我们感到压力时我们需要油腻的食物。我们不仅经常无法按照我们的价值观生活,而且我们的许多价值观相互矛盾。例如,我们重视睡眠时间为8小时,但我们经常睡得少,因为我们也非常重视努力工作,照顾孩子,保持健康的人际关系。
AI系统可以通过观察人类来学习很多东西,但由于我们的不一致,一些研究人员担心使用IRL训练的系统将从根本上无法区分值对齐和未对齐的行为。随着人工智能系统变得越来越强大,这可能变得特别危险:通过观察人类来推断错误的价值观或目标可能导致这些系统采取有害行为。
区分偏见和价值观
人类未来研究所的研究员Owain Evans和研究非盈利组织Ought的总裁AndreasStuhlmüller探讨了IRL在人工智能系统教学中的局限性。特别是,他们的研究揭示了认知偏差如何使AI难以通过互动学习来学习人类偏好。
埃文斯详细说明:“我们希望代理人追求一些目标,我们希望这套目标与人类目标相吻合。那么问题是,如果代理人只是观察人类并试图从他们的行为中找出目标,那么有多少偏见是一个问题?“
在某些情况下,AIs将能够理解常见偏差的模式。埃文斯和Stuhlmüller讨论偏见的心理文学在他们的论文,学习无知,不一致代理的首选项,并在他们的上网本,agentmodels.org。在agentmodels.org中讨论的常见模式的一个例子是“时间不一致。”时间不一致是指人们的价值观和目标根据您提出要求而改变的想法。换句话说,“你更喜欢未来的自我与未来的自我喜欢的事情之间存在着不一致。”
时间不一致的例子无处不在。例如,如果你在睡觉前问他们,大多数人都重视早起和锻炼。但到了早上,当天气寒冷而且黑暗,他们没有得到那8小时的睡眠时,他们常常重视床单的舒适性和放松的美德。从早起,到避免酗酒,吃得健康,省钱,人们往往对未来的自我期望更多,而不是未来的自我愿意。
通过系统的,可预测的模式,如时间不一致,IRL可以在AI系统中取得进展。但通常我们的偏见并不那么清楚。根据埃文斯的说法,破译哪些行为与某人的价值观相吻合,以及哪些行为源于偏见是困难的,甚至是不可能的。
“假设你承诺打扫房子,但你得到最后一分钟与朋友聚会,你无法抗拒,”他建议道。“这是偏见,还是你现在的生活价值?这是仅使用逆强化学习来训练AI的问题 - 它将如何决定什么是偏差和价值?“
学习“正确”的价值观
尽管存在这个难题,但理解人类价值观和偏好对于人工智能系统至关重要,开发人员对培训他们的机器以了解这些偏好非常有实际意义。
今天,流行的网站已经使用人工智能来学习人类的偏好。例如,通过YouTube和亚马逊,机器学习算法会观察您的行为并预测接下来会发生什么。但是,虽然这些建议通常很有用,但却会产生意想不到的后果。
以北卡罗来纳大学信息与图书馆学院副教授Zeynep Tufekci为例。在观看了集会的视频以了解更多关于他的选民的吸引力之后,Tufekci开始在她的“自动播放”队列中看到民族主义宣传和大屠杀否认视频。她很快意识到YouTube的算法经过优化以保持用户的参与度,可以预见的是,当用户观看更多视频时,会有更多极端内容。这导致她称之为“伟大的激进者”。
YouTube算法中的这种价值错位预示着使用更先进的AI系统进行交互式学习的危险。设计师必须能够优化它们以理解我们更深层次的价值观并改善我们的生活,而不是优化先进的人工智能系统以吸引我们的短期愿望和我们对极端的吸引力。
埃文斯建议我们希望人工智能系统可以比人类更好地推理我们的决策,了解我们何时做出有偏见的决策,并“帮助我们更好地追求我们的长期偏好。”然而,这将需要AI提出的建议第一次脸红对人类来说似乎很糟糕。
人们可以想象一个人工智能系统对商业计划提出了明智的,违反直觉的修改,而人类只是觉得它很荒谬。或者也许人工智能建议稍微长一点,无压力的驾驶路线到第一次约会,但焦虑的驾驶员无论如何都采取更快的路线,不相信。
为了帮助人们在这些场景中理解AI,Evans和Stuhlmüller研究了AI系统如何以人类可理解的方式进行推理,并最终可以改进人类推理。
一种方法(由Paul Christiano发明)被称为“放大”,人类使用AI来帮助他们更深入地思考决策。埃文斯解释说:“你想要一个与我们完全一样的思维系统,但它能够更快,更高效,更可靠地完成。但它应该是一种思维,如果你把它分解成小步骤,人类就能理解并遵循。“
第二个概念被称为“因素认知” - 将复杂任务分解为小的,可理解的步骤的想法。根据埃文斯的说法,目前尚不清楚一般因素的认知能否成功。有时人类可以将他们的推理分解为小步骤,但通常我们依赖直觉,这更难分解。
指定问题
Evans和Stuhlmüller已经开始了一项关于扩增和因子认知的研究项目,但他们还没有解决交互式学习中人类偏见的问题 - 相反,他们已经着手为其他研究人员精确地解决这些复杂问题。
“这更像是以比以前人们更精确的方式展示这个问题,”埃文斯说。“我们最终获得了有趣的结果,但从某种意义上说,我们的结果之一就是意识到这很困难,并且理解为什么这很困难。”
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
宝子们,杭州 房子装修完成啦!这次要给大家分享几家设计超赞的装修公司哦。它们各具特色,从空间规划到风格...浏览全文>>
-
欲筑室者,先治其基。在上海,装修房子对于每个业主而言,都是极为关键的一步,然而,如何挑选一家值得信赖的...浏览全文>>
-
2025年以来,联通支付严格贯彻落实国家战略部署,以数字和科技为驱动,做好金融五篇大文章,履行支付为民社会...浏览全文>>
-
良工巧匠,方能筑就华居;精雕细琢,方可打造美家。当我们谈论装修公司时,选择一家靠谱可靠的公司是至关重要...浏览全文>>
-
在当今社会,随着城市化进程的高速推进,建筑垃圾的产生量与日俱增。据权威数据显示,我国每年建筑垃圾产生量超 ...浏览全文>>
-
家人们,在上海要装修,选对公司那可太重要了!古语有云:"安得广厦千万间,大庇天下寒士俱欢颜。"一个温馨的...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,各大品牌纷纷推出各具特色的车型以满足消费者多样化的需求。作为国内新能源...浏览全文>>
-
近年来,随着汽车市场的不断变化和消费者需求的升级,安徽滁州地区的宝来2025新款车型在市场上引起了广泛关注...浏览全文>>
-
随着汽车市场的不断变化,滁州地区的消费者对高尔夫车型的关注度持续上升。作为大众品牌旗下的经典车型,高尔...浏览全文>>
-
在2023年,大众探影以其时尚的设计和出色的性能赢得了众多消费者的青睐。作为一款小型SUV,探影凭借其紧凑的车...浏览全文>>
- 安徽滁州途安L新车报价2022款,最低售价16.68万起,入手正当时
- 小鹏G7试驾,新手必知的详细步骤
- 别克GL8预约试驾,4S店的贴心服务与流程
- 安徽阜阳ID.4 CROZZ落地价全解,买车必看的省钱秘籍
- 淮北探岳多少钱 2025款落地价,最低售价17.69万起现在该入手吗?
- 安徽淮南大众CC新款价格2025款多少钱能落地?
- 淮北长安启源C798价格,最低售价12.98万起现在该入手吗?
- 安徽淮南途锐价格,各配置车型售价全解析
- 蒙迪欧试驾预约,4S店体验全攻略
- 沃尔沃XC40试驾需要注意什么
- 滁州ID.4 X新车报价2025款,各车型售价大公开,性价比爆棚
- 试驾思域,快速操作,轻松体验驾驶乐趣
- 试驾长安CS35PLUS,一键搞定,开启豪华驾驶之旅
- 天津滨海ID.6 X落地价限时特惠,最低售价25.9888万起,错过不再有
- 天津滨海凌渡多少钱?看完这篇购车攻略再做决定
- 安徽池州长安猎手K50落地价,买车前的全方位指南
- 山东济南ID.6 CROZZ 2024新款价格,最低售价19.59万起,现车充足
- 试驾海狮05EV,新手必知的详细步骤
- 生活家PHEV多少钱 2025款落地价走势,近一个月最低售价63.98万起,性价比凸显
- 奇瑞风云A9试驾,新手必知的详细步骤