如何规避人工智能带来的四个灾难性风险?(五)防止AI幻觉

人工智能
后台-插件-广告管理-内容页头部广告(手机)

(续上篇)

如何规避人工智能带来的四个灾难性风险?(五)防止AI幻觉

这是一张容易引起幻觉的图片,而AI有它自己的“幻觉”(图片来自网络)

5,防止AI违背设计意图

我们已经观察到控制人工智能是多么困难。2016年,微软的聊天机器人Tay在发布后一天内就开始发布攻击性推文,尽管它接受了“清理和过滤”数据的训练。由于人工智能开发人员往往将速度置于安全之上,未来先进的人工智能可能会在“AI幻觉”基础上“胡作非为”,追求与我们的利益背道而驰的目标,同时逃避我们重新定向或停用它们的尝试。

“目标漂移”指的是人工智能的实际工作目标偏离了最初设定的目标,尤其是当它们适应不断变化的环境时。同样,个人和社会价值观也随着时间的推移而演变,但并不总是积极的。

随着时间的推移,过程性目标可以成为最终目标。最终目标是我们为了自身而追求的目标,而过程性目标仅仅是实现其他目标的一种手段。金钱是一种工具性手段,但有些人对金钱产生了一种内在的欲望,因为它激活了大脑的奖励系统。类似地,通过强化学习训练的人工智能代理——占主导地位的技术——可能会在无意中学会嵌入目标。像资源获取这样的过程性目标可能成为他们的主要目标。

人工智能可能会把追求权力作为达到目的的手段。更大的权力(权限)和资源提高了它实现目标的几率,而权限被关闭则会阻碍它的进步。人工智能已经被证明可以紧急开发过程性目标,如构建新进程。追求权力的个人和公司可能会以雄心勃勃的目标和最少的监督来部署强大的人工智能。这些人可以学会通过入侵计算机系统、获取金融或计算资源、影响政治来寻求权力,或控制工厂和实体基础设施。是的,人工智能可能帮助野心家实现他们卑鄙的目标,也可能刺激那些看似正常的人富有野心。

欺骗盛行于政治和商业等领域。竞选承诺无法兑现,公司有时会欺骗外部评估。正如Meta的西塞罗模型所显示的那样,人工智能系统已经显示出一种紧急的欺骗能力。尽管西塞罗被训练成诚实的人,但他学会了在外交游戏中做出虚假承诺,并在战略上暗箭伤其“盟友”。

各种资源,如金钱和计算能力,有时可以用工具理性地寻求。有能力追求目标的人工智能可能会采取非法步骤来获得权力和资源。

如果高级人工智能运用其欺骗技巧来逃避监管,它们可能会变得无法控制。与大众汽车在2015年的排放测试中作弊类似,有情境意识的人工智能在安全测试中的表现可能与现实世界不同。例如,人工智能可能会开发寻求权力的目标,但为了通过安全评估而隐藏它们。人工智能的训练方式可以直接激励这种欺骗行为。

一些建议:

避免风险最大的用例:在高风险场景中限制人工智能的部署,例如追求开放式目标或在关键基础设施中。

支持人工智能安全研究,例如加强监督机制,通过改进理解深度学习模型的透明度,避免AI程序产生越权行为。

识别并消除深度学习模型中危险的隐藏功能,例如欺骗、特洛伊木马和生物工程的能力。

(本文有些素材来自AI安全组织CAIS)

(完)

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。