近日,国际期刊《模式》杂志发表的一篇文章显示,一些AI系统已学会了欺骗人类,即使是经过训练的、“表现”出有用且诚实的系统也不例外。
论文第一作者、美国麻省理工学院人工智能安全研究员彼得·朴说,开发人员对导致AI出现欺骗这种不良行为的原因,还没有很好地理解。但总的来说,AI欺骗之所以出现,是因为基于欺骗的策略,是在给定的AI训练任务中一种能得到良好反馈的方式。换句话说,欺骗可帮助AI实现目标。
研究人员认为,人类需要尽快对未来AI和开源模型的更高级欺骗技能作好准备。随着它们的欺骗能力越来越先进,其对社会构成的危险将变得越来越严重。如文中所称,它们会顺利通过人类开发人员和监管机构强加的安全测试,引导人类进入一种“虚假的安全感”。
点评:如果欺骗性AI进一步完善这种令人不安的技能,人类也该对AI可能失控有所警醒了。