AI大模型可能会自我纠正偏见,前提是主动要求它们

2023-03-31

众所周知,大型语言模型产生的内容时常会包含偏见,这主要是因为其训练时使用了大量的有毒的、有偏见的、人类产生的数据。


但如果这些模型足够大,那么在人类有意帮助训练它们的情况下,它们可能能够自我纠正这些偏见。有意思的是,我们所要做的仅仅是提出要求。


这是 Anthropic 人工智能实验室的最新发现,发表于一篇未经同行评议的论文中。该论文分析了使用人类反馈(RLHF,Reinforcement Learning from Human Feedback)强化学习技术训练的大型语言模型,该技术旨在让人类引导人工智能模型变得更符合人类心目中的理想模型。


研究人员阿曼达·阿斯凯尔(Amanda Askell)和迪普·甘古利(Deep Ganguli)想知道,是否仅仅要求这些模型产生“公正的(非偏见的)”输出——甚至不必定义所谓的偏见——就足以改变它们输出的内容。


分享