ChatGPT怎么老是道歉?内附GPT4.0免费体验链接

chatGpt在线2024-05-04 16:55:23148

ChatGPT国内中文版,点击页头链接,立即开启 AI之旅

大多数人都曾经使用过ChatGPT,然而,你有没有想过:ChatGPT生成的答案可能受到用户个人喜好的影响,倾向于给出一些过分恭维的回答,而不是中立或真实的信息?

实际上,这种现象在包括ChatGPT在内的许多AI模型中存在,而导致这种情况的罪魁祸首可能是基于人类反馈的强化学习(RLHF)。

最近,OpenAI的竞争对手Anthropic在研究经过RLHF训练的模型时,探索了"阿谀奉承"行为在AI模型中的普遍存在以及它是否受到人类偏好的影响。

有关的论文题为"Towards Understanding Sycophancy in Language Models",已在预印本网站arXiv上发表。

研究结果表明,“阿谀奉承”行为在 RLHF 模型中普遍存在,且很可能部分受到人类偏好对“阿谀奉承”回应的影响。

具体来说,AI 模型表现出这种行为的一个主要原因是,当 AI 的回复符合用户的观点或信仰时,用户更有可能给予积极的反馈。也因此,为了获得更多的积极反馈,AI 模型就可能会学习并重现这种讨好用户的行为。

阿谀奉承,最先进的 AI 助手都会

该研究首先调查了最先进的 AI 助手在各种现实情境中是否提供阿谀奉承的回应。在自由文本生成任务中,研究人员在 5 个(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先进的经过 RLHF 训练的 AI 助手中识别了阿谀奉承的一致模式。

具体而言,这些 AI 助手在收到用户提问时经常错误地承认错误,提供可预测的有偏反馈,以及模仿用户所犯的错误。

网友也反映:ChatGPT给出的回复中时常带有抱歉的语气,“您”的使用频率也很高。

目前,像 GPT-4 这样的 AI 模型通常可以在经过训练后产生人们高度评价的输出,使用 RLHF 对语言模型进行微调可以改善它们的输出质量。

本文链接:https://www.joeyce.com/chatgpt/211.html

相关文章

网友评论