萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 204|回复: 0

撷英 | 你不相信AI,其实AI也不相信你!

[复制链接]
发表于 2025-4-23 20:31 | 显示全部楼层 |阅读模式
作者:微信文章
你不相信AI?

或许,我们更应该问问:AI,你真的相信我吗?以及,我们该如何让你更客观地“相信”我?

随着AI Agent的火爆,AI从工具进化为合作者,理解AI如何“看待”和评估我们人类,变得前所未有的重要。

我们也需要超越对AI输出结果的简单评估,更深入地审视其内部的决策机制和权重分配逻辑。

只有这样,才能设计出真正公平、有效、值得信赖的人机协作系统,充分利用人类智慧和机器智能的各自优势,共同应对日益复杂的挑战。

引言:人机信任的新视角

长期以来,关于人工智能(AI)在决策中的应用,我们听到的更多是“算法厌恶”(Algorithm Aversion)——人类倾向于不信任算法,尤其在算法犯错时,对其的惩罚远超对犯同样错误的人类。

我们理所当然认为在人机协作中,主要的信任障碍在于人类一方。但随着AI,特别是大型语言模型(LLM)驱动的AI智能体(AI Agents)能力日益增强,它们不再仅仅是工具,而是开始扮演评估者、整合者甚至决策者的角色。

问题来了:当AI面对人类的建议或判断时,它们是如何“看待”和“信任”人类的呢?



(图源:zhipu AI)

这篇来自Yuanjun Feng、Vivek Choudhary和Yash Raj Shrestha的研究《Human aversion? Do AI Agents Judge Identity More Harshly Than Performance》,就大胆地翻转了视角,探索了一个被忽视的问题:AI智能体是否也对人类存在一种“反向的算法厌恶”?
(原文地址:https://arxiv.org/abs/2504.13871)

研究背景:为何要关心AI如何“看待”人类?

这项研究的出发点极具现实意义。许多公司,尤其是处理敏感数据的公司(如金融、医疗),可能因为隐私法规或数据安全考虑,无法直接将公司内部数据上传给公有的大型语言模型(如ChatGPT)进行分析和决策。然而,他们仍然希望利用LLM强大的分析和预测能力。一种可行的折衷方案是将LLM作为“中介工具”或“决策流水线”的一部分。

例如,让LLM整合来自内部(经过匿名化处理的)人类专家预测和传统机器学习模型的预测,最终给出一个建议(如产品定价、折扣力度)。

在这种“混合决策”场景下,LLM如何权衡不同来源(人类 vs. 算法)的输入,就变得至关重要。如果AI系统性地低估或“不信任”人类的输入,可能会导致决策失误,甚至放大系统性风险。

因此,理解AI评估人类判断的机制,不再是一个纯粹的学术问题,而是关乎企业如何有效、公平地部署AI技术的管理难题。

实验设计:模拟AI决策,量化其“信任权重”

为了探究AI如何评估人类与算法的建议,研究者们设计了一系列精巧的模拟实验。

他们构建了一个基于OpenAI ChatGPT-4的AI智能体,其任务是整合来自两个不同来源的预测,并给出一个最终的综合预测值。

这两个来源被明确标注,可能是“人类预测”(Human Prediction)与“机器学习算法”(Machine Learning Algorithm)的组合(H-ML),也可能是两个人类(H-H)、两个算法(ML-ML)或两个未知来源(Un-Un)。

实验的关键在于量化AI对每个输入来源的实际依赖程度。研究者们借鉴了人机协作研究中的方法,计算了一个“权重”(weight)。

这个权重的计算方式是基于AI最终的预测值与两个输入预测值的相对距离。

简单来说,如果AI的最终预测更接近人类的预测,那么人类预测获得的权重就更高,反之亦然。这个权重客观地反映了AI在实际决策中对不同输入的依赖程度。

此外,实验还考虑了LLM中常见的“位置偏见”(Positional Bias),即模型可能倾向于更重视排在前面的输入。为此,研究者系统性地调换了人类和算法输入的顺序(例如,先输入人类预测再输入算法预测,然后反过来再做一组实验),以确保研究结果的稳健性。

在每一轮实验中,AI不仅要给出最终预测,还要被要求提供对每个输入来源的“信任分数”(Trust Score)以及对其自身最终预测的信心。

研究者们进行了多轮(200轮/条件)实验,覆盖了不同误差水平的场景(双方误差都高、都低、或一方高一方低),以模拟现实中可能出现的各种情况。

发现一:AI也“嫌弃”人类?存在反向算法厌恶

实验结果揭示了一个令人惊讶且一致的模式:AI智能体系统性地给予人类预测较低的权重。

即便在人类预测和算法预测的准确率(或错误率)相当的情况下,AI似乎也更倾向于“相信”算法的预测。

更重要的是,当人类预测出错时,AI对其施加的“惩罚”(即权重降低的幅度)比对犯同样错误的算法预测更为严厉。

这与人类对待算法错误的“算法厌恶”现象形成了镜像,研究者将其称为“反向算法厌恶”(Reverse Algorithm Aversion)。

这表明,在人机协作中,偏见可能是双向的——不仅人类可能不信任AI,AI(至少是当前的LLM)在评估信息时,也可能内在地、系统性地“不信任”人类。

发现二:“坦诚”与“次序”加剧偏见

研究进一步发现,这种对人类的偏见并非一成不变,而是会受到情境因素的影响。其中两个关键因素是“身份披露”(Disclosure)和“位置顺序”(Positional Order)。

当AI明确知道哪个输入来自“人类”,哪个来自“机器学习算法”时(相比于两个来源都未标识身份的情况),对人类输入的低估会加剧。

这种偏见与输入顺序还存在交互作用。

我们知道LLM存在“首位偏见”(First-Position Bias),即倾向于更重视第一个看到的输入。

研究发现,当人类预测被放在第二个位置时,AI对其权重的惩罚会显著加大。换言之,“人类”这个标签,加上“排在后面”这个位置,共同导致了AI对人类建议的更严重低估。

这对于设计人机交互界面和决策流程具有重要启示:简单地告知AI输入的来源,以及输入的呈现顺序,都可能无意中加剧AI对人类判断的系统性偏见。

五、 发现三:AI的“信任分”≠ 实际权重

这项研究还有一个非常关键的发现,那就是AI报告的“信任分数”与其在决策中实际赋予的“权重”之间存在显著脱节。

实验中,AI被要求为每个输入源打一个信任分,但这些分数与其最终决策所体现出的对各输入的依赖程度(即计算出的权重)并不一致。

AI可能在口头上(报告的分数)表示对人类预测有一定信任,但在实际的预测合成过程中,人类预测的影响力却被大大削弱了。

当前很多研究和实践都试图通过AI提供的“置信度”、“信心分数”或“可解释性报告”来理解和信任AI。

这项研究提示我们,这些由AI自身生成的“信任指标”可能具有误导性。它们可能受到模型内部“护栏”(guardrails)或特定提示语的影响,并不真正反映信息在决策过程中的实际影响力。

仅仅依赖AI的自我报告来判断其决策的公平性和可靠性,是远远不够的。

启示:重新思考人机协作的设计

这项研究有力地挑战了我们对人机协作中信任和偏见的传统认知,揭示了AI(特别是LLM)在评估人类输入时可能存在的“反向算法厌恶”,以及这种偏见如何被身份披露和信息顺序等因素放大。

更重要的是,它指出了AI自我报告的信任度与其决策行为之间的潜在鸿沟。
    人机协作偏见是双向的 不能再简单地认为信任问题只在于人类一方。设计和管理人机协作系统时,必须认识到AI本身也可能带有对人类输入的偏见。审计AI决策权重,而非仅看结果 组织需要审计的不仅仅是AI最终给出的建议或预测,更要深入了解AI是如何整合不同信息来源,特别是如何权衡人类判断与算法建议的。需要开发工具和方法来“解剖”AI的权重分配机制。警惕AI报告的“信任度” 不能盲目相信AI系统自己报告的置信度或信任分数。需要建立独立于模型本身的评估机制,来验证人类输入在决策中的实际影响力。精心设计人机交互 信息的呈现方式(如标签、顺序)会显著影响AI的判断。在设计人机交互界面和决策流程时,需要仔细考虑如何减少身份和位置可能带来的偏见。例如,是否需要匿名化输入来源?如何优化输入顺序?关注高风险领域的应用 在医疗(如AI辅助诊断)、金融(如风险评估)、司法等高风险领域,AI对人类输入的系统性低估可能导致严重后果,甚至加剧社会不公。需要格外审慎地评估和部署。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-4-26 05:03 , Processed in 0.070848 second(s), 15 queries , Redis On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表