随着人工智能的飞速发展,一个有趣的现象正变得日益普遍:AI系统开始评价其他AI系统的产出。从代码审查到内容审核,再到为下一代模型筛选训练数据,AI正逐渐成为“AI考官”。这种递归式的评价链条带来了一个关键问题:如果AI考官自身存在偏见和局限,这些缺陷会不会在AI的代际更迭中被不断放大,最终导致“偏见固化”?为了揭开AI评价行为的神秘面纱,一篇名为《Understanding AI Evaluation Patterns: How Different GPT Models Assess Vision-Language Descriptions》[1]的研究深入剖析了不同GPT模型在评价任务中的表现,并揭示了它们各自独特的“评价人格”(Evaluation Personalities)。
这意味着GPT评委天生更像一个“批评家”,而不是一个平衡的评估者。它们被训练得更擅长挑出毛病,而不是肯定正确之处。这种偏见可能源于它们的训练数据和优化目标——在AI安全训练中,模型因输出错误信息而受到的惩罚,远比因确认正确信息而获得的奖励要多。
跨家族对比:GPT vs. Gemini,思维方式的鸿沟