AI的“真实”真的真实吗?(MISQ 2021)
作者:微信文章文章基本信息
标题Is AI Ground Truth Really True? The Dangers of Training and Evaluating AI Tools Based on Experts’ Know-What
作者
Sarah Lebovitz(弗吉尼亚大学) Natalia Levina(纽约大学) Hila Lifshitz-Assaf(纽约大学)
发表期刊MIS Quarterly(管理信息系统领域顶级期刊) 关键词人工智能(AI)、评估、不确定性、专业知识工作、医学诊断、真实标签(Ground Truth)
文章主旨
核心论点:在专业知识工作(如医疗诊断)中,基于专家标注的“真实标签”(Ground Truth)训练和评估的AI工具存在根本性缺陷。AI依赖的显性知识(Know-What)忽略了专家实践中隐性的“诀窍知识”(Know-How),导致AI工具在真实场景中表现不佳。
背景信息
行业背景
AI在医疗诊断(如影像识别)领域被宣传为“超越人类专家”,但实际落地效果常与预期不符。 诊断放射学是AI应用的典型领域,存在高度不确定性(如肿瘤边界判断缺乏绝对标准)。
学术背景
传统专家系统因无法编码隐性知识失败,但机器学习(ML)被寄予厚望,认为可通过数据隐含学习专家逻辑。 现有研究忽视了对AI工具组织级评估过程的探究。
研究问题
核心问题组织管理者如何评估AI工具的质量?为何基于专家“真实标签”的AI工具在实际应用中失效? 衍生问题
专家知识的不确定性如何影响AI工具的表现? 管理者评估AI时如何协调技术指标(如AUC)与专业实践需求?
研究设计
方法论定性田野研究(11个月深度参与观察)。 研究现场美国大型医院放射科(化名Urbanside)。 数据来源
参与观察31场AI评估会议、行业会议、供应商演示。 访谈22次半结构化访谈(23名管理者,含放射科医师兼管理者)。 档案分析150+篇AI研究文献、工具技术文档、监管文件。
分析工具扎根理论(Grounded Theory),通过持续比较法提炼主题。
研究对象
评估的5个ML工具:工具名称诊断任务技术指标(报告AUC)脑肿瘤分割工具MRI肿瘤区域分割0.79–0.91骨龄测定工具儿童手部X光年龄分类0.989乳腺钼靶工具乳腺X光恶性病灶分类0.93乳腺超声工具超声病灶恶性概率分类0.88胸科分诊工具胸部X光疾病分类与优先级排序0.85–0.97
核心内容与发现
关键矛盾:Know-What vs. Know-How
维度Know-What(AI依赖)Know-How(专家实践)定义显性知识(如诊断标签、AUC值)隐性知识(经验、情境判断、多源信息整合)案例体现标签由单一专家生成,未参考历史影像放射科医师必须对比患者历史影像不确定性处理忽视诊断主观性(如肿瘤边界模糊)通过多标准协商、随访验证降低不确定性
管理者评估流程的演变
阶段1:关注技术指标
依赖AUC(曲线下面积)等指标,认为AUC接近1.0即“高精度”。 检查标签提供者资质(如专家年资),但未质疑标签本身可靠性。
阶段2:内部试验失败
5个工具在Urbanside测试中均未达预期(如脑肿瘤分割工具将头皮误判为肿瘤)。
阶段3:反思专家知识本质
发现标签生成过程脱离真实实践(如未参考患者病史)。 承认专家诊断存在固有不确定性(如乳腺诊断误差率10–20%)。
阶段4:风险-收益再评估
采纳工具(3/5):风险可控且能补充现状(如胸科分诊工具加速急症处理)。 放弃工具(2/5):风险高且无明确收益(如乳腺工具增加操作时间)。
研究结论
根本问题
Ground Truth的构建是主观的专家标签受限于知识不确定性、标准不一致(如不同图谱判断骨龄)。 AI评估指标脱离实践AUC等指标掩盖了标签的模糊性,且无法捕捉Know-How的价值。
组织启示
在知识不确定性高的领域(如医学),AI工具应定位为辅助角色,而非替代专家。 管理者需通过“实践对比”(比较AI逻辑与专家Know-How)评估AI的真实效用。
理论与贡献
理论框架
Know-What与Know-How的二元性(基于Ryle & Polanyi):
显性知识(Know-What)脱离隐性实践(Know-How)即失效。 社会技术系统视角
AI工具的性能由技术设计、专业知识体系、组织评估实践共同塑造。
创新点
揭示AI评估的认知陷阱打破“Ground Truth=客观真相”的迷思,提出其社会建构本质。 提出“实践可接受性”标准替代技术指标,强调AI输出需融入专家工作流情境。 方法贡献通过深度质性研究打开AI组织评估的“黑箱”。
研究缺口与未来方向
研究缺口未来方向建议AI对专业标准的影响研究AI是否导致诊断标准退化(如追求易量化指标)Know-How的编码可能探索“可解释AI”(XAI)如何整合专家隐性逻辑长期组织学习分析AI工具规模化后如何侵蚀专家知识体系跨领域验证检验理论框架在法律、金融等专业领域的适用性实践启示
对开发者的建议需公开标签构建细节(如专家分歧率),设计融合Know-How的交互机制。 对管理者的建议在试点中强制要求“AI-专家诊断对比”,避免仅依赖技术报告。 政策意义监管需区分高/低不确定性场景,严格审核高不确定性领域的AI训练数据。
总结:本文批判性地指出,AI在专业领域的失效源于对“知识本质”的误读——将不确定的专家输出(Know-What)等同于客观真理,却忽视其背后动态的实践智慧(Know-How)。这一发现对AI开发、评估与监管体系重构具有深远意义。
页:
[1]