找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 192|回复: 0

AI的“真实”真的真实吗?(MISQ 2021)

[复制链接]
发表于 2025-6-11 07:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
文章基本信息
    标题Is AI Ground Truth Really True? The Dangers of Training and Evaluating AI Tools Based on Experts’ Know-What
    作者
      Sarah Lebovitz(弗吉尼亚大学) Natalia Levina(纽约大学) Hila Lifshitz-Assaf(纽约大学)
    发表期刊MIS Quarterly(管理信息系统领域顶级期刊) 关键词人工智能(AI)、评估、不确定性、专业知识工作、医学诊断、真实标签(Ground Truth)



文章主旨


核心论点:在专业知识工作(如医疗诊断)中,基于专家标注的“真实标签”(Ground Truth)训练和评估的AI工具存在根本性缺陷。AI依赖的显性知识(Know-What)忽略了专家实践中隐性的“诀窍知识”(Know-How),导致AI工具在真实场景中表现不佳。



背景信息

    行业背景
      AI在医疗诊断(如影像识别)领域被宣传为“超越人类专家”,但实际落地效果常与预期不符。 诊断放射学是AI应用的典型领域,存在高度不确定性(如肿瘤边界判断缺乏绝对标准)。
    学术背景
      传统专家系统因无法编码隐性知识失败,但机器学习(ML)被寄予厚望,认为可通过数据隐含学习专家逻辑。 现有研究忽视了对AI工具组织级评估过程的探究。




研究问题

    核心问题组织管理者如何评估AI工具的质量?为何基于专家“真实标签”的AI工具在实际应用中失效? 衍生问题
      专家知识的不确定性如何影响AI工具的表现? 管理者评估AI时如何协调技术指标(如AUC)与专业实践需求?




研究设计

    方法论定性田野研究(11个月深度参与观察)。 研究现场美国大型医院放射科(化名Urbanside)。 数据来源
      参与观察31场AI评估会议、行业会议、供应商演示。 访谈22次半结构化访谈(23名管理者,含放射科医师兼管理者)。 档案分析150+篇AI研究文献、工具技术文档、监管文件。
    分析工具扎根理论(Grounded Theory),通过持续比较法提炼主题。



研究对象

    评估的5个ML工具:
    工具名称诊断任务技术指标(报告AUC)
    脑肿瘤分割工具MRI肿瘤区域分割0.79–0.91
    骨龄测定工具儿童手部X光年龄分类0.989
    乳腺钼靶工具乳腺X光恶性病灶分类0.93
    乳腺超声工具超声病灶恶性概率分类0.88
    胸科分诊工具胸部X光疾病分类与优先级排序0.85–0.97




核心内容与发现

关键矛盾:Know-What vs. Know-How

维度Know-What(AI依赖)Know-How(专家实践)
定义显性知识(如诊断标签、AUC值)隐性知识(经验、情境判断、多源信息整合)
案例体现标签由单一专家生成,未参考历史影像放射科医师必须对比患者历史影像
不确定性处理忽视诊断主观性(如肿瘤边界模糊)通过多标准协商、随访验证降低不确定性



管理者评估流程的演变

    阶段1:关注技术指标
      依赖AUC(曲线下面积)等指标,认为AUC接近1.0即“高精度”。 检查标签提供者资质(如专家年资),但未质疑标签本身可靠性。
    阶段2:内部试验失败
      5个工具在Urbanside测试中均未达预期(如脑肿瘤分割工具将头皮误判为肿瘤)。
    阶段3:反思专家知识本质
      发现标签生成过程脱离真实实践(如未参考患者病史)。 承认专家诊断存在固有不确定性(如乳腺诊断误差率10–20%)。
    阶段4:风险-收益再评估
      采纳工具(3/5):风险可控且能补充现状(如胸科分诊工具加速急症处理)。 放弃工具(2/5):风险高且无明确收益(如乳腺工具增加操作时间)。




研究结论

    根本问题
      Ground Truth的构建是主观的专家标签受限于知识不确定性、标准不一致(如不同图谱判断骨龄)。 AI评估指标脱离实践AUC等指标掩盖了标签的模糊性,且无法捕捉Know-How的价值。
    组织启示
      在知识不确定性高的领域(如医学),AI工具应定位为辅助角色,而非替代专家。 管理者需通过“实践对比”(比较AI逻辑与专家Know-How)评估AI的真实效用。




理论与贡献

理论框架

    Know-What与Know-How的二元性(基于Ryle & Polanyi):
    显性知识(Know-What)脱离隐性实践(Know-How)即失效。 社会技术系统视角
    AI工具的性能由技术设计、专业知识体系、组织评估实践共同塑造。
创新点

    揭示AI评估的认知陷阱打破“Ground Truth=客观真相”的迷思,提出其社会建构本质。 提出“实践可接受性”标准替代技术指标,强调AI输出需融入专家工作流情境。 方法贡献通过深度质性研究打开AI组织评估的“黑箱”。



研究缺口与未来方向

研究缺口未来方向建议
AI对专业标准的影响研究AI是否导致诊断标准退化(如追求易量化指标)
Know-How的编码可能探索“可解释AI”(XAI)如何整合专家隐性逻辑
长期组织学习分析AI工具规模化后如何侵蚀专家知识体系
跨领域验证检验理论框架在法律、金融等专业领域的适用性
实践启示

    对开发者的建议需公开标签构建细节(如专家分歧率),设计融合Know-How的交互机制。 对管理者的建议在试点中强制要求“AI-专家诊断对比”,避免仅依赖技术报告。 政策意义监管需区分高/低不确定性场景,严格审核高不确定性领域的AI训练数据。


总结:本文批判性地指出,AI在专业领域的失效源于对“知识本质”的误读——将不确定的专家输出(Know-What)等同于客观真理,却忽视其背后动态的实践智慧(Know-How)。这一发现对AI开发、评估与监管体系重构具有深远意义。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

我是开心果

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-6-15 17:58 , Processed in 0.081826 second(s), 27 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表