我爱免费 发表于 2025-10-1 17:53

AI治理|学者观点: AI开发者存在窥探隐喻与猎奇分享行为,已然触碰数据伦理的“边界”

作者:微信文章
点击关注谷围传媒,

一个专注于媒体融合、媒介技术与行业发展的平台





本文主要聚焦关于人工智能治理的近期学者观点。

学者观点

01


AI开发者存在窥探隐喻与猎奇分享行为,已然触碰数据伦理的“边界”。
该观点从AI开发群体的角度出发,揭示了AI开发过程中一个隐蔽却普遍的伦理失范现象。研究数据显示,在获取训练数据后,69%的受访者曾对新奇数据进行娱乐性分享,49%存在与开发无关的“深度窥探”行为(如分析隐私场景、辨听涉私声音)。这些行为源于好奇心和娱乐心理,但其本质是将他人数据用于非授权目的,即便其尚未造成大规模公开危害,也已逾越了数据最小化使用和目的限定原则。基于这一现象,应将开发者作为重要的关注群体加以考察,重视技术内嵌伦理及开发者心理,通过数据访问控制协议、伦理审查等重塑开发者的数据敬畏感。(高泽晋, 2022)

02
随着大模型技术的发展,可能导致原有数据安全风险量变或异化,由此产生运行逻辑各异的新型数据泄露安全风险、数据偏离安全风险和数据删除安全风险。

DeepSeek系列模型具有多头潜在注意力机制、混合专家模型、纯强化学习等新技术特征,导致原有数据安全风险量变或异化,由此产生运行逻辑各异的新型数据泄露安全风险、数据偏离安全风险和数据删除安全风险。(宗绍昊, 罗世龙, 2025)
03
当前国内外人工智能治理研究存在风险系统性分析不足与治理路径结构性缺陷两大局限,亟须构建“法律牵引—技术规制—动态审计—主体问责”闭环治理路径。
AI治理对象包括两类风险:一是数据、算法等技术缺陷导致的内生风险;二是由内生风险衍生的滥用、侵权、归责困难、认知侵害、伦理失范等风险。通过分析内生与衍生风险的作用关系及AI全生命周期多方参与主体的失责问题、协同机制缺失,融合“人在环中”、多元协同治理与敏捷治理理念,构建“法律牵引—技术规制—动态审计—主体问责”闭环治理路径,为健全中国特色AI治理体系提供借鉴。(蔚海燕, 朱苇琦, 2025)
04
生成式人工智能数据治理应发挥行业主体的自我监管作用、参与和推进数据治理的国际合作、构建多元协同的数据治理文化等。
生成式人工智能带来的数据风险、数据治理面临的挑战是目前研究的焦点,且研究视角多样,并已基本形成一致共识,由此催生数据治理的全新命题。但在生成式人工智能数据治理策略研究方面,显现出论题零碎化、治理理念和主张尚未达成一致共识的特点,忽略了生成式人工智能数据治理的全球化,研究视角较为单一。未来,生成式人工智能数据治理应加强以下方面的研究:发挥行业主体的自我监管作用、参与和推进数据治理的国际合作、构建多元协同的数据治理文化、生成式人工智能数据治理的中国方案等。(张小燕, 2025)

05
大模型训练环节的首要任务是通过数据检测及预测体系提高数据质量,实现大模型价值对齐可使用插入式对齐和微调式对齐。
学者认为,数据治理视角下实现AI大模型应用与人类价值判断相匹配的方法之一,是在AI大模型训练前和训练中建立系统化的数据质量监控与预测机制。具体通过以下两种技术路径实现:插入式对齐,即在减少模型参数微调的基础上,依靠数据检测技术(如实时监督输出向量分布)直接矫正生成内容,消除歧视、虚假信息等不良输出;微调式对齐,即采用反事实数据增强(如修改语义关联以减少偏见)和人工介入的价值排序,在强化学习过程中嵌入人类价值标准,提升模型的价值判断能力。(朱树婷, 叶美兰, 2024)
06
针对数据爬取导致的个人隐私泄漏风险,学界提出运用隐私保护计算技术,让数据在利用过程中得到安全隔离。

该观点强调技术本身可作为治理载体,通过算法设计直接规避风险。例如,采用差分隐私技术对输出结果注入可控噪声,在保留整体统计特征的情况下使单条数据不可识别,从而平衡数据效用与隐私保护。又如联邦学习,通过分布式训练避免数据集中化收集,实现“只共享参数,不交换数据”,从源头杜绝泄露可能(如银行共享客户风控模型,不交换客户原始数据)。尽管隐私计算技术目前仍面临模型精度下降、计算开销增大等问题,但为数据隐私保护提供了新思路。(洪延青, 2025)
07
HistoTrust提供了一种架构,通过设计确保端到端的安全和隐私,同时实现嵌入式神经网络推理的可追溯性。

HistoTrust是一个集成安全硬件、区块链和隐私保护技术的系统,旨在确保人工智能(AI)行为的可追溯性和可解释性。该观点强调,数据隐私保护治理需内置而非外挂安全措施。故提出通过HistoTrust将隐私保护深度集成到系统架构中,覆盖数据全生命周期治理:生成阶段在可信执行环境(TEE)内完成数据签名与哈希计算,严防篡改;传输阶段通过加密通道(如VPN)传送认证信息至区块链;存储阶段坚持原始数据本地化存储,区块链仅存不可逆哈希值;审计阶段支持授权方密钥访问原始数据,其他利益相关者仅可验证哈希一致性,实现隐私与透明度的平衡。(Paulin et al., 2023)

08
可以通过在训练模型之前去除训练数据中的偏差来实现公平结果。

学者认为机器学习的公平与偏差治理不能仅依靠模型阶段的“事后修补”,而必须从数据层面介入。换言之,数据收集、标注、清洗等前端环节才是偏差产生的根源。如果数据本身存在结构性偏差(如样本不平衡、标注主观性、遗漏弱势群体特征等),即便后续算法设计再复杂,也难以避免输出带有歧视性的结果。因此,学者提出要将公平性问题前置,通过改进数据采样策略、增加多样性、去除歧视性变量等手段来“预防性治理”,从源头保证数据的完整、公正与多元,从而为后续算法和决策提供可靠的基础。(Andrew D. Selbst et al., 2019)

参考资料:

高泽晋.(2022).潘多拉的魔盒:人工智能训练数据的来源、使用与治理——面向100位AI开发者的扎根研究.新闻记者,(01),86-96.https://doi.org/10.16057/j.cnki.31-1171/g2.2022.01.007.

宗绍昊,罗世龙.DeepSeek类生成式人工智能的新型数据安全风险治理.科学学研究,1-19.https://doi.org/10.16192/j.cnki.1003-2053.20250729.001.

蔚海燕,朱苇琦.人工智能风险识别与治理路径构建.情报理论与实践:1-17.

张小燕.生成式人工智能数据研究综述:风险、挑战与治理.图书情报工作,2025,69(09):136-148.DOI:10.13266/j.issn.0252-3116.2025.09.012.

朱树婷 & 叶美兰.(2024).数据治理视角下AI大模型价值对齐的困境与应对.信息通信技术,18(03),36-41+49.

洪延青.(2025).AI时代的数据爬取治理:法律冲突与利益平衡之道.政法论丛,(03),105-122.

Paulin, D., Joud, R., Hennebert, C., Moëllic, P., Franco-Rondisson, T., & Jayles, R. (2023). HistoTrust: tracing AI behavior with secure hardware and blockchain technology. Annals of Telecommunications, 1-15. https://doi.org/10.1007/s12243-022-00943-6.

Andrew D. Selbst, Danah Boyd, Sorelle A. Friedler, Suresh Venkatasubramanian, and Janet Vertesi. 2019. Fairness and Abstraction in Sociotechnical Systems. In Proceedings of the Conference on Fairness, Accountability, and Transparency (FAT* '19). Association for Computing Machinery, New York, NY, USA, 59–68. https://doi.org/10.1145/3287560.3287598

# 征稿启示 #

谷围传媒微信公众号欢迎赐稿!

稿件内容以传媒技术与社会发展、传媒热点动态、媒体融合、网络传播等内容为主。欢迎投稿!

愿您与谷围传媒一起,为媒体从业者和广大公众构建实用的传播前沿数据库。

投稿邮箱:974745393@qq.com

编辑/frely

推荐阅读















请扫描右侧二维码

谷围传媒

页: [1]
查看完整版本: AI治理|学者观点: AI开发者存在窥探隐喻与猎奇分享行为,已然触碰数据伦理的“边界”