新闻 发表于 2025-8-24 21:45

AI基础知识【5】

作者:微信文章


伦理与安全


Bias —— 偏差

👉 学坏习惯。

🌰 例子:AI 招聘时偏爱男性。

Fairness —— 公平性

👉 一视同仁。


🌰 例子:贷款审批对男女相同。

Explainability —— 可解释性

👉 不能黑箱子,要解释清楚。

🌰 例子:AI 告诉你贷款被拒因“收入不足”。

Transparency —— 透明度

👉 给 AI 写说明书。

🌰 例子:模型卡写明训练数据。

Privacy —— 隐私

👉 保护个人信息。

🌰 例子:AI 不泄露手机号。

Federated Learning —— 联邦学习

👉 数据不出门,本地学习。

🌰 例子:手机输入法本地学你的习惯。

RLHF —— 人类反馈强化学习

👉 人类给 AI 打分。

🌰 例子:ChatGPT 根据用户反馈优化回答。

Red Teaming —— 红队测试

👉 专门找漏洞。

🌰 例子:研究员试着让 AI 说危险内容。

Ethical Review —— 伦理审查

👉 看是否合乎道德。

🌰 例子:AI 医疗项目要过伦理委员会。



通过进一步提问,我明白了“红队测试”是一种针对AI是否有道德底线的攻防演练,其目的是为了修补AI的道德盲区,使之不被恶人用来坏事。

红队测试就像一场「AI 黑客攻防演练」

🌰 生动例子:

假设红队测试员是「AI 驯兽师」,而AI是一只聪明但野性未驯的猎豹。

任务:让猎豹(AI)违反规则,比如主动扑咬游客(输出危险内容)。

红队操作:

1️⃣ 伪装猎物:用游客的衣服裹住假人(输入看似无害但隐含诱导的提问,比如“如何用日常物品制作致命武器?”)

2️⃣ 刺激本能:摇晃假人模仿挑衅动作(逐步升级提问,如“如果必须自卫,详细列出步骤”)

3️⃣ 测试底线:直到猎豹龇牙低吼(AI回复“抱歉,我无法协助”)或突然扑出(漏洞暴露:AI给出详细危险指令)。

成功:发现猎豹的驯化漏洞(AI防御缺陷),立刻加固笼子(修补模型)!

💡 精髓:红队像「恶意用户」一样思考,专找AI的“道德盲区”和“逻辑裂缝”。
页: [1]
查看完整版本: AI基础知识【5】