找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 227|回复: 0

AI是怎么“看见”的?——计算机视觉的原理

[复制链接]
发表于 2025-10-18 23:04 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章



在上一期,我们讲了ChatGPT的“语言天赋”——它能读、能写、能理解。

而今天,我们要讲AI的另一种能力——视觉。

是的,AI不仅能“听懂人话”,还会“看见世界”。

那它究竟是怎么做到的呢?

这就是我们今天的主题:计算机视觉(Computer Vision)。

一、从“像素”开始:AI的视觉输入

人类看世界靠眼睛和大脑,AI看世界靠的是摄像头和算法。

AI“看”一张图片时,它看到的不是花、猫或人脸,

而是一堆数字——每个像素点的颜色与亮度。

举个例子:

如果我们放大一张猫的照片,在AI眼中,它变成了无数个小格子,每个格子都有RGB值(红、绿、蓝)。

这些数字,就是AI的“视觉原料”。

所以,AI的第一步是把“像素”转换成它能处理的“数据矩阵”。

w1.jpg

二、从像素到特征:AI如何识别形状与对象

光有数据还不够,AI要从中找到规律。

这一步,就要用到一个关键技术——卷积神经网络(CNN)。

CNN的核心思想很简单:

它让AI学会像人一样,从局部观察世界。

第一层,检测出简单的特征,比如线条、边缘;

第二层,组合成更复杂的形状,比如眼睛、鼻子、耳朵;

第三层,识别整体对象,比如“这是一只猫”。

这就像我们小时候学画画:

先看轮廓,再看细节,最后认出“是什么”。

CNN的“卷积层”就像一双双“数字之眼”,

在图片上滑动、捕捉特征,一层层提炼出视觉理解。




三、AI看世界的“训练方式”:识别与标注

AI怎么知道“什么是猫、什么是狗”呢?

答案是:人教的。

科学家会提供成千上万张标注好的图片——

“这是猫”“这是狗”“这是汽车”。

AI通过这些数据训练,不断调整参数。

当它判断错时,就会进行“反向传播”,像学生改错题一样,不断修正“视线”。

最终,它学会:不同特征代表不同类别。

(如果大家有兴趣深度了解标注和训练,推荐李飞飞这部作品。)

四、计算机视觉的三大应用

��人脸识别:

通过关键点定位(眼睛、鼻子、嘴巴),AI能验证身份、匹配照片。

��医学影像分析:

AI能分析X光、CTMRI图像,辅助医生发现病灶。

��自动驾驶:

车载摄像头让AI识别红绿灯、车道线、行人和障碍物。

视觉系统是自动驾驶的“眼睛”,它必须在毫秒间做出判断——这关系到安全。

这些应用背后,都是AI从像素到理解的能力。

五、AI的“眼睛”与人的智慧

AI的视觉越来越强,但它的“看见”与人类不同。

我们看到的是“意义”,而AI看到的是“模式”。

它不会感叹风景有多美,但它能在亿万像素中发现细微的异常。

真正的智慧,不是让机器“像人一样看”,而是让它“帮人看得更多、更准、更快”。




下一期,我们将讨论另一个有趣的问题——AI是怎么“做决策”的?

也就是强化学习与智能体的原理。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-10-29 10:22 , Processed in 0.118544 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表