AI是怎么“看见”的?——计算机视觉的原理

新闻 · 发表于 2025-10-18 23:04

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章

在上一期，我们讲了ChatGPT的“语言天赋”——它能读、能写、能理解。

而今天，我们要讲AI的另一种能力——视觉。

是的，AI不仅能“听懂人话”，还会“看见世界”。

那它究竟是怎么做到的呢？

这就是我们今天的主题：计算机视觉（Computer Vision）。

一、从“像素”开始：AI的视觉输入

人类看世界靠眼睛和大脑，AI看世界靠的是摄像头和算法。

当AI“看”一张图片时，它看到的不是花、猫或人脸，

而是一堆数字——每个像素点的颜色与亮度。

举个例子：

如果我们放大一张猫的照片，在AI眼中，它变成了无数个小格子，每个格子都有RGB值（红、绿、蓝）。

这些数字，就是AI的“视觉原料”。

所以，AI的第一步是把“像素”转换成它能处理的“数据矩阵”。

二、从像素到特征：AI如何识别形状与对象

光有数据还不够，AI要从中找到规律。

这一步，就要用到一个关键技术——卷积神经网络（CNN）。

CNN的核心思想很简单：

它让AI学会像人一样，从局部观察世界。

•第一层，检测出简单的特征，比如线条、边缘；

•第二层，组合成更复杂的形状，比如眼睛、鼻子、耳朵；

•第三层，识别整体对象，比如“这是一只猫”。

这就像我们小时候学画画：

先看轮廓，再看细节，最后认出“是什么”。

而CNN的“卷积层”就像一双双“数字之眼”，

在图片上滑动、捕捉特征，一层层提炼出视觉理解。

三、AI看世界的“训练方式”：识别与标注

那AI怎么知道“什么是猫、什么是狗”呢？

答案是：人教的。

科学家会提供成千上万张标注好的图片——

“这是猫”“这是狗”“这是汽车”。

AI通过这些数据训练，不断调整参数。

当它判断错时，就会进行“反向传播”，像学生改错题一样，不断修正“视线”。

最终，它学会：不同特征代表不同类别。

（如果大家有兴趣深度了解标注和训练，推荐李飞飞这部作品。）

四、计算机视觉的三大应用

��人脸识别：

通过关键点定位（眼睛、鼻子、嘴巴），AI能验证身份、匹配照片。

��医学影像分析：

AI能分析X光、CT、MRI图像，辅助医生发现病灶。

��自动驾驶：

车载摄像头让AI识别红绿灯、车道线、行人和障碍物。

视觉系统是自动驾驶的“眼睛”，它必须在毫秒间做出判断——这关系到安全。

这些应用背后，都是AI从像素到理解的能力。

五、AI的“眼睛”与人的智慧

AI的视觉越来越强，但它的“看见”与人类不同。

我们看到的是“意义”，而AI看到的是“模式”。

它不会感叹风景有多美，但它能在亿万像素中发现细微的异常。

真正的智慧，不是让机器“像人一样看”，而是让它“帮人看得更多、更准、更快”。

下一期，我们将讨论另一个有趣的问题——AI是怎么“做决策”的？

也就是强化学习与智能体的原理。

账号		自动登录	找回密码
密码			注册

萍聚头条

AI是怎么“看见”的?——计算机视觉的原理

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块