新闻 发表于 2025-10-18 23:04

AI是怎么“看见”的?——计算机视觉的原理

作者:微信文章



在上一期,我们讲了ChatGPT的“语言天赋”——它能读、能写、能理解。

而今天,我们要讲AI的另一种能力——视觉。

是的,AI不仅能“听懂人话”,还会“看见世界”。

那它究竟是怎么做到的呢?

这就是我们今天的主题:计算机视觉(Computer Vision)。

一、从“像素”开始:AI的视觉输入

人类看世界靠眼睛和大脑,AI看世界靠的是摄像头和算法。

当AI“看”一张图片时,它看到的不是花、猫或人脸,

而是一堆数字——每个像素点的颜色与亮度。

举个例子:

如果我们放大一张猫的照片,在AI眼中,它变成了无数个小格子,每个格子都有RGB值(红、绿、蓝)。

这些数字,就是AI的“视觉原料”。

所以,AI的第一步是把“像素”转换成它能处理的“数据矩阵”。



二、从像素到特征:AI如何识别形状与对象

光有数据还不够,AI要从中找到规律。

这一步,就要用到一个关键技术——卷积神经网络(CNN)。

CNN的核心思想很简单:

它让AI学会像人一样,从局部观察世界。

•第一层,检测出简单的特征,比如线条、边缘;

•第二层,组合成更复杂的形状,比如眼睛、鼻子、耳朵;

•第三层,识别整体对象,比如“这是一只猫”。

这就像我们小时候学画画:

先看轮廓,再看细节,最后认出“是什么”。

而CNN的“卷积层”就像一双双“数字之眼”,

在图片上滑动、捕捉特征,一层层提炼出视觉理解。




三、AI看世界的“训练方式”:识别与标注

那AI怎么知道“什么是猫、什么是狗”呢?

答案是:人教的。

科学家会提供成千上万张标注好的图片——

“这是猫”“这是狗”“这是汽车”。

AI通过这些数据训练,不断调整参数。

当它判断错时,就会进行“反向传播”,像学生改错题一样,不断修正“视线”。

最终,它学会:不同特征代表不同类别。

(如果大家有兴趣深度了解标注和训练,推荐李飞飞这部作品。)

四、计算机视觉的三大应用

��人脸识别:

通过关键点定位(眼睛、鼻子、嘴巴),AI能验证身份、匹配照片。

��医学影像分析:

AI能分析X光、CT、MRI图像,辅助医生发现病灶。

��自动驾驶:

车载摄像头让AI识别红绿灯、车道线、行人和障碍物。

视觉系统是自动驾驶的“眼睛”,它必须在毫秒间做出判断——这关系到安全。

这些应用背后,都是AI从像素到理解的能力。

五、AI的“眼睛”与人的智慧

AI的视觉越来越强,但它的“看见”与人类不同。

我们看到的是“意义”,而AI看到的是“模式”。

它不会感叹风景有多美,但它能在亿万像素中发现细微的异常。

真正的智慧,不是让机器“像人一样看”,而是让它“帮人看得更多、更准、更快”。




下一期,我们将讨论另一个有趣的问题——AI是怎么“做决策”的?

也就是强化学习与智能体的原理。
页: [1]
查看完整版本: AI是怎么“看见”的?——计算机视觉的原理