AI是怎么“看见”的?——计算机视觉的原理
作者:微信文章在上一期,我们讲了ChatGPT的“语言天赋”——它能读、能写、能理解。
而今天,我们要讲AI的另一种能力——视觉。
是的,AI不仅能“听懂人话”,还会“看见世界”。
那它究竟是怎么做到的呢?
这就是我们今天的主题:计算机视觉(Computer Vision)。
一、从“像素”开始:AI的视觉输入
人类看世界靠眼睛和大脑,AI看世界靠的是摄像头和算法。
当AI“看”一张图片时,它看到的不是花、猫或人脸,
而是一堆数字——每个像素点的颜色与亮度。
举个例子:
如果我们放大一张猫的照片,在AI眼中,它变成了无数个小格子,每个格子都有RGB值(红、绿、蓝)。
这些数字,就是AI的“视觉原料”。
所以,AI的第一步是把“像素”转换成它能处理的“数据矩阵”。
二、从像素到特征:AI如何识别形状与对象
光有数据还不够,AI要从中找到规律。
这一步,就要用到一个关键技术——卷积神经网络(CNN)。
CNN的核心思想很简单:
它让AI学会像人一样,从局部观察世界。
•第一层,检测出简单的特征,比如线条、边缘;
•第二层,组合成更复杂的形状,比如眼睛、鼻子、耳朵;
•第三层,识别整体对象,比如“这是一只猫”。
这就像我们小时候学画画:
先看轮廓,再看细节,最后认出“是什么”。
而CNN的“卷积层”就像一双双“数字之眼”,
在图片上滑动、捕捉特征,一层层提炼出视觉理解。
三、AI看世界的“训练方式”:识别与标注
那AI怎么知道“什么是猫、什么是狗”呢?
答案是:人教的。
科学家会提供成千上万张标注好的图片——
“这是猫”“这是狗”“这是汽车”。
AI通过这些数据训练,不断调整参数。
当它判断错时,就会进行“反向传播”,像学生改错题一样,不断修正“视线”。
最终,它学会:不同特征代表不同类别。
(如果大家有兴趣深度了解标注和训练,推荐李飞飞这部作品。)
四、计算机视觉的三大应用
��人脸识别:
通过关键点定位(眼睛、鼻子、嘴巴),AI能验证身份、匹配照片。
��医学影像分析:
AI能分析X光、CT、MRI图像,辅助医生发现病灶。
��自动驾驶:
车载摄像头让AI识别红绿灯、车道线、行人和障碍物。
视觉系统是自动驾驶的“眼睛”,它必须在毫秒间做出判断——这关系到安全。
这些应用背后,都是AI从像素到理解的能力。
五、AI的“眼睛”与人的智慧
AI的视觉越来越强,但它的“看见”与人类不同。
我们看到的是“意义”,而AI看到的是“模式”。
它不会感叹风景有多美,但它能在亿万像素中发现细微的异常。
真正的智慧,不是让机器“像人一样看”,而是让它“帮人看得更多、更准、更快”。
下一期,我们将讨论另一个有趣的问题——AI是怎么“做决策”的?
也就是强化学习与智能体的原理。
页:
[1]