AI百科 2026年04月06日约 4 分钟阅读 168 阅读 0 评论

计算机视觉（Computer Vision, CV）

BERT模型特色图片

内容摘要

计算机视觉（Computer Vision, CV）定义 …

计算机视觉（Computer Vision, CV）

定义

计算机视觉是人工智能的一个重要分支，研究如何让计算机”看”懂图像和视频等视觉信息的技术，目标是实现人类视觉系统的功能，包括识别、理解、推理等能力。

核心目标

计算机视觉的核心目标是从图像或视频中提取有用的信息，完成各种感知任务，包括：

识别：识别图像中的物体、场景、人物等
检测：定位图像中特定物体的位置和类别
分割：将图像按语义或实例分割成不同区域
理解：理解图像中的场景、事件和语义关系
重建：从二维图像重建三维结构信息

发展历程

1960年代：计算机视觉研究起步，早期工作集中在模式识别和图像处理
1970-1990年代：基于几何和特征的方法占主导，提出了很多特征提取算法，如SIFT、HOG等
2012年：AlexNet在ImageNet比赛中夺冠，深度学习开始主导计算机视觉领域
2015年：ResNet提出，深度卷积神经网络的性能大幅提升
2017年：Mask R-CNN提出，实现了高精度的实例分割
2020年代：Vision Transformer兴起，Transformer架构开始在计算机视觉领域广泛应用
现在：多模态大模型实现了图像和文本的跨模态理解，计算机视觉进入通用感知时代

核心任务

图像分类：给图像分配一个类别标签，是计算机视觉最基础的任务
目标检测：定位图像中物体的位置并识别其类别，如人脸检测、行人检测等
语义分割：将图像中的每个像素分配一个语义类别，实现像素级别的分类
实例分割：不仅区分语义类别，还要区分同一类别的不同实例
目标跟踪：在视频序列中跟踪特定目标的运动轨迹
人脸识别：识别图像中的人脸身份，广泛应用于安防、支付等领域
光学字符识别（OCR）：识别图像中的文字内容，将印刷体或手写体文字转换为文本
图像生成：生成逼真的图像内容，如AI绘画、图像修复、风格迁移等

核心技术

卷积神经网络（CNN）：计算机视觉领域的主流网络结构，能够有效提取图像的空间特征
Transformer：基于自注意力机制的架构，在大规模视觉任务上表现优异
数据增强：通过对训练数据进行各种变换，提高模型的泛化能力
迁移学习：在大规模预训练模型的基础上微调，适应下游任务，减少对标注数据的需求
多模态融合：将视觉信息与文本、语音等其他模态信息结合，实现更全面的理解

应用场景

安防监控：人脸识别、行为分析、异常事件检测等
自动驾驶：环境感知、障碍物检测、交通标识识别等
医疗影像：X光、CT、MRI等医学影像的自动分析和辅助诊断
智能手机：人脸解锁、相册分类、AI相机、图像编辑等
电商零售：商品识别、虚拟试衣、拍照搜商品等
工业质检：产品缺陷自动检测，提升生产效率和质量
娱乐内容：AI绘画、特效滤镜、视频内容理解等

发展趋势

计算机视觉正在向着通用视觉模型、多模态融合、小样本学习、轻量化部署、可解释性、伦理安全等方向发展，未来将在更多行业实现大规模落地，成为智能化时代的核心感知技术。

标签： #AI

发表评论取消回复