计算机视觉(Computer Vision, CV)
定义
计算机视觉是人工智能的一个重要分支,研究如何让计算机”看”懂图像和视频等视觉信息的技术,目标是实现人类视觉系统的功能,包括识别、理解、推理等能力。
核心目标
计算机视觉的核心目标是从图像或视频中提取有用的信息,完成各种感知任务,包括:
- 识别:识别图像中的物体、场景、人物等
- 检测:定位图像中特定物体的位置和类别
- 分割:将图像按语义或实例分割成不同区域
- 理解:理解图像中的场景、事件和语义关系
- 重建:从二维图像重建三维结构信息
发展历程
- 1960年代:计算机视觉研究起步,早期工作集中在模式识别和图像处理
- 1970-1990年代:基于几何和特征的方法占主导,提出了很多特征提取算法,如SIFT、HOG等
- 2012年:AlexNet在ImageNet比赛中夺冠,深度学习开始主导计算机视觉领域
- 2015年:ResNet提出,深度卷积神经网络的性能大幅提升
- 2017年:Mask R-CNN提出,实现了高精度的实例分割
- 2020年代:Vision Transformer兴起,Transformer架构开始在计算机视觉领域广泛应用
- 现在:多模态大模型实现了图像和文本的跨模态理解,计算机视觉进入通用感知时代
核心任务
- 图像分类:给图像分配一个类别标签,是计算机视觉最基础的任务
- 目标检测:定位图像中物体的位置并识别其类别,如人脸检测、行人检测等
- 语义分割:将图像中的每个像素分配一个语义类别,实现像素级别的分类
- 实例分割:不仅区分语义类别,还要区分同一类别的不同实例
- 目标跟踪:在视频序列中跟踪特定目标的运动轨迹
- 人脸识别:识别图像中的人脸身份,广泛应用于安防、支付等领域
- 光学字符识别(OCR):识别图像中的文字内容,将印刷体或手写体文字转换为文本
- 图像生成:生成逼真的图像内容,如AI绘画、图像修复、风格迁移等
核心技术
- 卷积神经网络(CNN):计算机视觉领域的主流网络结构,能够有效提取图像的空间特征
- Transformer:基于自注意力机制的架构,在大规模视觉任务上表现优异
- 数据增强:通过对训练数据进行各种变换,提高模型的泛化能力
- 迁移学习:在大规模预训练模型的基础上微调,适应下游任务,减少对标注数据的需求
- 多模态融合:将视觉信息与文本、语音等其他模态信息结合,实现更全面的理解
应用场景
- 安防监控:人脸识别、行为分析、异常事件检测等
- 自动驾驶:环境感知、障碍物检测、交通标识识别等
- 医疗影像:X光、CT、MRI等医学影像的自动分析和辅助诊断
- 智能手机:人脸解锁、相册分类、AI相机、图像编辑等
- 电商零售:商品识别、虚拟试衣、拍照搜商品等
- 工业质检:产品缺陷自动检测,提升生产效率和质量
- 娱乐内容:AI绘画、特效滤镜、视频内容理解等
发展趋势
计算机视觉正在向着通用视觉模型、多模态融合、小样本学习、轻量化部署、可解释性、伦理安全等方向发展,未来将在更多行业实现大规模落地,成为智能化时代的核心感知技术。