5.1 Basic concepts of computer vision
本小节主要介绍计算机视觉的基础的概念方便快速入门
计算机视觉(CV)是人工智能(AI)的一个领域,使计算机能够复制人类视觉系统,以帮助计算机理解和解释数字图像和视频的内容。整个过程涉及图像获取、筛选、分析、识别和提取信息。如果说人工智能(AI)使计算机能够思考,那么计算机视觉则使它们能够看到、观察和理解。
什么是计算机视觉 近年来,计算机视觉 (Computer Vision,简称CV) 不断普及,已成为人工智能 (AI) 增长最快的领域之一。计算机视觉致力于使计算机能够识别和理解图像和视频中的物体和人。
计算机视觉应用程序使用来自传感设备、人工智能、机器学习和深度学习的输入来复制人类视觉系统的工作方式。一经复制,这一复杂的系统能够让机器识别和处理图像和视频,就像人的大脑一样,但速度更快,更准确。
计算机视觉的价值
计算机视觉系统经过训练和优化可以检查产品、观察基础设施或生产,以实时分析数以千计的产品或流程,帮助发现问题。由于计算机视觉的速度、客观性、连续性、准确性和可扩展性,具备超越人类的能力。
最新的计算机视觉深度学习模型在面部识别、对象检测和图像分类等现实世界图像识别任务中实现了高于人类水平的准确性和性能。并且计算机视觉已被广泛应用于各行业,从安全和医学成像到制造、汽车、农业、建筑、智慧城市、交通等等领域,并随着技术的进步变得更加灵活和可扩展,这也让更多的实际用例成为可能。
据有相关媒体预估,计算机视觉市场规模到2028年将达到1440亿美元。
计算机视觉工作步骤和原理
让我们先了解计算机视觉的基本工作步骤:
步骤1,图像采集,相机或图像传感器输入数字图像。
步骤2,预处理,原始图像输入需要进行预处理,以优化后续计算机视觉任务的性能。预处理包括降噪、对比度增强、重新缩放或图像裁剪。
步骤3,算法处理,计算机视觉算法对每个图像或视频帧执行对象检测、图像分割和分类。
步骤4,规则处理,输出信息需要根据用例条件规则进行处理。这部分根据从计算机视觉任务中获得的信息执行自动化。
再来看看计算机视觉工作原理:
现代计算机视觉系统将图像处理、机器学习和深度学习技术相结合,依靠模式识别以及深度学习来自我训练和理解视觉数据。传统的计算机视觉使用机器学习,而现在深度学习方法已经发展成为该领域的更好解决方案。
现代计算机视觉应用中的许多高性能方法都基于卷积神经网络(CNN)。这种分层神经网络让计算机能够从上下文认识图像数据。如果有足够的数据,计算机就会学习如何区分图像。当图像数据通过模型时,计算机应用CNN来查看数据。CNN通过将图像分解成像素来帮助深度学习模型理解图像,这些像素被赋予标签以训练特定特征,即所谓的图像注释。模型使用标签执行卷积并对它看到的内容进行预测,并反复检查预测的准确性,直到预测符合预期。深度学习依赖于神经网络,并使用示例来解决问题。它通过使用标记数据进行自我学习,以识别示例中的常见用例。
计算机视觉:深度学习与机器学习
计算机视觉通常利用传统的机器学习 (ML) 技术或深度学习方法。使用标准的 ML 方法,开发人员可以对小型应用程序进行编程,以识别图像中的图案。然后,统计学习算法将对图像进行分类并检测其中的对象。这是对原始方法的巨大改进,在原始方法中,开发人员必须手动将大量独特的规则编码到计算机视觉应用程序中。
用于计算机视觉的深度学习为 ML 提供一种截然不同的方法。该方法基于神经网络,可以通过识别所提供示例中的模式来解决问题。它需要大量的高质量训练数据并适当调整变量,例如所使用的神经网络的数量。有了足够多的示例,神经网络将学会识别目标对象(例如放射图像中的癌变),而无需其他指导。许多计算机视觉应用程序都使用深度学习技术,因为它们比其他方法更易于部署。
Last updated