文章目录
介绍
机器视觉(Machine Vision)是一门跨学科的领域,它结合了计算机科学、图像处理、模式识别、人工智能等多个领域的知识和技术。其主要目标是让计算机系统能够“看”并理解它们所捕捉到的视觉信息,从而实现自动化决策和操作。机器视觉广泛应用于工业制造、医疗诊断、自动驾驶、安防监控、机器人导航等众多行业。
机器视觉的核心组成部分
- 图像获取:这是机器视觉系统的起点,通常涉及使用摄像头或其他传感器来捕获图像或视频流。根据应用场景的不同,可以采用可见光相机、红外相机、3D扫描仪等多种类型的成像设备。
- 预处理:为了提高后续分析步骤的效果,原始图像可能需要经过一系列预处理操作,例如滤波去噪、灰度化、边缘检测等。这些步骤有助于去除不必要的干扰因素,并增强有用的信息特征。
- 特征提取:从预处理后的图像中提取有意义的特征,如形状、纹理、颜色等。这一步骤对于分类、识别等任务至关重要。现代深度学习模型可以直接从原始像素值中学习高级语义特征,而传统方法则依赖手工设计的特征描述符。
- 模式识别/分类:基于提取出的特征,应用统计学、机器学习或深度学习算法对对象进行分类、匹配或聚类。常见的技术包括支持向量机(SVM)、随机森林、卷积神经网络(CNN)等。
- 决策与控制:最后一步是根据前面几步的结果做出相应的响应或动作。在工业环境中,这可能意味着触发警报、调整生产参数或者执行特定的任务;而在自动驾驶汽车中,则涉及到路径规划和车辆控制。
机器视觉的关键技术和趋势
- 深度学习:近年来,随着计算能力的提升和大数据集的可用性增加,深度学习尤其是卷积神经网络(CNNs)已经成为机器视觉领域最热门的技术之一。它们在图像分类、目标检测、语义分割等方面表现出色。
- 实时处理:为了满足某些应用的需求,如自动驾驶或智能监控,机器视觉系统必须能够在极短的时间内完成复杂的视觉任务。为此,研究人员正在探索更高效的算法架构以及专用硬件加速器(如GPU、TPU)的应用。
- 多模态融合:将来自不同来源的数据(如图像、声音、文本等)结合起来,以获得更加全面的理解。例如,在医疗影像分析中,结合CT扫描和MRI图像可以提供更准确的诊断结果。
- 自监督和弱监督学习:由于标注大量数据的成本高昂且耗时,研究者们开始关注如何利用未标注或部分标注的数据来进行有效的训练。这种方法可以通过挖掘数据内在结构来减少对人工标签的依赖。
- 解释性和透明度:随着机器视觉系统越来越多地被应用于关键决策领域,确保模型预测的可解释性和透明度变得越来越重要。这不仅关系到系统的可靠性,也涉及到用户信任和社会接受度的问题。
现在说的机器视觉(Machine Vision)一般指计算机视觉(Computer Vision), 简单来说就是研究如何使机器看懂东西.
就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
机器视觉的应用
物体识别: 人脸识别, 车辆检测
识别图像中的文字(OCR)
图像拼接, 修复, 背景替换
虚拟环境的安装和使用
1. 安装virtualenv
pip install virtualenv -i https://pypi.douban.com/simple
2. 安装虚拟环境
进入到你想安装虚拟环境的目录, 进入到黑窗口. 执行以下命令产生一个新的虚拟环境
virtualenv <虚拟环境名字>
3. 使用虚拟环境
进入虚拟环境的scripts目录, 在这个目录下进入黑窗口. 执行activate
激活虚拟环境.
4. 安装需要的包
进入 虚拟环境之后执行以下命令安装需要的包.
pip install jupyter numpy pandas matplotlib -i https://pypi.douban.com/simple
等待安装完成即可.
启动jupyter
进入虚拟环境之后.在你想启动jupyter的地方,执行jupyter notebook
解决虚拟环境不能正常补全的问题.
进入虚拟环境,执行:
pip install jedi==0.17.0 -i https://pypi.douban.com/simple
pip install parso==0.7.1 -i https://pypi.douban.com/simple
pip install ipython==7.10.0 -i https://pypi.douban.com/simple
OpenCV
Gray Bradsky于1999年开发, 2000年发布
C++, Python, Java, JS
跨平台(Windows, Linux, Mac…)
为什么选择python语言:
- python语言简单, 开发速度快
- 底层使用C/C++, 速度有保障
- 有完整的生态链
学习目标:
- 了解OpenCV的运行机制
- 可以使用OpenCV处理一些图像常见问题
- 学会物体识别, 文字识别等问题的处理思路
安装OpenCV
进入虚拟环境, 执行pip install opencv-python==3.4.1.15
, 3.4.2之后有些算法申请了专利,用不了了.
安装opencv扩展包(选装): pip install opencv-contrib-python==3.4.1.15
如果装不了去:https://www.lfd.uci.edu/~gohlke/pythonlibs/下载相应的包手动安装.
pip install opencv-python3.4.1.15 opencv-contrib-python3.4.1.15 jupyter matplotlib -i https://pypi.douban.com/simple
图像视频的加载和显示
创建和显示窗口
namedWindow() 创建命名窗口
imshow() 显示窗口
destroyAllwindws() 摧毁窗口
resizeWindow() 改变窗口大小
waitKey() 等待用户输入
import c2 # cv2.namedWindow('new', cv2.WINDOW_AUTOSIZE) # WINDOW_NORMAL可以让窗口大小变得可以调节 cv2.namedWindow('new', cv2.WINDOW_NORMAL) # 修改窗口大小 cv2.resizeWindow('new', 1920, 1080) cv2.imshow('new', 0) # waitKey方法表示等待按键, 0表示任何按键, 其他整数表示等待按键的时间,单位是毫秒, 超过时间没有发生按键操作窗口会自动关闭. # 会返回按键的ascii的值 key = cv2.waitKey(0) if key == ord('q'): cv2.destroyAllWindows()
加载显示图片
imread(path, flag): 使用imread可以读取图片, 默认读取的是彩色图片.比如:
# 导入opencv包 import cv2 import matplotlib.pyplot as plt import numpy as np # 读取图片 img = cv2.imread('./cat.jpeg')
- 原图长这样:
使用matplotlib显示`plt.imshow(img)`, 长这样:
发现这个猫的样子没变, 但是颜色不太对, 这是因为OpenCV读取的图片颜色通道是按照BGR(蓝绿红)排列的, 一般图片通道都是按照RGB来排列的.为了正常的显示猫的图片, 我们要用OpenCV的图像显示方法:
cv2.imshow('cat', img)
cv2.waitKey(0)
cv2.destroyAllWindows()
我们可以把显示图片的方法封装成一个函数方便我们显示图片:
def cv_show(name, img):
cv2.imshow(name, img)
cv2.waitKey(0)
cv2.destroyAllWindows()
保存图片
imwrite(path, img): 使用imwrite保存图片.
import cv2 cv2.namedWindow('img', cv2.WINDOW_NORMAL) cv2.resizeWindow('img', 320, 240) img = cv2.imread("./cat.jpeg") # 利用while循环优化退出逻辑 while True: cv2.imshow('img', img) key = cv2.waitKey(0) if(key & 0xFF == ord('q')): break elif(key & 0xFF == ord('s')): cv2.imwrite("./123.png", img) else: print(key) cv2.destroyAllWindows()
视频采集
视频是由图片组成的, 视频的每一帧就是一幅图片, 一般是30帧, 表示一秒显示30张图片.
cv2.VideoCapture可以捕获摄像头, 用数字来表示不同的设备, 比如0, 1
如果是视频文件, 可以直接指定路径即可.
# 打开视频文件
vc = cv2.VideoCapture('./1.mp4')
# 打开摄像头
vc = cv2.VideoCapture(0)
检查是否正确打开
if vc.isOpened(): # 读取视频的一帧. open, frame = vc.read() else: open = False
循环读取视频每一帧数据
while True: # 可以读到内容ret返回True ret, frame = vc.read() # 读到最后frame就是空 if frame is None: break if ret == True: cv2.imshow('result', gray) # 0xFF == 27表示按esc退出键会退出 if cv2.waitKey(33) & 0xFF == 27: break vc.release() cv2.destroyAllWindows()
cap.read() 返回两个值, 第一个为状态值, 读到帧为True, 第二个值为视频帧
cap.release()
循环读取摄像头的每一帧数据
## 从摄像头一直读取数据 # 创建窗口 cv2.namedWindow('video', cv2.WINDOW_NORMAL) cv2.resizeWindow('video', 640, 480) # 获取视频设备 cap = cv2.VideoCapture(0) while True: # 从摄像头读取视频 ret, frame = cap.read() # 将视频帧放在窗口中显示 cv2.imshow('video', frame) # 等待键盘事件, 如果为q,退出 key = cv2.waitKey(1) if key & 0xFF == ord('q'): break # 释放 cap.release() cv2.destroyAllWindows()
视频录制
- VideoWriter : 参数一为输出文件, 参数二为多媒体文件格式(VideoWriter_fourcc, 参数三为帧率, 参数四为分辨率.
- write 编码并写入缓存
- release 缓存内容写入磁盘, 并释放资源
cap = cv2.VideoCapture(0)
# *mp4v就是解包操作 等同于 'm', 'p', '4', 'v'
fourcc = cv2.VideoWriter_fourcc(*'mp4v')
# (640, 480)表示摄像头拍视频, 这个大小搞错了也不行.
# 主要是这个分辨率.
vw = cv2.VideoWriter('output.mp4', fourcc, 20, (640, 480))
while cap.isOpened():
ret, frame = cap.read()
if not ret:
print('can not recive frame, Exiting...')
break
vw.write(frame)
cv2.imshow('frame', frame)
if cv2.waitKey(1) == ord('q'):
break
cap.release()
#释放VideoWriter
vw.release()
cv2.destroyAllWindows()
控制鼠标
OpenCV允许我们对窗口上的鼠标动作做出响应.
setMouseCallback(winname, callback, userdata) winname是窗口的名字, callback是回调函数, userdata是给回调函数的参数.
callback(event, x, y, flags, userdata)回调函数必须包含这5个参数. event是事件(鼠标移动, 左键, 右键等), x,y是点鼠标的坐标点, flags主要用于组合键, userdata就是上面的setMouseCallback的userdata
鼠标事件:
- EVENT_MOUSEMOVE 0 鼠标移动
- EVENT_LBUTTONDOWN 1 按下鼠标左键
- EVENT_RBUTTONDOWN 2 按下鼠标右键
- EVENT_MBUTTONDOWN 3 按下鼠标中键
- EVENT_LBUTTONUP 4 左键释放
- EVENT_RBUTTONUP 5 右键释放
- EVENT_MBUTTONUP 6 中键释放
- EVENT_LBUTTONDBLCLK 7 左键双击
- EVENT_RBUTTONDBLCLK 8 右键双击
- EVENT_MBUTTONDBLCLK 9 中键双击
- EVENT_MOUSEWHEEL 10 鼠标滚轮上下滚动
- EVENT_MOUSEHWHEEL 11 鼠标左右滚动
flags:
- EVENT_FLAG_LBUTTON 1 按下左键
- EVENT_FLAG_RBUTTON 2 按下右键
- EVENT_FLAG_MBUTTON 4 按下中键
- EVENT_FLAG_CRTLKEY 8 按下ctrl键
- EVENT_FLAG_SHIFTKEY 16 按下shift键
- EVENT_FLAG_ALTKEY 32 按下alt键
import cv2
import numpy as np
def mouse_callback(event, x, y, flags, userdata):
print(event, x, y, flags, userdata)
cv2.namedWindow('mouse', cv2.WINDOW_NORMAL)
cv2.resizeWindow('mouse', 640, 360)
# 设置鼠标回调函数
cv2.setMouseCallback('mouse', mouse_callback, '123')
# 显示窗口和背景
# 生成全黑的图片
img = np.zeros((360, 640, 3), np.uint8)
while True:
cv2.imshow('mouse', img)
key = cv2.waitKey(1)
if key & 0xFF == ord('q'):
break
cv2.destroyAllWindows()
TrackBar控件
TrackBar控件
- createTrackbar(trackbarname, winname, value, count, onChange) 创建TrackBar控件, value为trackbar的默认值, count为bar的最大值, 最小为0
- getTrackbarPos(trackbarname, winname) 获取TrackBar当前值
## trackbar
import cv2
import numpy as np
# 创建窗口
cv2.namedWindow('trackbar', cv2.WINDOW_NORMAL)
cv2.resizeWindow('mouse', 640, 480)
# 定义回调函数
def callback(value):
print(value)
# 创建trackbar
cv2.createTrackbar('R', 'trackbar', 0, 255, callback)
cv2.createTrackbar('G', 'trackbar', 0, 255, callback)
cv2.createTrackbar('B', 'trackbar', 0, 255, callback)
# 创建一个背景图片
img = np.zeros((480,640,3), np.uint8)
while True:
# 获取当前trackbar的值
r = cv2.getTrackbarPos('R', 'trackbar')
g = cv2.getTrackbarPos('G', 'trackbar')
b = cv2.getTrackbarPos('B', 'trackbar')
# 改变背景图颜色
img[:] = [b, g, r]
cv2.imshow('trackbar', img)
key = cv2.waitKey(1)
if key & 0xFF == ord('q'):
break
cv2.destroyAllWindows()