基于yolov5、fcos的目标识别跟踪系统
基于yolov5、fcos的目标识别跟踪系统
几个月前做一个需求,需要做一个关于一类物体的识别和跟踪任务。当时首先考虑到是一类物体、身份的识别,使用单纯的对一个特定物体特征提取的识别并不能帮助我对一类物体进行识别跟踪,因此,我打算使用yolo这种端到端的目标识别算法。后来考虑到我需要部署的平台算力又很有限,同时还要注重实时性,也就是通讯速率的问题,这种情况下对于我实时监测的帧数fps要求很高,还需要部署加速模型。
思来想去,树莓派上能够利用的加速方案即便加速了也不够识别算法的要求(onnx转ncnn等,加速之后大概也在10fps以下,仍然不够,个人建议稳定20fps以上),最后选择地瓜机器人(原地平线x3派),使用板载部署fcos跟踪识别。板载使用双核BPU资源,(AI算力达到5TOPS,比香橙派更小)将后处理等操作从神经元网络中提出来单独放在板上跑,最终能够稳定30fps(如果想跑自己的识别算法,需要通过docker将onnx文件转为bin文件,挂载天工开物toolchain),在部署代码中加入串口通讯等内容将识别数据与下位机通讯,从而达到跟踪的目的。
本项目学习逻辑顺序:首先,我们需要知道在电脑端部署上位机过程及输出过程,因为pc端属于算力相当充足的平台,可以看作理想平台,在此基础上,我们写下位机的逻辑代码,并搭建通讯协议,这时我们可以测试下位机的代码逻辑在理想平台运行下是否正确,也即电脑做上位机,32做下位机;测试完成后,再将上位机移植到算力有限平台,在此过程中,我们只需要解决有关通讯速率的问题就好了。
博客主要内容为:
1.将yolo算法本地运行以及部署至树莓派的过程;
2.使用x3派官方部署的fcos识别作为上位机去与下位机通讯,完成识别并跟踪的需求。
方案设计&引脚分配。
本案例采用单目摄像头识别,通过usb连接地平线X3派。地平线X3派官方已经安装好USB转TTL驱动(若这里使用的是树莓派,则一定要提前看下位机使用usb转ttl通讯的芯片型号安装驱动),通过usb连接STM32F103C8T6驱动板,板载获取信息后发出PWM波信号控制舵机转动。具体接线如下图所示:
其中,由电脑通过typeC对typeC口对地平线X3派供电,地平线和下位机通过usb对typec口通信,并且通过该线对下位机供电。此处供电只对PWM输出口其中一半的引脚进行供电,在测试时,若接入其中未供电的引脚,舵机会发出电流异响。下两图是下位机的原理图以及系统引脚分配:
引脚分配:
需求 | 需求个数 | 使用功能 | 引脚对应 | 说明 |
---|---|---|---|---|
底部旋转舵机 | 1 | 使用TIM4定时器功能产生PWM波形(output) | PB6(R26) | TIM4 PWMgenerationCH1 |
俯仰舵机 | 1 | 使用TIM4定时器功能产生PWM波形(output) | PB7(R27) | TIM4 PWMgenerationCH2 |
串口通讯与接收 | 1 | 在调试时可以使用电脑usb口直接进行串口通信,或者在打开串口通信设置后,进行引脚引出 | PA13/PA14复用功能 | 通过usb进行通讯,改为串口通信 |
OLED屏幕显示 | 1 | 在调试时返回变换前和后的坐标值 | PB5\PB4\PB3\PA15 | 使用SPI1通讯;对外推挽输出即可 |
KY-008激光模块 | 1 | 数字IO口(舵机占用) | PB8(R29) | 一边接地,一边直接接入GPIO口即可。 |
syn6288语音播报模块 | 1 | 输出实时合成中文字符 | PB10isTX/PB11isRX | 串口资源3,目前已经禁用,使用socket协议直接和工控机通讯即可。 |
DEBUG | 1 | PA4 | LEDBLUE | |
stlink | 4 | 下载与调试 | 下4:swclk-PA14 swdio-PA13 3.3-3.3 GND-GND | |
上位机接线需求 | 需求个数 | 使用功能 | 引脚对应 | 说明 |
以太网远程桌面 | 1 | VNCVIEWER | RJ45端子接网线 | 链接树莓派或X3派时,需要指定本地以太网IPV4地址为固定,树莓派请参考CSDN上教程,X3派请进入网络与共享中心-更改适配器设置-IPV4地址-属性-192.168.0.100(参照地平线手册) |
通讯 | 1 | usb | usb3.0 | |
摄像头 | 1 | usb | usb3.0 | 注意,若是定焦需要记住焦距,若是变焦则需要确定出厂焦距(目前焦距),如果实在记不住也没关系 |
在计算机本地下载并应用yolo算法。
配置环境。
由于平台部署算力有限,因此选择使用YOLOV5-LITE轻量化版本。由于YOLOV5LITE的1.5版本export的环境与我所搭配的主环境冲突,于是选择1.4版本。以下是我的环境:
1 | CUDA版本:12.1 |
使用conda创建虚拟环境命令:
1 | conda create -n env_name python=3.11#创建环境以及python版本 |
本地运行YOLOV5。
前往:https://github.com/ppogg/YOLOv5-Lite,下载源代码.zip至本地。
在release中下载.pt预权重文件,这里使用YOLOV5LITE-S.pt文件,使用权重文件的s版本(最简化)。
以下是对YOLOV5LITE-1.4源码进行一些最基本的处理:
到基础能用的地步,更改所涉及到的文件:detect.py、plot.py、datasets.py
1 | detect.py# |
此时,在右下角添加pycharm虚拟环境,选择之前创建好的虚拟环境,运行detect.py,此时若出现显示调用摄像头识别框且显示识别框的中心点坐标则说明配置成功。
将文件export。
首先,需要对export文件做出解释:export文件只是一个输出性文件,所输出的相当于只是另一个形式的.pt纯权重文件,因此若要在板载上部署仍需要进行以上基础修改操作:添加onnx权重矩阵地址、修改摄像头端口号及其分辨率、修改plot函数。
一般来说,我们为了识别一类物品,需要自己单独训练一个模型,但是我懒OVO,所以我会直接用官方识别几十种label的预权重模型,并加以修改为只输出识别一类物品(如人)。如果有时间的话,下一次研究的时候我再加上训练过程的记录吧。
言归正传,我们需要输出能够被树莓派和x3派成功使用,则需要我们修改opset版本号:
1 | torch.onnx.export(...,opset_version=11,...)#修改为11 |
直接输出即可。
跟踪思路:下位机处理逻辑与源代码
我们从上位机得到输出的只能是一个人物检测框的中心点坐标,我们需要据此将舵机云台进行调整。
坐标系转换
为了让云台知道自己该如何旋转,我们需要将其特征转换到一个中央对准的坐标系中去,我们所使用的像素画幅为640*480的矩形。即从识别坐标系opencv转换到旋转判定坐标系中。如果该类物体的坐标在1、2象限,那俯仰舵机向上旋转单位角度并继续获取旋转后坐标再进行比对;若该类物体坐标在2、3象限,那么水平舵机则向左旋转单位角度并继续获取旋转后坐标再进行比对。假设我们设定一个瞄准区域为(-25,25),也即当其旋转至此范围内时,判定为已经瞄准,则停止旋转,如下图所示:
但是若旋转角度不变,则会产生一个问题,那就是:如果单位旋转角度过小,那么瞄准所需要的时间则会很长;如果单位旋转角度过大,那么瞄准所需要的时间虽然很短,但是由于中心瞄准区域的大小不宜太大,很容易造成转过了的情况,从而导致在人物中心点处左右摇摆。因此,针对不同的角度差值,使用不同的单位旋转角度,可以在一定程度上模拟位置式pid的效果——即,差的越远转的越快,差的越近转的越慢。实测跟踪效果会更好。
T.I.P.S 不建议对角度进行惯性滤波,会导致跟随太慢的问题。(通信频率远小于100HZ)
P.S.在使用之前,我们应当先对舵机进行标定(放在行程的中心点处)再进行安装。
焦距变换+坐标系转换(未验证)
我们可以看出来,上面那种方法麻烦且定位慢,那么为什么我们不能直接一下子就转到想要的角度呢?原因是我们使用的工业USB摄像头属于单目摄像头,一般来说不用单目摄像头进行测距,没有三维空间第三个坐标的信息,我们很难获取直接的坐标。但是,如果我们了解单目摄像头以及YOLO算法识别坐标的本质,那我们也同样能够获得这个三维空间的Z坐标信息。
在引脚分配部分,我曾提到要记住摄像头的焦距信息,使用单目摄像机的YOLO算法识别时,世界的影像被投影到一个平行于目前摄像头平面的二维平面上,它们之间的距离则是焦距,此时焦距单位按照像素计算。如下图所示:
在平视情况下,我们也可以通过该种计算方法来直接旋转到目标转角。
P.S.按照理论来说这种方法很准,但是我个人在使用的时候,实际部署到上位机的时候确实不怎么准确(应该是我把焦距搞错了),没找到特别具体的原因,欢迎一试。
下位机控制代码
基于单纯的坐标系转换方法,使用STM32CUBEIDE编写和配置下位机。经过配置和引脚分配,配置如下图所示:
总体引脚:
时钟树:
PWM波:
烧录与通讯口:(usart3未使用)
使用最简单方案:坐标转换法
这里只对部分代码进行解析:
1 | int x1=changebuff[0]*100+changebuff[1]*10+changebuff[2]; |
1 | int quadrant;//判断坐标系 |
1 | //控制左右旋转,确定当x在正负50以内为锁定成功,当其远不在锁定范围内时,移动步长为5,当其小于120时,移动步长为1,精确锁定。 |
在树莓派(地平线X3派)中使用yolov5算法(fcos目标检测算法)。
地平线X3派中已经部署完毕,有机会再补充这部分部署代码(官方代码抄录);
树莓派中部署:
1 | import cv2 |
地平线x3派与下位机通讯。
基于以上部署,我们做出以下修改:
首先修改为自己权重矩阵的绝对路径和字典库罗列。
修改为只检测一类:
1 | if label == 'person' |
[warning]此种方法依然检测了多种类,只是只显示和输出了一类结果,实时性有待提高,还是应该自己训练为最佳。
若实现通讯,上位机应该在plot中加入修改以下内容(以YOLO为例):
1 | #修改plots.py中plot_one_box内容 |
因为是使用十六进制传递坐标信息,因此下位机应该将所传输的十六进制ASCII码值解码,如下图所示:
1 | HAL_UART_Receive(&huart3,buff,3,HAL_MAX_DELAY); |
其它
训练过程:遥遥无期ing
抄录fcos部署源代码:遥遥无期ing
下位机使用CUBEIDE配置,全部代码已经开源至git仓库:https://github.com/SAINT784167/YOLO-LOW-CONTORL