AI绘画

绘制江湖儿女,绘制世间万物

YOLOv5的妙用:进修手语,帮助听力故障集体

计算机视觉可以进修美式手语,进而帮助听力故障集体吗?数据科学家 David Lee 用一个项目给出了答案。如果听不到了,你会怎么办?如果只能用手语交流呢?当对方无法理解你时,即使像订餐、讨论财务事项,

计算机视觉可以进修美式手语,进而帮助听力故障集体吗?数据科学家 David Lee 用一个项目给出了答案。

如果听不到了,你会怎么办?如果只能用手语交流呢?

当对方无法理解你时,即使像订餐、讨论财务事项,甚至和朋友家人对话这样简单的事情也可能令你气馁。对普通人而言轻轻松松的事情对于听障集体可能是很困难的,他们甚至还会因此遭到歧视。在很多场景下,他们无法获取合格的翻译服务,从而导致失业、社会隔绝和公共卫生问题。为了让更多人听到听障集体的声音,数据科学家 David Lee 尝试利用数据科学项目来解决这一问题:计算机视觉可以进修美式手语,进而帮助听力故障集体吗?

如果通过机器进修应用可以精确地翻译美式手语,即使从最基础的字母表开始,我们也能向着为听力故障集体提供更多的便利和教育资源前进一步。数据和项目介绍出于多种原因,David Lee 决定创设一个原始图象数据集。首先,基于移动设备或摄像头设置想要的环境,需要的分辨率一般是 720p 或 1080p。现有的几个数据集分辨率较低,而且很多不包括字母「J」和「Z」,因为这两个字母需要一些动作才能完成。

为此,David Lee 在社交平台上发送了手语图象数据采集请求,介绍了这个项目和如何提交手语图象的说明,希望借此提高大家的认识并采集数据。项目地址:https://github.com/insigh1/GA_Data_Science_Capstone数据变形和过采样David Lee 为该项目采集了 720 张图片,其中还有几张是他自己的手部图象。由于这个数据集规模较小,于是 David 应用 labelImg 软件手动进行鸿沟框标记,设置变换函数的概率以基于同一张图象创设多个实例,每个实例上的鸿沟框有所不同。下图展示了数据加强示例:

经过数据加强后,该数据集的规模从 720 张图象扩展到 18,000 张图象建模David 选择应用 YOLOv5 进行建模。将数据集中 90% 的图象用作训练数据,10% 的图象用作考证集。应用迁移进修和 YOLOv5m 预训练权重训练 300 个 epoch。

在考证集上成功创设具备标签和展望置信度的新鸿沟框。

由于损失值并未出现增长,表明模型未过拟合,因此该模型或许可以训练更多轮次。模型最终获得了 85.27% 的 [email protected]:.95 分数。图象判断尝试David 额外采集了他儿子的手部图象数据作为尝试集。事实上,还没有儿童手部图象用于训练该模型。理想情况下,再多几张图象有助于展示模型的功能,但这只是个开始。

26 个字母中,有 4 个没有展望结果(分别是 G、H、J 和 Z)。四个没有得到准确展望:

D 被展望为 F;

E 被展望为 T;

P 被展望为 Q;

R 被展望为 U。

视频判断尝试

即使只有几个手部图象用于训练,模型仍能在如此小的数据集上展现不错的功能,而且还能以一定的速度提供优秀的展望结果,这一结果表现出了很大的潜力。更多数据有助于创设可在多种新环境中应用的模型。如以上视频所示,即使字母有一部分出框了,模型仍能给出不错的展望结果。最令人惊讶的是,字母 J 和 Z 也得到了准确识别。其他尝试David 还执行了其他一些尝试,例如:左手手语尝试

几乎所有原始图象都显示的是右手,但 David 惊喜地发现数据加强在这里起到了作用,因为有 50% 的可能性是针对左手用户进行水平翻转。儿童手语尝试

David 儿子的手语数据未被用于训练集,但模型对此仍有不错的展望。多实例

尽管手语的应用和视频中有所不同,但这个示例表明当多个人出现在屏幕上时,模型可以分辨出不止一个手语实例。模型局限性David 发现,该模型还有一些地方有待改进。距离

许多原始图象是用手机拍摄的,手到摄像头的距离比较近,这对远距离判断有一定负面影响。新环境

这支视频来自于志愿者,未用于模型训练。尽管模型看到过很多字母,但对此的展望置信度较低,还有一些错误分类。背景判断

该尝试旨在考证不同的背景会影响模型的功能。结论这个项目表明:计算机视觉可用于帮助听力故障集体获取更多便利和教育资源!该模型在仅应用小型数据集的情况下仍能取得不错的功能。即使对于不同环境中的不同手部,模型也能实现良好的检测结果。而且一些局限性是可以通过更多训练数据得到解决的。经过调整和数据集的扩大,该模型或许可以扩展到美式手语字母表以外的场景。

资源

Yolov5 GitHub 项目:https://github.com/ultralytics/yolov5

Yolov5 requirements:https://github.com/ultralytics/yolov5/blob/master/requirements.txt

Cudnn 安装指南:https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html

OpenCV 安装指南:https://www.codegrepper.com/code-examples/python/how+to+install+opencv+in+python+3.8

Roboflow 加强流程:https://docs.roboflow.com/image-transformations/image-augmentation

常用图象数据加强技术综述论文:https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0#Sec3

Pillow 库:https://pillow.readthedocs.io/en/latest/handbook/index.html

labelImg:https://github.com/tzutalin/labelImg

Albumentations 库:https://github.com/albumentations-team/albumentations

原文链接:https://daviddaeshinlee.medium.com/using-computer-vision-in-helping-the-deaf-and-hard-of-hearing-communities-with-yolov5-7d764c2eb614

留下评论

您的电子邮箱地址不会被公开。 必填项已用*标注