5 min read

使用 YOLOv12 進行手語辨識

前言

手語辨識是計算機視覺(Computer Vision)與人機互動(Human-Computer Interaction)領域中極具挑戰性的研究主題。其目的在於將手部姿勢、動作與手語語彙轉換成語意化資訊,使聽障者與一般使用者能透過科技更有效地溝通。

隨著深度學習模型的進展,物件偵測(Object Detection)與姿態估計(Pose Estimation)能力大幅提升,使得即時手語辨識系統變得可行。本篇將介紹如何結合 YOLOv12 與 MediaPipe 打造高效能、低延遲的手語辨識流程。

技術架構

YOLOv12 模型

本系統使用最新的 YOLOv12-pose 版本,具備:

  • 更高偵測準確率(AP / mAP 提升)
  • 更快推論速度(Inference Speed)
  • 更精準的關鍵點定位能力(Keypoint Estimation)
  • 支援小物體偵測與動態手部追蹤
  • 新添加的注意力機制

YOLOv12-pose 可直接輸出手部關鍵點座標,為後續手語辨識模型提供乾淨且可靠的姿態資料。

YOLOv12 架構示意圖

MediaPipe 整合

MediaPipe 提供 HandsHolistic 模組,可輸出 21 個手部關鍵點(Hand Landmarks),在細節上比 YOLO 的姿態估計更穩定。 透過翻轉,讓左右手可以分辨,手部關鍵點也來到 42 個。

整合方式:

  1. YOLOv12:手部位置偵測(Bounding Box) — 在複雜背景或多人場景中提升定位穩定度。
  2. MediaPipe:精細手部關鍵點擷取(Landmarks) — 在 YOLO 標示的 ROI 中做高解析度關鍵點分析。
  3. 融合(Fusion):同步整合 YOLO 與 MediaPipe 輸出,使偵測速度與穩定度兼具。
  4. 注意力限縮:透過顯示限縮辨識範圍,讓自訓練模型專注在手部的辨識,從而降低背景影響。

手語辨識系統架構

此架構能提升手語辨識精準度,並適用於即時應用,例如醫療場景、教育場域與翻譯輔助系统。