在人工智能領域,人體行為骨架識別是智能監(jiān)控、人機交互、機器人等諸多應用的一項關鍵技術,以老人智能看護為例,判斷老人是否正常吃飯、服藥、是否有異常行動出現(例如摔倒);在人機交互系統,猜測對方的“心思”,預測用戶的意圖;醫(yī)院的康復訓練,評估恢復程度以提供更好的康復指導等。
檢信智能骨架識別建模結構主網絡(Main LSTM Network根據對特征進行提取、時域相關性利用和最終的分類),時域注意力 (Temporal Attention)和空域注意力兩個子組成。主網絡同時引入時域注意力(TA)和空域注意力(SA)網絡后,加上聯合分類回歸的設計,聯合分類和回歸循環(huán)網絡(JCR-RNN)實現了快速準確骨架行為檢測,檢信ALLEOMTION骨架識別的精度實現了大幅提升。
人體的運動通過15個關節(jié)點的移動來描述,關鍵節(jié)點的組合與追蹤便能形成對諸多行為例如跳舞、走路、跑步等的刻畫,做到通過人體關鍵節(jié)點的運動來識別行為。計算機想要得到到“察言觀色”的技能并不那么容易。識別系統不僅需要判斷行為動作的類型,也需要定位行為動作發(fā)生的位置,即進行行為動作檢測。其關鍵在于兩個方面:一方面是如何設計魯棒和有強判別性的特征,另一方面是如何利用時域相關性來對行為動作的動態(tài)變化進行建模。
基于骨架的行為識別技術,檢信智能采用基于LSTM(Long-Short Term Memory)的循環(huán)神經網絡(RNN)來搭建基礎框架,用于學習有效的特征并且對時域的動態(tài)過程建模,實現端到端(End-to-End)的行為識別及檢測。
人體骨架由15個關節(jié)點的坐標位置表示。“揮拳”行為動作序列示例,行為動作要經歷不同的階段(比如靠近、高潮、結束),涉及到不同的具有判別力的關節(jié)點子集合。注意力模型(Attention Model)其方案就是模擬人類對事物的認知,將更多的注意力放在信息量更大的部分。