正常狀態(tài)下,人在說話時(shí)心理情感的波動(dòng)會(huì)引起聲壓、語氣、語速、停頓時(shí)間和發(fā)聲器官的微小變化,以及通過人體大腦皮層的生理反應(yīng),利用心理學(xué)、生理學(xué)、神經(jīng)科學(xué)、信號(hào)分析處理、人工智能等的諸多前沿科技,檢測(cè)分析語音中某些特征參數(shù)的變化,因此,檢信智能通過監(jiān)測(cè)這些特征變化實(shí)現(xiàn)心理情感分析。
根據(jù)當(dāng)前語音情感分析的不足,檢信智能通過多年語音情感識(shí)別技術(shù)的開發(fā)經(jīng)驗(yàn),結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享等特征,對(duì)序列的非線性特征在學(xué)習(xí)方面具有一定優(yōu)勢(shì),利用基于LSTM(LongShort-Term Memory)長(zhǎng)短期記憶網(wǎng)絡(luò),將一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),應(yīng)用于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件,解決長(zhǎng)序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。相比普通的RNN,LSTM能夠在更長(zhǎng)的序列中有更好的表現(xiàn),通過將卷積操作引入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中,構(gòu)建完整的語音心理情感網(wǎng)絡(luò)模型,將語音進(jìn)行統(tǒng)一歸一化處理,再對(duì)統(tǒng)一歸一化處理的語音進(jìn)行分割之后,對(duì)割分的語音加窗分幀處理,并建立變長(zhǎng)數(shù)據(jù)的計(jì)算方式,將卷積操作引入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中,實(shí)現(xiàn)完整的語音情感識(shí)別網(wǎng)絡(luò)模型,并識(shí)別平靜、高興、吃驚、悲傷、憤怒、厭惡和恐懼7種情感功能。
目前市場(chǎng)上語音心理情感分析存在如下:
(1)心理情感與語音特征的邏輯關(guān)系不夠明確;
(2)從語音數(shù)據(jù)采集到語音特征的提取降噪處理不夠?qū)е滦畔⒌膿p失,而損失的信息影響最終心理情感檢測(cè)的 效果;
(3)分類算法效果一定程度上依賴人為提取的語音特征,算法本身不具有特征學(xué)習(xí)能力。
根據(jù)語音情感數(shù)據(jù),檢信Allemotion平臺(tái)根據(jù)特有的情緒建模及神經(jīng)網(wǎng)絡(luò)獲得被測(cè)試者每一時(shí)刻或在說話片段中的害怕、排斥、沖突、期待、壓力、興奮、邏輯、比率、概率、分心、猶豫、認(rèn)知、緊張、壞感、想象、思考、潛意識(shí)、潛在情緒。
(1)系統(tǒng)的識(shí)別時(shí)延低于250ms。
因?yàn)樵?span style="font-family: 微軟雅黑,Microsoft YaHei; font-size: 18px;">線語音情感識(shí)別,如果時(shí)延過高不但影響用戶體驗(yàn),而且對(duì)后續(xù)的語音情感識(shí)別請(qǐng)求的處理時(shí)間就更加長(zhǎng),發(fā)生堵塞。時(shí)延低是系統(tǒng)最重要的要求,要求系統(tǒng)對(duì)每個(gè)語音情感識(shí)別的請(qǐng)求處理時(shí)間低于250ms。
(2)能夠處理大規(guī)模并發(fā)任務(wù)請(qǐng)求。檢信ALLEMOTION語音情感識(shí)別具有并發(fā)任務(wù)處理能力。如果對(duì)語音情感識(shí)別任務(wù)的處理是串行的,則依然滿足不了大規(guī)模的應(yīng)用。
(3)利用采集針對(duì)性的語料進(jìn)行模型訓(xùn)練,并在引擎模塊中語音情感特征提取前加入語音降噪處理步驟,提高了情感識(shí)別率。原始語音信號(hào)從頻譜圖上可以看到語音數(shù)據(jù)中含有一些不規(guī)則信號(hào)的噪聲。下圖是經(jīng)過降噪之后的語音信號(hào)變得有規(guī)律,可以發(fā)現(xiàn)降噪效果還是明顯的。經(jīng)過降噪之后重新訓(xùn)練,明顯提高模型的效果,說明經(jīng)過降噪的語音有效降低環(huán)境噪聲和設(shè)備底噪對(duì)語音情感識(shí)別的影響。
(4) 采用群體決策優(yōu)化神經(jīng)網(wǎng)絡(luò)方法。
檢信ALLEMOTION采用群體決策的方法將訓(xùn)練集按照不同的組合條件,并選出每次交叉驗(yàn)證在測(cè)試集上識(shí)別效果最好的模型組成一個(gè)神經(jīng)網(wǎng)絡(luò)群,當(dāng)進(jìn)行識(shí)別時(shí),神經(jīng)網(wǎng)絡(luò)群中的每個(gè)模型分別對(duì)當(dāng)前樣本進(jìn)行判斷給出情感標(biāo)簽,最后使用投票的方式給出最終識(shí)別結(jié)果。
(5)語音情感識(shí)別精度達(dá)到達(dá)到82%
(6)檢信ALLEMOTION語音情感識(shí)別工作穩(wěn)定性達(dá)到99.5% ,運(yùn)行可靠且有能力處理大規(guī)模并發(fā)任務(wù)。