簡單描述
從一個3.5音頻線接入聲音(電腦或手機的喇叭),串聯(lián)一個硬件,硬件再通過3.5音頻連接喇叭發(fā)聲,播放聲音的同時,通過串口同步輸出0~5的數字信號。
需求內容
需要設計的是一種能夠分辨語音和對音頻進行分析的軟件或硬件,作用是分析音頻,可以把輸入的音頻信號(喇叭 3.5音頻信號)實時判斷出口型。可以理解為動畫片配音,當有聲音輸入的時候,判斷是 “張嘴音”,“閉嘴音”,“撅嘴音”還是“咧嘴音” 等口型,并按時序輸出結果。我們把人物說話時的口型簡化為這4種動作,基本可以滿足一般對話嘴部動作需求,不需要語義分析,只是語音,且不能有延遲(<1ms),所以最好不要聯(lián)網,本地解決。
口型說明:
張嘴音,比如 “啊”,“啦”,“扎”,“他”
撅嘴音,比如 “讀”,“我”,“羅”,“國”
咧嘴音,比如 “跨”,“掐”,“斯”,“加”
閉嘴音,比如 “蹦”,“爬”,“破”,“薄”
其中,閉嘴音也經常是其他開口音的前置口型。
目前解決方案思路:
1)現(xiàn)在語音識別系統(tǒng)都采用了模式匹配的原理。錄入的語音信號首先經過處理,然后特征提取,用以從語音信號波形中提取一組或幾組能夠描述語音信號特征的參數。特征提取之后語音特征參數和語音信息與模式庫中相應模板之間對比,最匹配的就是識別結果,同步發(fā)送識別數據。
2)使用訊飛或其他語音識別板,將采集的語音錄制,轉文字,再把文字轉拼音,按拼音首字母判斷口型,然后播放錄制的語音,播放時根據語音波形時序發(fā)送口型數據。但這個方法會使整個播放聲音延遲。
人才要求
有硬件開發(fā)經驗,有單片機,嵌入式開發(fā)經驗,有語音識別設備或智能音箱設備開發(fā)經驗。
參考產品
手機app “活照片”
設備要求
功耗無要求,最好是離線。可以使用第三方設備。識別準確率不低于70%,音頻識別延遲<1ms
完成要求
測試樣品5臺(樣品制作費用另算)
完整代碼和原理圖,電路圖,代碼要求寫清注譯,完整說明文檔