在腦- 機接口(BCI)技術日益發展的今天,Meta AI 最新推出的Brain2Qwerty 模型為這一領域帶來了新的希望。 BCI 旨在為有言語或運動障礙的人群提供溝通手段,但傳統的方法通常需要侵入性手術,比如植入電極,這不僅存在醫療風險,還需要長期維護。因此,研究者們開始探索非侵入性的替代方案,尤其是基於腦電圖(EEG)的方法。然而,EEG 技術面臨著信號分辨率低的問題,影響了其準確性。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
Brain2Qwerty 的推出正是為了解決這一難題。這款深度學習模型可以從通過EEG 或腦磁共振成像(MEG)捕捉到的腦活動中解碼出參與者輸入的句子。在研究中,參與者在QWERTY 鍵盤上輸入短暫記憶的句子,同時其腦活動被實時記錄。與以往需要集中註意力在外部刺激或想像運動不同,Brain2Qwerty 利用了自然的打字運動,提供了一種更直觀的腦電波解讀方法。
Brain2Qwerty 的架構分為三個主要模塊。首先是卷積模塊,負責提取EEG 或MEG 信號中的時間和空間特徵。接著是變換器模塊,它處理輸入的序列,優化理解和表達。最後是語言模型模塊,它是一個預訓練的字符級語言模型,用於修正和提升解碼結果的準確性。
在評估Brain2Qwerty 的性能時,研究者採用了字符錯誤率(CER)作為衡量標準。結果顯示,基於EEG 的解碼CER 為67%,相對較高;而使用MEG 的解碼效果則顯著改善,CER 降低至32%。在實驗中,表現最好的參與者達到了19% 的CER,顯示了該模型在理想條件下的潛力。
儘管Brain2Qwerty 在非侵入性BCI 領域展現了積極的前景,但仍面臨幾項挑戰。首先,當前模型需要處理完整句子,而不是逐個按鍵進行實時解碼。其次,雖然MEG 的性能優於EEG,但其設備尚不便攜且普及性不足。最後,本研究主要在健康參與者中進行,未來需要深入探討其對運動或言語障礙者的適用性。
論文:https://ai.meta.com/research/publications/brain-to-text-decoding-a-non-invasive-approach-via-typing/
劃重點:
Meta AI 推出的Brain2Qwerty 模型能通過EEG 和MEG 解碼打字內容,為BCI 技術帶來新希望。
研究結果顯示,使用MEG 解碼的字符錯誤率顯著低於EEG,最優參與者達19% 的CER。
未來的挑戰包括實時解碼、MEG 設備的可及性以及在有障礙人士中的應用效果。
這些成果表明,非侵入性BCI 技術正在逐步實現,未來有望為更多人群提供有效的溝通工具。