【安防展覽網 品牌專欄】9月1日消息,科大訊飛連發三款訊飛智能錄音筆新品,型號分別為SR901、SR702和SR101,以及*智能TWS耳機iFLYBUDS。
其中,SR901和SR702*搭載離線轉寫功能,支持OCR文字提取,進一步延續了SR系列在智能轉寫、AI高清降噪和智能編輯等方面的優勢,SR101是訊飛*500元級錄音筆,相比同價位產品也有著硬件優勢和軟件功能上的突破。
訊飛還面向商務人士的溝通和記錄需求,推出*立體聲無線耳機(TWS)iFLYBUDS,擁有通話實時轉寫、智能撥號識別、通話譯文三大核心AI功能。
自2019年5月訊飛*帶屏錄音筆——訊飛智能錄音筆SR系列推出后,國內錄音筆市場隨之掀起了以AI技術為依托的品類創新浪潮。
作為今年科大訊飛的首場線下新品發布會,此次訊飛不僅補全了智能錄音筆SR系列從入門到旗艦、再到尊享版市場的拼圖,同時其*TWS耳機的發布,也意味著訊飛智能語音和轉寫技術業務邊界的突破。
“秉承著高效辦公、智慧生活的理念,訊飛消費者業務已實現連續三年大于30%的增速,甚至今年逆勢增長,在618中獲得22項單品冠*。”科大訊飛聯合創始人&執行總裁胡郁在現場談到。
在他看來,訊飛在AI轉寫賽道上,不僅希望能為文字工作者的記錄場景賦能,更希望成為每個人的知識管理工具。讓每一位用戶在忙碌之中,依然可以輕松地備忘信息、捕捉靈感、記錄觀點。“讓我們一同開啟高效記錄新時代!”胡郁信心滿滿地說到。
那么,這次訊飛將會給我們帶來它在智能轉寫賽道上的哪些技術和場景應用創新?這些創新背后又展露了訊飛哪些行業創新的戰略和思考?來看現場發布干貨給我們的答案。
一、讓錄音筆長眼睛:首推離線轉寫與OCR識別功能
與上一代產品相比,訊飛SR901和SR702智能錄音筆的軟硬件性能在轉寫、降噪、智能編輯等方面都有了明顯升級,同時還新增了不少小而美的AI新功能,如OCR能力、圖片拍攝識別文字、拍攝視頻實現字幕等。
1、智能轉寫:支持無網轉寫及12種方言
轉寫功能的創新升級可謂是訊飛此次發布的重頭戲。
為了幫助用戶進一步解決在無網絡環境下轉寫,以及隱私內容轉寫的需求,SR901和SR702錄音筆升級了語音轉文字引擎,離線轉寫功能。讓用戶無需在4G/Wi-Fi網絡下就能實現語音實時轉寫并立即保存轉寫文字。
針對多語言、多語種的無縫切換識別和轉寫,訊飛推出新一代識別(轉寫)引擎——端到端新引擎,優化迭代了端到端語音識別框架。除了純中文與純英文模式識別外,端到端新引擎還支持中英混合識別場景,以及普通話-部分方言識別。
三款錄音筆在方言和語種轉寫,以及專業領域轉寫方面也進行了升級,支持粵語、河南話等12種方言轉寫;藏語、維吾爾語2種少數民族語言轉寫;中、英、日、韓等8種語言轉寫;財經貿易、醫療、IT科技等7大專業領域的轉寫。
2、拾音降噪:遠拾音15米,可實現超遠距離錄音與轉寫
硬件方面,SR901采用2顆哈曼MEMS定向麥克風+10顆全向麥克風,SR702采用2顆定向麥克風和6顆矩陣麥克風,SR10采用1顆定向麥克風+2顆矩陣麥克風,且支持AI拾音降噪。
據稱,訊飛錄音筆遠拾音距離為15米,并且還能根據不同場景自動匹配場景算法。同時,它還采用非人聲過濾,能夠自動跳過沒有人聲的冗余錄音,節約用戶整理錄音的時間。
實際上,訊飛錄音筆還采用了前端降噪技術,基于自研神經網絡與傳統信號處理深度結合的降噪算法(SSA-IME),不僅能有效降低環境干擾噪聲,還可消除干擾說話人的聲音,從而大幅降低語音識別的處理難度。
據了解,該技術使訊飛錄音筆在無喇叭的情況下,3-10米遠距離轉寫效果提升30%;有喇叭的情況下,超遠距離(20-50m)演講場景轉寫效果為90%以上,這也體現了訊飛在遠距離降噪轉寫技術上的先進性。
3、智能編輯:上線多人會議說話人分離
針對多人交談會議場景,訊飛錄音筆上線了其與ASR聯合建模的說話人分離方案。
此外,三款訊飛錄音筆升級了6項智能編輯功能:
智能語義分段:根據語義上下文進行分段,提升用戶針對轉寫文檔的瀏覽體驗;
自動區分講話人:根據錄音及轉寫結果自動區分標注講話人,針對多人討論場景,用戶還可快速檢索目標說話人數據;
口語規整:可過濾語氣詞、重復詞、無意義詞,優化轉寫內容;
智能摘要:對錄音內容進行全面的語義理解與分析,自動抽取關鍵信息,形成摘要結果;
個人詞庫:用戶可提前輸入專屬詞匯,實現轉寫時的智能編輯優化;
文件分享:支持文件分享功能,用戶可自定義多種導出格式或模板,同時在文件編輯結束后,可選擇文件分享至郵件。
4、絕招:看圖識字,還能給視頻配字幕
除了聲音記錄和轉寫之外,訊飛在三款新錄音筆上也添加了圖像方面的創新應用,如支持OCR文字識別、圖片拍攝識別文字、拍攝視頻實現字幕等。
硬件方面,訊飛智能錄音筆SR901為后置三攝,包括1300萬高像素主攝像頭、800萬像素120°超大廣角攝像頭、800萬像素長焦攝像頭;SR702為800萬像素數字變焦后置單攝。
功能方面,SR901和SR702錄音筆能夠提取并實時記錄圖片上的文字內容,還可錄制視頻,進行實時收音。
有意思的是,訊飛錄音筆拍攝完成并導出視頻文件時,支持自動生成字幕和后期編輯字幕,為錄音筆增添了新的圖像/視頻交互體驗。
二、解密:訊飛如何突破離線轉寫技術難點?
在這次訊飛智能錄音筆SR系列的小爆發背后,是其長達多年的技術積累和創新。
據智東西了解,此次發布中大的技術亮點在于離線轉寫功能。不過,由于離線轉寫對硬件和算法方面都有著較高的要求,因此實現這項技術并非易事。
硬件方面,離線轉寫與離線聽寫有著很大差異。
離線聽寫多以短語音為主,數據是偶爾性調用,對瞬間運算能力有較大要求;離線轉寫多以長語音為主,數據調用一般持續1小時或數小時以上,對硬件的長時間算力、CPU功耗和散熱情況等要求更高。
軟件方面,離線轉寫需適配訊飛的離線轉寫算法,實現與云端相當的實時性和準確性。同時,還要確保整機在長時間的轉寫過程中,溫度始終維持在合適范圍內,這也是離線轉寫算法的關鍵難點。
針對這些難點,訊飛的轉寫技術主要從兩個方面進行了優化和創新。
一方面,訊飛錄音筆采用CPU主頻自適應調整、線程數動態調度等方式來緩解設備發熱情況,以確保設備處于離線轉寫運行時工作頻率始終保持穩定。這樣不僅能保障離線轉寫的實時性和準確性,還能保證整機溫度的適宜。
另一方面,訊飛離線轉寫采用和在線轉寫幾乎相同的核心算法,針對錄音筆硬件的特性與指標進行裁剪與適配,包括模型蒸餾、定點化運算、多幀并行等技術,以實現流暢運行的目的。
基于這些突破,訊飛離線轉寫功能在此次新推出的智能錄音筆上實現了*落地。據了解,與云端轉寫相比,訊飛錄音筆離線轉寫所損失的準確率低于相對10%。
三、訊飛*TWS耳機iFLYBUDS的三大核心亮點
訊飛的創新發布不僅僅是智能錄音筆,還有智能TWS耳機iFLYBUDS。
作為訊飛的*智能TWS耳機,iFLYBUDS在誕生之初就將目標瞄準了商務應用市場,滿足商務人士在自駕、通勤和會議等多場景中,進行高效記錄和溝通的需求。
具體來看,訊飛智能TWS耳機iFLYBUDS有三大核心優勢,分別為通話實時轉寫、智能撥號識別、通話譯文。
iFLYBUDS通話轉文字的功能,均支持iPhone和安卓手機,并不需要獲得手機的通話錄音權限,只需聲音通過耳機即可在App上實現通話語音的轉寫。
1、通話實時轉寫
iFLYBUDS支持常規電*和網*電*,包括微*語音、騰訊會議和釘釘語音等。在多人會議場景下,iFLYBUDS還支持自動區分講話人,方便用戶快速查找通話內容。
通話時,用戶可隨時通過一鍵錄音功能,將通話過程轉文字,轉寫準確率達98%;通話結束后,iFLYBUDS將形成智能摘要,自動提煉通話重點內容,并支持對通話內容的多終端(手機端和電腦端)分享和編輯。
2、智能語音撥號
針對商務人士通訊錄中聯系人重名、同音等情況,iFLYBUDS支持用戶通過多種方式區分人名,以快速找到正確聯系人,提升撥號效率。
一方面,用戶可通過純語音交互,只說聯系人姓名即可撥號;另一方面,用戶還能通過詞語舉例、歸屬地名稱區分的方式讓耳機快速撥號,如“章子怡的章、立早章”、“北京的章總”。
3、通話譯文對照
在外貿商務交流場景中,用戶時常會遇到專業詞生僻等語言溝通障礙。
為了解決這一用戶需求,iFLYBUDS在用戶進行英語通話時,能變身“翻譯官”,幫助用戶將通話內容實時轉譯為漢字,輔助用戶英語溝通。
除了三大核心功能外,iFLYBUDS在音質、連接、延遲、續航和降噪方面也有著自己的特色。
其中在續航方面,iFLYBUDS支持2.5小時通話時長,4小時聽歌時長,若搭配充電盒使用,可實現長通話10小時,長聽歌20小時。
在極限使用場景下,iFLYBUDS同時進行通話+錄音+轉寫的續航為2小時,搭配充電盒的長使用時長為6小時。
降噪方面,iFLYBUDS的智能降噪功能采用雙麥克風拾音,CVC降噪算法,保證用戶在機場、健身房等嘈雜環境中的清晰流暢通話體驗。
此外,iFLYBUDS還支持智能語音助手、自定義輕擊耳機交互和佩戴檢測等功能。
結語:訊飛消費者業務擴軍智能錄音筆,新玩法押注TWS賽道
回顧過去幾年錄音筆行業的發展,一面是傳統錄音筆市場的破局,一面是AI技術的迅速發展與落地。
科大訊飛作為一家國內老牌智能語音企業,緊緊地抓住了傳統行業變革與新技術迸發的發展機遇,與過去自身長達20余年的語音技術基因相碰撞,從而催生出AI錄音筆的新品類市場。
這既是訊飛的優勢,也是它的挑戰。從初簡簡單單的錄音筆到一塊帶屏智能錄音筆,再到如今訊飛智能錄音筆SR系列的補全,訊飛圍繞語音技術的AI布局始終具有創新性和挑戰性。
尤其是訊飛*智能TWS耳機的誕生,不僅實現了AI轉寫等技術在多個設備的落地和創新應用,還進一步擴張了自身AI戰略版圖,將智能語音和轉寫賽道的邊界拓寬到錄音筆行業之外。
至此,訊飛以智能語音為基礎的產品品類在AI轉寫賽道的布局,已愈發地多元化。同時,訊飛基于這些技術所帶來的跨邊界融合,也給整個錄音筆和可穿戴設備行業的創新應用與發展,提供了一個新的思考路徑和解決方向。
未來,訊飛消費者業務或將繼續打破不同模態技術之間的應用與融合,將自身業務的邊界拓寬到更遠的領域。