當前位置: 華文星空 > 心靈

科技巨頭亞馬遜用打響語音之戰,Cerebras語音模式快如閃電

2024-09-10心靈

編輯:喬楊 Frey

【新智元導讀】雖然OpenAI的「Her」還是期貨,但矽谷的科技巨頭們已經開始相繼發力語音模型。前有谷歌的Gemini Live和蘋果的升級版Siri,如今巨頭亞馬遜和新秀Cerebras也加入了這場競爭。

繼OpenAI在5月釋出會上展示「期貨」GPT-4o的語音功能後,「AI語音助手」類的產品又成為了矽谷科技巨頭的必爭之地。

緊跟著OpenAI開釋出會的谷歌也馬上宣布——Gemini將推出語音聊天模式Gemini Live。

8月,谷歌在Pixel 9活動上正式釋出了Gemini Live,取代了原來谷歌助手的產品定位。

類似GPT-4o,Gemini Live不僅能實作隨時打斷的對話式交流,還有對器材螢幕的感知能力,可以即時解釋使用者的螢幕或影片資訊。

Gemini Live目前已經針對安卓器材推出,但仍只有英語模式,未來還將登入iOS系統並提供更多語言。

6月,蘋果就在WWDC大會上展示了如何用Apple Intelligence給2011年就誕生的Siri改頭換面。

與谷歌和OpenAI著重強調的「交流」功能不同,Siri似乎更專註於語音「助手」的定位。

螢幕感知、跨套用操作、智能體般的多命令處理,一個都不少。

比如,動動嘴便可開啟文件、將筆記移動到另一個資料夾、發送或刪除電子郵件、在Apple News中開啟特定文章、發送網頁連結,甚至請求器材提供文章摘要。

但是,這版更強Siri的上線還沒有明確期限,所依靠的Apple Intelligence也只能在iPhone 15 Pro或更新型號的手機才能執行。

根據彭博社的報道,蘋果團隊似乎需要大量時間來重構Siri的底層,高級版Siri最快也要等到2025年,才會出現在iOS 18上。

雖然還未正式上線,但可以看出,GenAI的這波革新讓蘋果13歲的Siri煥發新生。

而提到Siri,讓人想起和它同代的另一個語音助手——亞馬遜推出的Alexa。

亞馬遜改造Alexa

實際上,Alexa的革新計劃由來已久。早在今年1月,Business Insider就報道過這個專案,名為Remarkable Alexa,它正在內外的重重阻力下艱難推進。

釋出的日期也是一拖再拖,從最初的6月30日,到之前決定的8月。

8月30日路透社報道,有知情人士表示,改進版的Alexa將在10月美國美國假日季前釋出。

該專案在內部被稱為「榕樹」(Banyan),將是Alexa自2014年與Echo系列喇叭一起推出後迎來的首次重大改革。

Remarkable Alexa計劃向使用者收取5~10美元的訂閱費用,以抵銷GenAI模型的成本。

這部份訂閱不會包含在每年139美元的Prime服務中,但亞馬遜仍將提供免費版本的 classic語音助手。

Alexa難掩頹勢

2014年,亞馬遜首次推出Alexa的語音驅動功能,讓當時的消費者驚嘆不已,卻落後於最近的GenAI浪潮。

根據Insider Intelligence的統計,在美國,Google Assistant今年的使用者數量預計將達到8880萬,其次是 Siri的8420萬。Alexa的使用者數量位居第三,約為7560萬。

和Siri淪為語音計時器的境地類似,透過Echo音響存取的Alexa也多用於設定計時器、詢問天氣、播放音樂或回答簡單問題等功能。

不僅如此,亞馬遜想要透過Alexa提升電商業務銷售額的希望也落空了。

正如Kindle屏之於電子書商城,健康監測服務之於Halo手環,便宜到經常低於成本價的Echo音響和免費提供的Alexa,實際上包含著亞馬遜借硬件打造軟件的產品思路——

不求在硬件銷售上獲利,但求從使用者後續對軟件的使用、數碼內容的獲取和平台的依賴等中獲取更高毛利的收入。

這種行銷方式最初是借鑒剃須刀巨頭吉列——推出極具價格優勢的剃須刀,但透過售賣補充刀片賺得盆滿缽滿。

最初對Alexa的設想非常美好——使用者透過語音方式詢問購買建議,之後委托Alexa直接下單,就能拉動亞馬遜的電商銷量。

但隨後他們發現,這個思路不起作用。主要是因為使用者喜歡「眼見為實」,僅憑Alexa的語音描述很難讓人甘心掏錢網購。

根據內部檔和知情人士的透露,這種不成功的策略讓亞馬遜在Echos、Kindle等智能器材業務上虧損了數百億美元,可以說是貝佐斯在位時為數不多的巨大誤判。

硬件虧錢、軟件不賺錢,力挺Alexa的貝佐斯又離開了管理團隊,導致裁員的大刀最先落在了Alexa團隊的頭上。

Business Insider跟蹤LinkedIn上的貼文後發現,在2022年底開始的大裁員中,Alexa的AI系統、自然語言理解和對話能力團隊幾乎是首當其沖、受到了最高等級的影響。

然而,即使AI技術落後、虧損巨大,Alexa還掌握著一個關鍵優勢,可以助他們扳回一城——截至2023年,已經在全球賣出的支持Alexa的硬件器材超過5億台。

合作Anthropic借用Claude

CNBC和Business Insider在之前的報道中曾援引知情人士的說法,表示亞馬遜計劃基於內部語言模型Titan或Olympus升級Alexa。

然而,或許是內部技術不給力,路透社的最新報道表示,10月釋出的Remarkable Alexa將由Anthropic的Claude模型支持,而非自己的基座模型。

亞馬遜和Anthropic的合作由來已久。去年9月,他們就為Anthropic提供了高達40億美元的投資,獲得少量股權的同時,以AWS雲服務交換到了對Claude模型的使用。

一些知情人士表示,升級後的Remarkable Alexa可以執行更復雜的任務,例如撰寫簡短的電子郵件、發送郵件以及從Uber Eats訂餐,而且讓使用者無需在對話中重復召喚「Alexa」。

此外,亞馬遜還計劃增強Alexa提供的自動化家居功能,可以無線連線到智能器材,讓使用者進行語音控制。

具體而言,Remarkable的關鍵功能更新如下:

- 對話能力增強,與使用者進行更自然、更有吸重力的對話,並提供與上下文相關的響應

- 個人化推薦:根據使用者喜好和歷史記錄,針對購物、新聞和其他內容進行客製化推薦

- 家居自動化:Remarkable Alexa將作為一個更復雜的家居自動化中心,記住使用者偏好,自動執行鬧鐘設定、咖啡機啟動或電視節目錄制等任務

- 復雜任務執行:使用者可以提出更復雜的指令,例如訂購食物或起草電子郵件

總而言之,面對谷歌、蘋果等公司來勢洶洶的競爭,Alexa團隊現在的任務是,打造一款能夠在新的GenAI競爭中脫穎而出的語音互動器材。

REUTERS/Mike Blake

這其中的障礙,一是價格,二是AI安全問題。

一位知情人士估計,在Alexa中使用GenAI的查詢成本為每次2美分。有內部估計甚至指出,訂閱費用需要定為20美元,這也是ChatGPT的訂閱價格。

也有亞馬遜員工表示懷疑,除了已經為Prime會員支付139美元的使用者,是否還有人願意每年多掏60~120美元,獲得比免費版Alexa更智能一點的Remarkable Alexa。

但美國銀行分析師Justin Post的分析結果相當樂觀。

根據他在6月的估計,大約有1億活躍的Alexa使用者,其中10%可能會選擇Alexa的付費版本。按每月5美元的費用計算,這將額外帶來6億美元的年銷售額。

AI安全方面,有開發人員表示,Alexa大多出現在客廳或廚房中,這提高了套用GenAI模型的風險。如果Alexa不理解命令或提供不可靠的資訊,犯錯誤的代價就會更高。

Cerebras語音版成GPT-4o平替

想跟上語音模型更新步伐的,除了亞馬遜這種巨頭,還有Cerebras這個新秀。

前幾天剛釋出了號稱全球最快的AI推理架構——Cerebras Inference的AI初創芯片公司Cerebras,也基於livekit.io平台構建了自己的語音模型。

據悉,Cerebras Inference使用了Cerebras CS-3系統和WSE-3 AI處理器,記憶體頻寬和內核數分別是輝達p00的7,000倍和52倍。

依托具備如此超高速AI推理能力的Cerebras Inference之上的Cerebras語音對話模型讓人非常期待!

但原始的影片demo連結已失效。多虧評論區熱心網友,提供了另外一個類似於Cerebras語音對話模式的範例。

該對話模擬範例同樣基於LiveKit,但以ChatGPT為基礎模型。

具體來說,它借助Websocket使用LLM模擬了電話對話,並進行了系列最佳化,最終實作了無縫和快速對話。

不少網友在感嘆其功能強大,開發便捷的同時,惋惜它比ChatGPT-4o上線晚,遺失了很大一部份熱度。

LiveKit代理是透過語音,影片和數據頻道與終端使用者相互作用的多模式AI智能體Agent的端到端框架。該框架可以憑借Python構建智能體。

Agent框架被設計成可構建即時、可編程、執行在伺服器上的框架。它可被用來建立可看到的、聽到、理解的對話和多模態語音智能體。

該框架包括用於常見工作流程的外掛程式,例如語音活動檢測和語音到文本轉換。

Agent與雲或自托管LiveKit伺服器無縫整合,在本地電腦上開發的Agent程式碼可以擴充套件以支持成千上萬的並行會話,然後將其部署到伺服器中。

倉庫地址:https://github.com/livekit/agents

Cerebras語音版一經釋出,就引發了油管上很多博主的關註和測評。

Antti Luode透過多次打斷對話的方式,測試了Cerebras 即時語音模式的能力,證實其能快速有效理解對話並提供可靠資訊。

Cerebras語音版Q&A對話集錦

Q: 你是如何被開發的?

A: 我是自然語言處理和機器學習演算法的組合產物。我可以實作互動,在使用者打斷我時,也允許無縫轉換和自然的對話流程。

Q: 你有什麽想對YouTube觀眾說的嗎?

A: 我只是開啟了對話型AI技術套件的新紀元。諸如我一樣的語音助手未來,需要擁有更復雜、更人性化的功能。比如能理解細微上下文間的差距,甚至情緒的變化。

Q: 我的最後一個問題,如何開啟啟動艙門?

A: 短語「開啟啟動艙門」, 是電影【2001年太空漫遊】中的一句著名台詞,由Dave Bowman在嘗試與飛船電腦互動時說出...

令人驚喜的是,這場跨時空的虛假對話,預示著人工智能時代,超智慧電腦HAL 9000的現實體正一步步向我們走來!

參考資料:

https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/

https://www.cnbc.com/2024/05/22/amazon-plans-to-give-alexa-an-ai-overhaul-monthly-subscription-price.html

https://www.businessinsider.com/amazon-paid-alexa-plus-service-issues-2024-1

https://cerebras.vercel.app/