今天小編分享的科技經驗:一個人手搓AI Pin?奧特曼:單人搞出一個獨角獸公司的時代來了,歡迎閲讀。
個獨角獸公司的時代來了
硅星人 Pro
2024-02-12 09:56:05 發布于北京
+ 關注
如果有這樣一個設備,只有不到手掌的大小,你可以使用這個設備随時随地記錄你周圍的聲音,并且可以轉換成文字來和大語言模型交流,那麼你會考慮入手一台嗎?那如果我再告訴你,這樣的設備你甚至可以自己手工制作,成本甚至不到 100 美金。
是的,就是相當于手搓了一個 AI Pin。
英國首家案件取證調查平台 Cado 的 CEO Adam C.H. 發布了一個視頻,講述他只用了一塊 Coral AI 的微型開發板和開發板選配的藍牙模塊,制作了一個語音采集器,Adam 稱這個設備為 "Adeus"。這個詞在西班牙語裏是告别的意思,放在這個設備中,它的含義是 " 告别網絡和監管 ",指互聯網廠商無法通過設備來采集用户的個人隐私。
Coral AI 微型開發板
Adeus 的算力來自于 Coral AI 的微型開發板,從上圖裏可以看到,板子包含了一個攝像頭和一個麥克風,MCU(單片機)叫做 NXP i.MX RT1176,采用 ARM 架構,使用的是 Cortex-M4 和 Cortex-M7 這兩種處理器。坦白來講,這兩款處理器都是 Cortex 系列的低端處理器,提供不了多少算力支持。
説到這你可能會覺得 " 啊,這不胡扯嗎,這個破 MCU 夠幹什麼的啊 "。説這話就代表你問到點上了,讓我們把目光聚焦在那顆外觀明顯有别于其他芯片,刻着 "Coral" 大 Logo 的芯片上。這是 Coral AI Edge TPU 協處理器,能提供 4 TOPS ( 數據結構為 int8 ) 的算力。TPU 是谷歌提出的概念,全稱是張量處理單元,專門用于進行深度學習和機器學習任務。
Coral AI Edge TPU
不過此 TPU 并非彼 TPU,它這個叫 "Edge TPU",就是邊緣 TPU 的意思。它的兼容性和性能都遠不如 TPU,但是功耗低、體積小。當然,每個神經網絡模型對性能有不同的要求,面對像 Adam C.H. 安裝在 Adeus 裏面的這種開源模型,一般表現不會太差。
那麼接下來的工作就簡單了,Adam C.H. 在網上找到了一個開源的人工智能聲音轉文字軟體,再把 Adeus 連接到計算機上,最後執行安裝,一切就都完成了。如果你想,你可以再為開發板的攝像頭安裝開源的人工智能軟體,比如标識人臉、标識物體等等。看到這你應該就懂了,現在做電子產品的邏輯是整個過程依靠人工智能,所有的元件都為人工智能服務,只要硬體算力到位了,最終就能實現功能。
Coral AI 微型開發板
我們來逆向思考,假如我們不使用人工智能技術,就單單還原一個 " 記錄聲音,轉換文字 " 過程,都是非常費勁的。首先需要一個能夠采集聲音的模塊,通常來説是麥克風。不過麥克風采集的聲音是模拟信号,所以要将取到的模拟信号可能需要經過一些預處理,如濾波、放大等,以确保質量和适應性,而且每一步都需要一顆芯片。
最重要的來了,将模拟信号轉換為數字信号,以便芯片能夠進行數字信号處理。接下來是對數字信号進行處理,比如常説的降噪、特征提取等步驟,以準備輸入到語音識别引擎。讓這些數字信号經過語音識别引擎後,需要将轉錄出的文字輸出到合适的存儲設備或通過通信接口發送。
對比一下你就會發現," 原來人工智能省了這麼多事啊!"
實話實説,100 美金的價格還是有些偏高了。所以 Adam C.H. 将要在未來使用 Raspberry Pi Zero 這塊板子來制作 Adeus。
Raspberry Pi Zero
無獨有偶,視頻聊天軟體 Squad 的 CTO Ethan Sutin 也有類似的想法,不過他想要的是随時随地和大語言模型交流。于是他利用蘋果的 M1 芯片,配合 OpenAI 的 Whisper 技術,做出了一個能 " 揣在兜裏 " 的 Chat GPT3.5。
蘋果 M1 芯片和麥克風陣列
Whisper 是用于自動語音識别(ASR)和語音翻譯的預訓練模型。Whisper 的理論基礎是來自于 OpenAI 的 Alec Radford 等人的論文《Robust Speech Recognition via Large-Scale Weak Supervision》(通過大規模弱監督實現魯棒的語音識别)。通過對将近 70 萬小時的标記數據進行訓練,Whisper 模型展現了在許多數據集和領網域中無需進行微調即可進行有效泛化的強大能力。
這套設備是沒有開關的,所以怎麼激活 Whisper 也需要人工智能的幫助。Ethan 使用的是 Silero,這是一個聲音活動檢測(VAD),選擇它不為别的,主要原因在于 Silero 所使用的模型—— JIT,它僅僅需要 1Mb 字節大小,而便攜設備最缺的就是容量。
理解這兩個關鍵以後就會發現,Ethan 的做法比 Adam C.H. 還簡單,這個設備的原理是用 Silero 來辨别是否有聲音傳入麥克風,再利用 Whisper 模型将聲音轉錄為文字。通過手機,把轉錄的文字輸入進大語言模型中,最後得到大語言模型的反饋,實現随時随地與大語言模型的交流。所以本質上來講,他也是用人工智能來做硬體。蘋果 M1 芯片價格大約為 40 美金,換句話説,這套方案比 Coral AI 的還便宜不少。
蘋果 M1 芯片
OpenAI 的 CEO 山姆奧特曼説過,現在已經出現了僅有 1 個員工就市值 10 億美元的公司,靠的核心競争力就是人工智能。
未來尤其是智能穿戴這個領網域,極有可能變成一種 " 你需要什麼功能,就準備多少計算資源 "。比如上文提到的兩個設備,他們之所以選擇樹莓派和蘋果 M1 芯片,原因就在于這兩者提供的内存、顯存、算力滿足了需求。通常情況下,GPU 的顯存主要用于存儲模型參數、計算中間結果和進行模型優化的相關操作。而系統的内存主要用于存儲訓練數據、模型參數以及一些運行時的數據。在訓練大型深度學習模型時,确保系統内存和顯存足夠大以容納數據和模型參數是非常重要的。
樹莓派
我們可以把這種将硬體的趨勢簡單縮寫為一句話:道生一,一生二,二生三,三生萬物。這些大發明家的本質,并不是掌握了多麼精湛的手工工藝,而是巧妙地把人工智能融合進了硬體產品。在未來,随着技術的持續進步和創新,我們有望迎來一個智能設備制作成本顯著降低的時代。屆時,各類先進的傳感器、微型處理器以及人工智能組件将變得更加易于獲取且價格親民,使得手工愛好者乃至普通大眾都能夠以相對低廉的成本親手制作出功能豐富的智能硬體產品。通過開源社區的支持與共享經濟的發展,制作智能設備所需的軟體資源和技術教程也将變得觸手可及,從而進一步降低了進入門檻。