今天小編分享的科學經驗:人生搜索引擎免費用,開源版哈利波特“冥想盆”登GitHub熱榜,支持中文,歡迎閲讀。
天啦撸!回溯你在網上看過、做過的一切,也有免費軟體可用了!
簡單説,針對任何" 之前好像在哪看過 "的電腦檔案,只需輸入相關搜索詞,這個軟體都能幫你一鍵輕松回憶了。
打開方式 be like(沒錯,也有中文版):
你品,你細品。這像不像《黑鏡》中 " 你的全部歷史 " 那一集,描述了一種人人都植入芯片、能随時讀取過去記憶的未來生活。
更有意思的是,發明這個軟體的朋友将其命名為Pensieve (冥想盆),它是指 " 哈利波特中提取和回顧記憶的那個大水盆子 "。
笑死,你别説還真貼切!事實上,這個項目大量借鑑了之前就很火的 " 記憶助手軟體 "Rewind 和微軟的 Windows Recall 功能。
但是,這兩個 emmm …… Rewind 要收費(基礎版 12 美元 / 月),微軟的延期了。
所以,既免費、又立即可用的 Pensieve 是真香了!
這不,代碼更新後迅速登上了 GitHub 熱榜 ~
記住并回憶電腦螢幕上的所有内容
我們先來看 GitHub 頁面上 Pensieve(原名為 Memos)的官方介紹:
一個以隐私為中心的被動錄制項目。它可以自動記錄螢幕内容,構建智能索引,并提供方便的網頁界面以檢索歷史記錄。
是不是聽起來還是有點抽象?
别急,我們馬上拿 Rewind 和 Windows Recall 來一波回憶殺(doge)。
先説微軟畫了很久的大餅——Windows Recall。這個功能是今年 5 月首次被提出的,當時微軟計劃将其作為 Copilot + PC 的一項旗艦功能推出。
當時主打,任何檔案或網頁浏覽記錄都可以用自然語言搜索,輕松回憶任何東西。
然而,由于安全方面的擔憂,該功能的發布被一再推遲,且至今仍未上線。
細數一下,微軟最初計劃于 6 月 18 日發布,但由于安全問題,到了時間點卻未能按時上線。
後來微軟對其進行了改進,加入了高級加密和 Windows Hello 認證,數據被保存在 VBS 安全區中,第三方應用和用户無法訪問,而且截圖将自動排除諸如密碼和信用卡信息等敏感内容。
一番改造後,微軟又計劃在 10 月底開始測試新版本的 Windows Recall。
直到今日,該功能仍未上線,微軟還在改改改……
此外,對于 " 記憶助手 "Rewind,雖然幹得熱火朝天,但奈何它是收費滴。
Rewind 成立于 2020 年,主打通過 AI 技術捕捉和整理用户的全部生活内容。
具體功能和 Windows Recall 類似,也是幫助用户記錄并回溯在手機或電腦上看過的所有信息。
不過除了走到 " 回憶起 " 這一步,Rewind 走得更遠了一點。
它還接入了 GPT-4,能夠對這些 " 記憶 " 進行更深一步的操作,使得用户可以通過提出問題、創建摘要等方式與系統進行互動。
而就在 Rewind 功能更加完備的過程中,它也收獲了資本的青睐。
截至今年初,Rewind 已經完成了兩輪融資,共計 2790 萬美元,估值約為 3.5 億美元(25.34 億人民币),而且兩輪中都有 OpenAI CEO Sam Altman 和 a16z 的身影。
相比之下,根據項目作者的説法,Pensieve 的最大特點在于:
允許用户完全控制自己的數據,避免将數據傳輸到不可信的數據中心。
具體而言,Pensieve 擁有以下幾個特點:
簡單安裝,只需通過 pip 安裝依賴項即可開始;
所有數據均本地存儲,允許完全本地操作和自主數據管理;
實現全文和向量搜索;
與 Ollama(一個支持本地部署 LLM 的開源框架)集成,增強搜索能力;
支持 Mac 和 Windows(Linux 支持正在開發中);
兼容任何 OpenAI API 模型(例如,OpenAI、Azure OpenAI、vLLM 等);
允許用户選擇和設定語言模型(包括中文和英文);
允許通過插件擴展功能;
下面重點介紹大家關心的幾個問題。
第一,需要占用多少存儲。
作者貼心預估了一下,每月按20 個工作日計算,產生的截圖檔案約 8GB。截圖會進行去重,如果連續截圖内容變化不大,那麼只會保留一張截圖。
SQLite 數據庫大小取決于索引的截圖數量,10 萬張截圖索引後約占用2.2GB存儲空間。
第二,關于功耗和硬體設備。
Pensieve 默認需要兩個計算密集型任務:1)一個是 OCR 任務,用于從截圖提取文本;2)另一個是嵌入任務,用于提取語義信息和構建向量索引;
對于前者,作者使用 CPU 執行,并針對不同的作業系統優化以最小化 CPU 使用。
而對于後者,作者認為可以按照自己的設備進行選擇:
NVIDIA GPU 設備優先使用 GPU;
蘋果設備優先使用 Metal GPU;
其他設備使用 CPU;
當然,為了避免影響用户日常使用,Pensieve 還采取了優化措施。
一方面,Pensieve 能夠根據用户的活動模式動态調整索引構建的頻率。也就是説,在用户使用電腦時,它會降低索引構建的優先級,以減少系統資源的占用。
另一方面,Pensieve 在設計時考慮了電池使用壽命,通過監控電池狀态,當電池電量低于某個阈值時,會自動減少資源消耗,以延長電池使用時間。
第三,隐私安全如何保證。
Pensieve 作者提出了 4 點措施來保證用户隐私,包括:
1、代碼是完全開源且易于理解的 Python 代碼,允許任何人審查以确保沒有後門或惡意軟體。
2、本地化數據存儲。Pensieve 将所有數據存儲在用户的本地設備上,而不是上傳到雲端伺服器。
3、易于解除安裝:Pensieve 提供了簡單的解除安裝過程,用户可以輕松地從系統中移除。
4、數據處理完全由用户控制。用户可以自由選擇何時啓動或停止記錄,以及如何管理和查詢自己的數據。
另外,作為一個獨立項目,Pensieve 所使用的機器學習模型(包括 VLM 和嵌入模型)都允許由用户選擇。
這就上手安裝試試
概括而言,使用 Pensieve 大致包括以下幾個步驟:
安裝 Pensieve
初始化 pensieve 配置檔案和 sqlite 數據庫
使用兩行命令啓動服務
打開浏覽器并訪問 Web 界面
BTW,Pensieve 作者也貼心奉上了 " 食用指南 ",簡單概括如下:
1、選擇适當的嵌入模型
由于 Pensieve 使用嵌入模型提取語義信息并構建向量索引,故選擇合适的嵌入模型至關重要。
根據用户習慣的語言,作者提供了中英兩種模型。
2、使用 Ollama 進行視覺搜索
默認情況下,Pensieve 僅啓用 OCR 插件從截圖提取文本并構建索引。然而,這種方法極大限制了沒有文本的影像的搜索效果。
對此,我們需要一個與 OpenAI API 兼容的多模态影像理解服務,剛好 Ollama 可以勝任。
需要提醒的是,在啓動 VLM 功能之前,對硬體有一定要求:
推薦配置:至少 8GB VRAM 的 NVIDIA 顯卡或搭載 M 系列芯片的 Mac;
CPU 模式不推薦,因為它會導致系統嚴重卡頓;
3、全文索引
由于 Pensieve 默認情況下并非所有截圖都會立即索引,因此,需要以下命令行,才能實現全文索引功能。
更多安裝細節可參見原項目庫,地址也給大家放上了 ~
GitHub:
https://github.com/arkohut/pensieve?tab=readme-ov-file