今天小编分享的科技经验:一个人手搓AI Pin?奥特曼:单人搞出一个独角兽公司的时代来了,欢迎阅读。
个独角兽公司的时代来了
硅星人 Pro
2024-02-12 09:56:05 发布于北京
+ 关注
如果有这样一个设备,只有不到手掌的大小,你可以使用这个设备随时随地记录你周围的声音,并且可以转换成文字来和大语言模型交流,那么你会考虑入手一台吗?那如果我再告诉你,这样的设备你甚至可以自己手工制作,成本甚至不到 100 美金。
是的,就是相当于手搓了一个 AI Pin。
英国首家案件取证调查平台 Cado 的 CEO Adam C.H. 发布了一个视频,讲述他只用了一块 Coral AI 的微型开发板和开发板选配的蓝牙模块,制作了一个语音采集器,Adam 称这个设备为 "Adeus"。这个词在西班牙语里是告别的意思,放在这个设备中,它的含义是 " 告别网络和监管 ",指互联网厂商无法通过设备来采集用户的个人隐私。
Coral AI 微型开发板
Adeus 的算力来自于 Coral AI 的微型开发板,从上图里可以看到,板子包含了一个摄像头和一个麦克风,MCU(单片机)叫做 NXP i.MX RT1176,采用 ARM 架构,使用的是 Cortex-M4 和 Cortex-M7 这两种处理器。坦白来讲,这两款处理器都是 Cortex 系列的低端处理器,提供不了多少算力支持。
说到这你可能会觉得 " 啊,这不胡扯吗,这个破 MCU 够干什么的啊 "。说这话就代表你问到点上了,让我们把目光聚焦在那颗外观明显有别于其他芯片,刻着 "Coral" 大 Logo 的芯片上。这是 Coral AI Edge TPU 协处理器,能提供 4 TOPS ( 数据结构为 int8 ) 的算力。TPU 是谷歌提出的概念,全称是张量处理单元,专门用于进行深度学习和机器学习任务。
Coral AI Edge TPU
不过此 TPU 并非彼 TPU,它这个叫 "Edge TPU",就是边缘 TPU 的意思。它的兼容性和性能都远不如 TPU,但是功耗低、体积小。当然,每个神经网络模型对性能有不同的要求,面对像 Adam C.H. 安装在 Adeus 里面的这种开源模型,一般表现不会太差。
那么接下来的工作就简单了,Adam C.H. 在网上找到了一个开源的人工智能声音转文字軟體,再把 Adeus 连接到计算机上,最后执行安装,一切就都完成了。如果你想,你可以再为开发板的摄像头安装开源的人工智能軟體,比如标识人脸、标识物体等等。看到这你应该就懂了,现在做电子产品的逻辑是整个过程依靠人工智能,所有的元件都为人工智能服务,只要硬體算力到位了,最终就能实现功能。
Coral AI 微型开发板
我们来逆向思考,假如我们不使用人工智能技术,就单单还原一个 " 记录声音,转换文字 " 过程,都是非常费劲的。首先需要一个能够采集声音的模块,通常来说是麦克风。不过麦克风采集的声音是模拟信号,所以要将取到的模拟信号可能需要经过一些预处理,如滤波、放大等,以确保质量和适应性,而且每一步都需要一颗芯片。
最重要的来了,将模拟信号转换为数字信号,以便芯片能够进行数字信号处理。接下来是对数字信号进行处理,比如常说的降噪、特征提取等步骤,以准备输入到语音识别引擎。让这些数字信号经过语音识别引擎后,需要将转录出的文字输出到合适的存储设备或通过通信接口发送。
对比一下你就会发现," 原来人工智能省了这么多事啊!"
实话实说,100 美金的价格还是有些偏高了。所以 Adam C.H. 将要在未来使用 Raspberry Pi Zero 这块板子来制作 Adeus。
Raspberry Pi Zero
无独有偶,视频聊天軟體 Squad 的 CTO Ethan Sutin 也有类似的想法,不过他想要的是随时随地和大语言模型交流。于是他利用苹果的 M1 芯片,配合 OpenAI 的 Whisper 技术,做出了一个能 " 揣在兜里 " 的 Chat GPT3.5。
苹果 M1 芯片和麦克风阵列
Whisper 是用于自动语音识别(ASR)和语音翻译的预训练模型。Whisper 的理论基础是来自于 OpenAI 的 Alec Radford 等人的论文《Robust Speech Recognition via Large-Scale Weak Supervision》(通过大规模弱监督实现鲁棒的语音识别)。通过对将近 70 万小时的标记数据进行训练,Whisper 模型展现了在许多数据集和领網域中无需进行微调即可进行有效泛化的强大能力。
这套设备是没有开关的,所以怎么激活 Whisper 也需要人工智能的帮助。Ethan 使用的是 Silero,这是一个声音活动检测(VAD),选择它不为别的,主要原因在于 Silero 所使用的模型—— JIT,它仅仅需要 1Mb 字节大小,而便携设备最缺的就是容量。
理解这两个关键以后就会发现,Ethan 的做法比 Adam C.H. 还简单,这个设备的原理是用 Silero 来辨别是否有声音传入麦克风,再利用 Whisper 模型将声音转录为文字。通过手机,把转录的文字输入进大语言模型中,最后得到大语言模型的反馈,实现随时随地与大语言模型的交流。所以本质上来讲,他也是用人工智能来做硬體。苹果 M1 芯片价格大约为 40 美金,换句话说,这套方案比 Coral AI 的还便宜不少。
苹果 M1 芯片
OpenAI 的 CEO 山姆奥特曼说过,现在已经出现了仅有 1 个员工就市值 10 亿美元的公司,靠的核心竞争力就是人工智能。
未来尤其是智能穿戴这个领網域,极有可能变成一种 " 你需要什么功能,就准备多少计算资源 "。比如上文提到的两个设备,他们之所以选择树莓派和苹果 M1 芯片,原因就在于这两者提供的内存、显存、算力满足了需求。通常情况下,GPU 的显存主要用于存储模型参数、计算中间结果和进行模型优化的相关操作。而系统的内存主要用于存储训练数据、模型参数以及一些运行时的数据。在训练大型深度学习模型时,确保系统内存和显存足够大以容纳数据和模型参数是非常重要的。
树莓派
我们可以把这种将硬體的趋势简单缩写为一句话:道生一,一生二,二生三,三生万物。这些大发明家的本质,并不是掌握了多么精湛的手工工艺,而是巧妙地把人工智能融合进了硬體产品。在未来,随着技术的持续进步和创新,我们有望迎来一个智能设备制作成本显著降低的时代。届时,各类先进的传感器、微型处理器以及人工智能组件将变得更加易于获取且价格亲民,使得手工爱好者乃至普通大众都能够以相对低廉的成本亲手制作出功能丰富的智能硬體产品。通过开源社区的支持与共享经济的发展,制作智能设备所需的軟體资源和技术教程也将变得触手可及,从而进一步降低了进入门槛。