今天小编分享的互联网经验:钛媒体独家对话Amazon Bedrock总经理:大模型太多,也太早,客户需要有多个选择,欢迎阅读。
图片来源 @pixabay
当下,多数云计算企业的生成式 AI 布局,往往局限于自家训练的基础大模型,然后招揽生态伙伴以拓宽能力边界。
这一举措出于企业自身商业利益考量可以理解,但是对于客户而言,却并不能完全接受。显然,能够有更多模型的选择对客户而言非常重要。这一方面在于,大模型创新的天花板还远远没有打开,不同模型提供商的能力自然也会有参差,另一方面也跟客户需求场景相关,没有任何一个模型能满足所有场景,那么针对不同的用例,客户需要有多个选择,可能还不是一两家,会有多个模型同时参与,去弥补这种参差。
不是以 OpenAI 为中心,也不是以其他任何一个模型为中心,而是以客户为中心。过去,亚马逊云科技 90% 以上的产品都是从客户需求推导而来。亚马逊云科技的生成式 AI 战略也基本跟随这种路径。
当然,亚马逊云科技也构建有自己的基础大模型 Amazon Titan,于 2023 年 4 月发布。这源自亚马逊云科技自身在人工智能技术方面的积累,比如此前知名的语音助手 Alexa、无人机 Prime Air、无人零售 Amazon Go 等,就用到了大量语音、语义、视觉相关的机器学习技术。
亚马逊云科技 Amazon Bedrock 总经理 Atul Deo 指出,如果亚马逊云科技没有自己的一方模型,意味着必须完全依赖合作伙伴。而从头开始构建模型,其实也在给自己提供了 " 事必躬亲 " 的问题解决思路。
为此,我们能看到一个蛮有意思的现象:由于 Amazon Bedrock 提供了企业构建生成式 AI 应用程式所需的一系列功能,能够在实现简化开发的同时确保隐私性和安全性。在 Amazon Bedrock 上,客户能够找到 Amazon Titan,也能够找到当前业内主流的大模型版本,包括 Anthropic、Stability AI、AI21 Labs、Meta、Cohere、Mixtral 的模型……这个名单仍在快速扩充。
北京时间 4 月 23 日晚间,亚马逊云科技公布了 Amazon Bedrock 的多项功能更新,这些能力整体上为客户提升了开发生成式 AI 应用的效率。包括:
1、全新专有模型导入功能推出预览版:可将客户的定制模型(包括使用 Amazon SageMaker 机器学习平台或其他工具开发的模型)集成至 Amazon Bedrock,以完全托管的 API 形式进行访问,减少运营成本并加速应用程式的开发。Amazon Bedrock 专有模型导入功能现已推出预览版并支持三种受欢迎的开放模型架构:Flan-T5、Llama 和 Mistral,并计划未来支持更多模型。
2、模型评估功能正式可用:为客户评估、比较和选择适合其应用程式的最佳模型,将评估模型的时间从几个星期缩短到几个小时,促使客户应用创新并改善用户体验。通过选择预定义的评估标准(如准确性和鲁棒性)并上传自有数据集 / 提示词库,或者从内置的、公开可用的资源中进行选择。对于主观标准或需要细致判断的内容,Amazon Bedrock 将人工审核融入工作流程中,以根据特定应用场景的指标(如相关性、风格和品牌声音)对模型进行评估。评估后还会提供评估报告,以为更多模型使用者提供参考。
3、Guardrails 安全功能正式可用:在基础模型的原生能力之上提供安全保护,能够阻止高达 85% 的有害内容。允许客户在单一服务中同时拥有内置和定制的防护机制,并可与 Amazon Bedrock 中的所有大语言模型以及经过微调的模型一起使用。可实施防护措施,去除个人信息和敏感信息、亵渎语言、特定词汇并屏蔽有害内容。
功能更新之外,亚马逊云科技此次还在 Amazon Bedrock 上提供了一系列新模型,包括正式可用的 Amazon Titan Image Generator 影像生成模型、Meta Llama 3(8B 和 70B),以及 Amazon Titan Text Embeddings V2 预览版,Cohere 的 Command R 和 Command R+ 三款模型也即将推出。
其中,Amazon Titan Text Embeddings V2 预览版,针对使用 RAG 检索增强生成的应用场景进行了优化,非常适合如信息检索、问答聊天机器人和个性化推荐等任务。许多企业采用 RAG 技术,通过连接到知识源以增强基础模型的生成结果,但问题是运行这些操作可能会消耗大量计算和存储资源。Amazon Titan Text Embeddings V2 在降低了存储和计算成本的同时,保持了使用 RAG 检索结果的准确性。
生成式 AI 不仅仅是大模型,同样也需要加速芯片、数据库、数据分析、数据安全服务等服务做支撑。从底层的加速层如加速芯片、存储优化,到中间层模型构建工具和服务,再到最上层的生成式 AI 相关应用,能够看到,亚马逊云科技试图为客户提供构建生成式 AI 所需的端到端技术栈。
在此次发布前夕,Atul Deo 与钛媒体进行独家交流,Atul 分享了对生成式 AI 的价值判断,技术方法论,以及 Amazon Bedrock 助力客户成功等看法。Atul 目前负责 Amazon Bedrock 的产品管理和工程工作。在亚马逊云科技机器学习团队期间,Atul 负责推出和发展了多项云服务,包括 Amazon Q、Amazon CodeWhisperer、Amazon Transcribe 和 Amazon Connect 的 Contact Lens。
观点摘录:
1." 数据卫生这项工作非常具有挑战性 "
2."(改变的)一切都取决于客户以及我们试图解决的具体问题 "
3. 我们无法彻底消除幻觉,但会有越来越多的前沿研究涌现
4." 过早地指出哪些模型被广泛应用还为时尚早 "
5." 技术所带来的颠覆性、对客户体验的改变及其可能性都是真实存在 "
以下是对话实录,经钛媒体编辑整理。
钛媒体:大公司和小而精的团队,在当下实现 AI 技术创新、产业赋能方面,会有哪些不同优势?
Atul:就针对客户应用部署而言,我不认为大公司和小企业之间会存在哪些明显差异,它们之间有很多共通之处。我们都想为大公司尝试不同模式。当前 Data Hygiene(数据卫生)这项工作非常具有挑战性。当你为较小的公司部署应用时,管理并确保模型训练所需的私網域数据实现高质量和一致性相对容易。但对于规模较大的公司,有大量差异化数据,且数据更加分散,管理数据会更具挑战性。另一方面,初创企业可以通过承担更多的风险更快地行动,它们没有像大型客户这样的现有客户群,可能会出错,也会在试错中快速迭代创新。
钛媒体:AWS 想要做 GenAI 这件事情,最终希望解决什么问题?
Atul:我们正在积极探索新的可能性。无论客户希望自主构建模型,还是希望对现有模型进行深度定制,我们希望构建一套生成式 AI 堆栈,让客户使用到丰富且一流的工具,除此之外,还有 Amazon SageMaker,基于 NVIDIA 提供的丰富实例类型,我们还积极研发定制芯片,涵盖训练和推理两大领網域,以满足更精细化的需求。
通过这一系列从底层到中间层的创新,我们的目标是:让企业内的任何开发人员都能够自由构建生成式 AI 应用,而无需关注复杂的机器学习或底层基础设施。我们坚信,所提供的工具将达到行业最高水准,帮助他们实现应用的创新突破。
目前,我们推出了 Amazon Q business 和 Amazon Q developer 两个版本。Amazon Q business 旨在为企业中的每位员工配备一位专业顾问,确保他们能够快速获得解答并高效完成任务;而 Amazon Q developer 则专注于提升开发人员的工作效率,为之提供即时的解答,以顺利完成手头的具体工作。这正是 Amazon Q 的最终目标,也是我们不懈追求的方向。
钛媒体:对 AWS 自身的产品和业务结构真正意义上带来改变,可能需要多久?如何在这个领網域建立我们的领导力?
Atul:实际上,一切都取决于客户以及我们试图解决的具体问题。我们已经看到数以万计的客户正在使用 SageMaker 来改变其客户体验。这些变化有的已经发生,有的则需要一些时间。因此,对于何时能够期待显著变化,确实没有一个固定的答案。
举例来说,纽约证券交易所正在利用 Bedrock 来分析处理众多监管檔案,并将复杂的法规内容转化为易于理解的语言,这一举措将对最终用户产生深远影响;同时,电子健康记录技术供应商 Netsmart 通过应用相关技术,成功将患者健康管理记录的时间缩短了 50%,这无疑为医生腾出了更多时间,使他们能够照顾到更多的病人。
今天我们已经看到了对最终用户的一些积极影响,但我相信这仍然是一个需要时间来逐步发展和普及的过程。然而,这一进程的进展速度是相对较快的,已经形成了不可小觑的势头。因此,我无法确切预测是在今年年底还是明年,生成式人工智能将变得非常普遍。不过,可以肯定的是,它正在逐步改变我们的世界,为我们带来更多的便利和可能性。
钛媒体:像 RAG 用于解决幻觉问题,但有些论文里提了幻觉仅靠 RAG 也无法解决,在企业级应用中,如何测评幻觉存在程度,以及在具体应用时的影响?
Atul:尽管我们无法彻底消除这个问题,但随着时间的推移,我相信会有越来越多的前沿研究涌现。你将看到客户在处理幻觉方面取得了更多的进步与改进。我可以明确地告诉你,这个问题虽然无法完全解决,但作为我们行动的一部分,它确实有助于减少其影响,只是无法彻底消除。随着时间的推移,无论是模型内部还是外部,都将出现创新,从而帮助客户更好地应对这种模式。
钛媒体:模型间的协作问题,客户在多个模型使用时,AWS 目前有哪些比较好的解决思路?
Atul:对于客户而言,这个问题显而易见。因此,我们特别推出了一项名为模型评估的功能,该功能已于去年 12 月发布,并计划于明天全面上线。从本质上来说,这一功能旨在帮助客户在给定的一组提示上比较不同模型的性能,以便它们能够选择更符合自身特定用例的模型。
要实现这一目标,客户有三种方式可供选择。首先,他们可以在控制台中根据给定的提示比较不同模型的性能;其次,客户可以利用自动化评估功能,在不同数据集上运行不同的模型或使用标准行业数据集,从而查看哪些模型表现优异;最后,客户还可以借助公司内部的专业团队,以不同的方式评估模型,确定哪种模型符合他们的期望。最终,客户将从 Bedrock 获得一份详尽的报告,根据他们设定的标准,报告将展示模型的表现以及如何决定哪些模型对其有意义。
钛媒体:AWS 在 AI 伦理方面的举措有哪些?
Atul:我们正与多个政府组织进行广泛合作。以我们推出的 Titan 影像生成器为例,该工具具备水印功能,能够添加不可见的水印,帮助客户判断生成的影像是否由人工智能生成。除此之外,我们还与一些列其他组织合作,确保以负责任的方式使用人工智能。
钛媒体:AWS 在自研芯片方面的经验是什么?
Atul:多年来,我们一直在芯片领網域进行投资,且早在 2015 年收购了芯片设计公司 Annapurna Labs。尽管我们最初的重点是面向虚拟化和通用计算芯片,但随后我们专注于开发专门用于机器学习的 AI 芯片。例如,用于人工智能训练和推理的两款专用芯片 Amazon Trainium 和 Amazon Inferentia。
得益于多年来对芯片开发的持续投资,我们有了更多机会对这些芯片进行迭代和改进,以确保其性能和稳定性。这些改进恰逢其时,因为生成式人工智能对计算能力的需求日益增长。
钛媒体:Bedrock 上有很多模型,你是否观察到哪个模型最受客户欢迎,比如 Meta 和 Anthropic?
Atul:目前,我们尚不会透露各模型提供商的具体性能表现。但我想说的是,这些模型受到了广大用户的青睐。这主要是因为模型的选择取决于具体的应用场景,人们会根据不同的需求来选用不同的模型。因此,过早地指出哪些模型被广泛应用还为时尚早。(本文首发于钛媒体 APP, 作者|杨丽,编辑 | 盖虹达)