通过使用 Amazon Bedrock 构建精心设计的生成式 AI 解决方案，实现卓越运营机器学习

2026-01-27 14:56:36

利用 Amazon Bedrock 实现业务卓越

关键要点

大型企业正在制定战略，以在整个组织中利用生成式人工智能 (AI) 的力量。采用生成式 AI 时面临数据隐私和安全、法律合规及运营复杂性等一系列挑战。AWS WellArchitected Framework 提供了应对云计算挑战的最佳实践和指导。Amazon Bedrock 是实现生成式 AI 应用安全、合规和高效的关键平台。

大型企业正在制定战略，以在组织的各个层面智能地利用生成式人工智能 (AI) 的力量。然而，规模化应用生成式 AI 及确保各个业务部门的顺畅接受，也带来了确保数据隐私和安全、法律合规及运营复杂性等挑战。

为了解决在大型组织中使用云计算的挑战，AWS 开发了 AWS WellArchitected Framework。该框架通过在数千次客户参与中所提炼的最佳实践和指南，使企业能够更有效地操作。AI 也带来了一些独特的挑战，如管理偏见、知识产权、提示安全和数据完整性，这些都是在大规模部署生成式 AI 解决方案时至关重要的考量因素。由于这一领域仍在不断发展，因此在可操作性方面，“最佳实践”、“实用指导”及“设计模式”很难以易于理解的方式找到。在这篇博文中，我们将以 AWS WellArchitected Framework 的运营卓越支柱为基础，分享我们在实际项目中开发的实践和指南，让您能够安全地进行大规模 AI 运营。

在此过程中，Amazon Bedrock 发挥了关键作用。它是一个完全托管的服务，通过单一 API 提供来自多家领先AI公司的高性能基础模型 (FMs)。企业可以通过使用 AWS Lambda 等服务安全集成和部署生成式 AI 功能，从而实现无缝的数据管理、监控和合规性更多详细信息，请参考监控与可观察性。借助 Amazon Bedrock，企业可以实现以下目标：

目标描述可扩展性在不同的业务部门间扩展生成式 AI 应用。安全合规确保数据隐私、安全及符合行业标准和规定。运营效率利用内置监控、日志记录及自动化工具简化操作，与 AWS WellArchitected Framework 对齐。创新访问尖端 AI 模型，并使用实时数据和反馈不断改进。

这种方法使企业能够在保持运营卓越的同时实现生成式 AI 的大规模部署，从而推动整个组织的创新和效率。

操作生成式 AI 负载和解决方案的不同之处

WellArchitected Framework 的运营卓越支柱鼓励团队将更多时间集中在为客户提供利益的新功能开发上，即安全和可扩展的生成式 AI 解决方案的开发。然而，如果我们将视角聚焦在生成式 AI 上，我们需要解决由其创新本质所带来的复杂性和机会，包括以下几个方面：

大型语言模型 (LLMs) 生成新内容的能力使复杂性变得不可预测。由于模型训练数据不透明，潜在的知识产权侵权问题令人担忧。生成式 AI 的低准确率可能产生错误或有争议的内容。在训练和提示与令牌大小方面，需要特定的操作模型来满足大量计算资源的需求。持续学习需要额外的数据注释和策划策略。合规性是一个快速发展的领域，数据治理变得更加细致复杂，带来挑战。与遗留系统的集成需要仔细考虑兼容性、系统间的数据流及潜在的性能影响。

因此，任何生成式 AI 的视角都需要结合以下元素，以应对这些挑战并为负责任地使用 AI 提供基础：

政策指导决策的一套原则。护栏设立规则，保持在政策框架内。机制相应的流程及工具。

AWS 引入了 Amazon Bedrock 的护栏，旨在防止 LLMs 产生有害响应，为负责任的 AI 使用提供额外的保障。但是，更全面的组织性方法至关重要，因为生成式 AI 从业者、数据科学家或开发者可能会利用广泛的技术、模型和数据集来规避已设立的控制措施。

随着云技术逐渐成熟以支持更传统的 IT 工作负载和应用，帮助开发者选择合适的云解决方案以减少企业风险和简化开发者体验的需求也应运而生。这通常被称为平台工程，可以简洁地总结为“您开发者构建和测试，而我们平台工程团队处理其余！”。

成熟的云操作模型通常会包含一个商业办公室，能够为云产生需求，以及一个支持服务的基础平台工程团队，例如安全或开发运维包括 CI/CD、可观察性等，以满足该需求，示意图如下。

通过使用 Amazon Bedrock 构建精心设计的生成式 AI 解决方案，实现卓越运营机器学习

当这种方法应用于生成式 AI 解决方案时，这些服务被扩展以支持特定的 AI 或机器学习平台配置，例如添加 MLOps 或提示安全功能。

从哪里开始？

我们从审查运营卓越支柱所定义的基础运营要素开始，这包括：

围绕业务成果组织团队：

团队达到业务成果的能力来自领导愿景、有效的操作和与业务对齐的运营模型。领导层应全力投入并承诺进行 CloudOps 转型，采用适当的云操作模型，激励团队以高效并满足业务目标的方式运营。正确的操作模型应合理利用人、流程和技术能力，以便于扩展、优化生产力，并通过敏捷性、响应能力和适应性来实现差异化。

实现可观察性，实现可操作的洞察：

全面了解工作负载行为、性能、可靠性、成本和健康。确立关键绩效指标 (KPIs)，并利用可观察性遥测做出明智决策，在业务成果面临风险时及时采取行动。基于可操作的可观察性数据，主动提高性能、可靠性和成本效益。

飞机加速下载最新版

安全地自动化：

在云中，您可以对整个环境应用与应用代码相同的工程规范。您可以将整个工作负载及其操作应用、基础设施、配置和程序定义为代码，并进行更新。您可以通过事件响应触发操作来自动化工作负载的操作。在云中，您可以通过配置护栏包括速率控制、错误阈值和审批来实现自动化安全性。通过有效的自动化，您可以实现对事件一致的响应，减少人为错误，降低操作负担。

频繁进行小规模可逆的更改：

设计可扩展且松耦合的工作负载，以便组件能够定期更新。结合自动化部署技术和较小的增量变更可以减少影响范围，一旦发生故障可以快速回退。这增强了您在提供有益业务变化时的信心，同时保持质量，快速适应市场条件的变化。

定期完善操作程序：

随着工作负载的演变，适当演进操作。通过使用操作程序，寻找改进的机会。举行定期审查，并验证所有程序的有效性以及团队对它们的熟悉程度。如发现缺口，应相应更新程序，并与所有利益相关者和团队沟通程序更新。为分享最佳实践并教育团队对操作进行游戏化。

预测失败：

通过推动故障场景，以理解工作负载的风险特征及其对商业成果的影响，最大化运营成功。测试团队对这些模拟故障的反应及程序的有效性。基于测试确定的开放风险，做出明智的决策。

从所有操作事件和指标中学习：

通过从所有操作事件及故障中提取经验教训，促进改进。确保学习成果在团队和整个组织中分享，重点突出数据和经验，展示操作如何推动商业成果。

使用托管服务：

在可能的情况下，利用 AWS 托管服务来减少运营负担，围绕与这些服务的交互构建操作程序。

生成式 AI 平台团队在将生成式解决方案从概念验证或原型阶段转变为生产就绪解决方案时，应初始关注这些方面。我们具体将阐述您如何安全地开发、部署和监控模型，缓解运营及合规风险，从而减少在规模化及生产使用时采用 AI 的摩擦。

我们将重点关注以下设计原则：

实现可观察性，实现可操作的洞察安全自动化频繁进行小规模可逆的更改定期完善操作程序从所有操作事件和指标中学习使用托管服务

在接下来的部分中，我们将通过一个架构图进行说明，同时深入探讨控制支柱的最佳实践。

通过透明模型、护栏和成本提供控制，使用指标、日志和跟踪

生成式 AI 框架的控制支柱专注于可观察性、成本管理和治理，确保企业能够安全高效地部署和运营其生成式 AI 解决方案。下图展示了此支柱的关键组成部分。

可观察性

设置可观察性措施为其它两个组成部分奠定基础，即 FinOps 和治理。可观察性对于监控生成式 AI 解决方案的性能、可靠性和成本效益至关重要。通过使用 AWS 服务，如 Amazon CloudWatch、AWS CloudTrail 和 Amazon OpenSearch Service，企业能够直观了解模型指标、使用模式和潜在问题，从而实现主动管理和优化。

Amazon Bedrock 兼容强大的可观察性功能，监控和管理机器学习模型和应用。与 CloudWatch 集成的关键指标包括调用计数、延迟、客户端和服务器错误、限流、输入和输出令牌计数等更多详细信息，请参见使用 Amazon CloudWatch 监控 Amazon Bedrock。您还可以使用 Amazon EventBridge 监控与 Amazon Bedrock 相关的事件。这允许您在某些事件发生时创建触发特定行动的规则，从而增强可观察性设置的自动化和响应性更多详细信息，请参见监控 Amazon Bedrock 事件。CloudTrail 可以记录在 AWS 环境中由用户、角色或 AWS 服务对 Amazon Bedrock 发起的所有 API 调用。这对于跟踪对敏感资源的访问，确保关键活动如个人身份信息 (PII) 的访问、模型更新等得以审计，企业能够维护全面的审计追踪，以确保合规性。欲了解更多信息，请参见使用 AWS CloudTrail 记录 Amazon Bedrock API 调用。

Amazon Bedrock 支持实施 LLMs 可观察性成熟度模型所需的指标和遥测，包括以下内容：

捕获和分析特定于 LLM 的指标如模型性能、提示属性和成本指标，通过 CloudWatch。实施针对 LLM 相关问题的警报和事件管理。提供安全合规和强大的监控机制，因为 Amazon Bedrock 符合常见合规标准，并提供自动滥用检测机制。使用 CloudWatch 和 CloudTrail 进行异常检测、使用和成本预测、性能和资源利用优化。使用 AWS 预测服务进行更好的资源规划和成本管理。

CloudWatch 提供了一个统一的监控和可观察性服务，收集各类 AWS 服务和本地源的日志、指标和事件。这使得企业能够跟踪其生成式 AI 模型的关键绩效指标 (KPIs)，例如输入/输出量、延迟和错误率。您可以使用 CloudWatch 控制台创建自定义可视化和警报，确保团队对任何异常或性能下降的迅速通知。

对于更高级的可观察性需求，企业可以使用 Amazon OpenSearch Service，这是一个全面托管的服务，用于部署、操作和扩展 OpenSearch 和 Kibana。 OpenSearch 仪表板提供强大的搜索和分析能力，使团队能够深入了解生成式 AI 模型的行为、用户交互和系统级别的指标。

此外，您可以启用模型调用日志记录，在 AWS 帐户中收集所有 Amazon Bedrock 模型 API 调用的调用日志、完整请求响应数据和元数据。启用调用日志之前，您需要设置 Amazon 简单存储服务 (Amazon S3) 或 CloudWatch Logs 目标。您可以通过 AWS 管理控制台或 API 启用调用日志。默认情况下，日志记录是禁用的。

成本管理与优化FinOps

生成式 AI 解决方案可能迅速扩展并消耗大量云资源，因此建立稳健的 FinOps 实践至关重要。借助 AWS 成本探索者和 AWS 预算，企业可以跟踪使用情况，优化生成式 AI 支出，实现经济高效的部署和扩展。

成本探测器提供详细的成本分析和预测能力，让您能够理解与租户相关的开支、识别成本驱动因素并规划未来增长。团队可以创建自定义成本分配报告，利用 AWS 预算和警报设置自定义预算，并跟踪随时间变化的成本趋势。

分析生成式 AI 模型的成本和性能，对于做出关于模型部署和优化的明智决策至关重要。EventBridge、CloudTrail 和 CloudWatch 提供必要的工具来跟踪和分析这些指标，帮助企业做出基于数据的决策。通过这些信息，您可以识别优化机会，比如缩减未充分利用的资源。

借助 EventBridge，您可以配置 Amazon Bedrock 自动对其状态变化事件做出响应，这使您能够处理 API 限速问题、API 更新和减少额外的计算资源。有关更多详细信息，请参见在 Amazon EventBridge 中监控 Amazon Bedrock 事件。

正如前面部分所述，CloudWatch 可以监控 Amazon Bedrock，收集原始数据并将其处理为可读的、接近实时的成本指标。您可以使用 CloudWatch 控制台绘制这些指标。您还能设置警报来监控某些阈值，并在超出这些阈值时发送通知或采取行动。有关更多信息，请参见使用 Amazon CloudWatch 监控 Amazon Bedrock。

治理

实施稳妥的治理措施，包括持续评估和多层护栏，对于在企业环境中负责任和高效地部署生成式 AI 解决方案至关重要。我们逐一来看待这些措施：

性能监控与评估持续评估生成式 AI 模型的性能、安全性和合规性至关重要。您可以通过几种方式实现这一目标：企业可以使用 AWS 服务，如 Amazon SageMaker 模型监控和 Amazon Bedrock 的护栏，或 Amazon Comprehend，来监控模型行为，检测漂流，并确保生成式 AI 解决方案的预期性能或更好以及遵守组织政策。您可以部署开源评估指标，例如 RAGAS，作为自定义指标，确保 LLM 的响应基于事实，减少偏见，阻止“幻觉”现象。模型评估作业允许您比较模型输出，选择最适合您的用例的模型。该作业可以根据真值自动化，或者您也可以使用人力引入相关领域的专业知识。您还