如何优化多模式 AI 工作流程中的延迟

多模式 AI 工作流程经常面临关键挑战：延迟。延迟是指处理文本、图像、音频或视频等输入的延迟，这可能会对用户体验、安全和业务成果产生负面影响。要解决这个问题，你需要确定延迟源并采取有针对性的策略。

关键要点：

延迟来源：常见问题包括数据预处理速度慢、管道效率低下、网络延迟和硬件限制。
优化方法:
- 模型压缩：量化、修剪和知识蒸馏等技术可减少模型大小和处理时间。
- 管道改进：模块化设计、实时数据处理和自动监控简化了工作流程。
- 高效的注意力机制：多查询注意力 (MQA) 和动态群组注意力 (DGA) 等替代方案降低了计算成本。
- 可扩展架构：将垂直扩展（升级硬件）和水平扩展（添加计算机）相结合，以实现均衡的性能。
- 缓存和资源管理：使用语义缓存、内存优化和资源感知调度来避免瓶颈。
平台工具: 像这样的工具英伟达海卫一和代币化跟踪简化了延迟减少和资源管理。

通过组合这些策略，您可以减少延迟，提高响应能力，并创建更快、更高效的人工智能工作流程。

vLLM 办公时间-实现最大化的高级技术 vLLM 演出-2024 年 9 月 19 日

vLLM

减少延迟的主要策略

一旦你确定了延迟的来源，就该采取行动了。关键策略包括减小模型大小、简化数据管道和引入更有效的注意力机制。

模型压缩方法

模型压缩的目的在于精简 AI 模型，使其更快、资源消耗更少，同时不影响其提供准确结果的能力。

“模型压缩技术旨在减少大型模型的大小和计算成本，同时保持其预测性能。” — Florent LIU，KAI KnowledgeAI

有四种主要的模型压缩方法，每种方法都以独特的方式解决问题：

量化：此方法降低了模型权重和激活的精度。例如， 8 位量化可以将模型大小缩小多达 75%，对精度的影响最小。
修剪：通过切除神经网络中的冗余连接，修剪可以显著缩小模型。实际上， 即使是激进的修剪（移除超过 90% 的参数）通常也能保持接近原始的性能水平。
知识蒸馏：该策略涉及教导较小的 “学生” 模型模仿更大的 “教师” 模型，从而生成更紧凑的架构，在推理过程中运行得更快。
二值化：对于极限压缩，权重减为二进制值。尽管这种方法可以显著缩小尺寸，但精度通常会明显下降。

将这些技术（例如将量化与修剪配对）相结合，可以提高速度和节省的内存。正如生成式人工智能开发人员Venkatkumar（VK）所说：

“在我看来，模型优化对所有人工智能工程师都至关重要。虽然每个人都可以创建模型并实现模型，但并不是每个人都精通模型优化。”

技术主要福利权衡取舍量化最多可减少 75% 的内存使用量精度略有降低修剪移除多达 90% 的参数需要仔细调整蒸馏在较小的型号中保持性能需要额外的训练时间二值化极限压缩精度明显损失

虽然压缩是一种强大的工具，但优化数据管道对于减少延迟同样至关重要。

管道优化

加速 AI 系统通常从完善数据管道开始。大多数管道依赖于提取转换加载 (ETL) 架构来自动移动和准备数据。

一个 模块化设计 是有效优化的核心。通过将管道分成较小的独立组件，团队可以更新或调整特定部分，而无需重新训练整个模型。这种灵活性对于快速更新特别有用。自动化也起着重要作用，它可以处理重复的任务，例如数据摄取和清理，减少人为错误，节省时间。

实时数据处理是另一个游戏规则改变者。与批处理不同，实时方法可提供即时见解，这对于金融聊天机器人等应用程序至关重要。例如，一个这样的聊天机器人改进了其工作流程，以实时处理复杂的文档，提供近乎即时的响应。

监控同样重要。日志和实时性能报告有助于快速识别瓶颈。恢复策略，例如备份程序和故障转移机制，可确保即使管道的一部分出现故障，系统也能保持正常运行。迭代改进和快速原型设计使管道保持敏捷性，降低了向上扩展时出现性能问题的风险。

接下来，让我们来看看高效的注意力机制如何进一步简化操作。

高效的注意力机制

传统的注意力机制通常会减慢多模态人工智能系统的速度，但是诸如MQA、GQA和DGA之类的替代方案可以在不牺牲准确性的情况下削减计算成本。

MQA（多查询注意力）：此方法通过使用更少的注意力头来减少计算负荷。利用 MQA 的模型显著降低了成本，同时保持了与多头注意力 (MHA) 模型相当的性能。
GQA（分组查询注意事项）：通过对查询进行分组，GQA 在灵活性和减少的计算需求之间取得了平衡，避免了 MHA 的大量资源消耗。
DGA（动态群组注意力）: DGA 在注意力计算期间识别不太重要的代币并将其汇总，进一步提高了效率。

诸如MMByPass之类的高级技术进一步推动了优化。一项研究发现，MmbyPass将延迟平均减少了44.5％，同时在各种多模态基准测试中保持或超过了基准精度。同时， 注意力不集中 将计算重点放在关键代币子集上，简化了跨模态互动。

选择正确的注意力机制取决于应用程序的特定需求和限制。这些方法减少了计算开销，使工作流程更具响应性。通过完善模型架构和数据管道，您可以实现更快、更高效的人工智能性能。

构建可扩展的部署架构对于确保多模态人工智能系统的低延迟至关重要。如何扩展基础设施直接影响模型同时处理文本、图像、音频和其他数据类型的效率。这些架构与早期的延迟减少策略齐头并进，为可靠和高效的部署提供了坚实的基础。

垂直与水平缩放

扩展多模态人工智能系统可以通过两种主要方法来实现：垂直扩展（升级单台机器）或水平扩展（添加更多机器）。在优化延迟方面，每种方法都有自己的优势。

垂直缩放 专注于通过增加 CPU 内核、RAM 或存储来增强单台计算机的硬件。这种方法对多模式工作流程特别有效，因为所有流程都在同一台机器上运行，从而消除了组件之间网络通信造成的延迟。因此，由于操作是集中化的，垂直扩展通常可以降低延迟。

水平缩放另一方面，涉及添加更多计算机来分发工作负载。虽然这可能会带来轻微的网络延迟，但它擅长并行处理任务。此方法非常适合一次处理多个语言模型请求或管理批处理图像处理任务等场景。水平扩展通过将工作负载分散到多台计算机来提高总体吞吐量。

缩放类型最适合延迟影响复杂性垂直单线程任务降低每次操作的延迟易于实现水平并行语言处理、高容量请求更高的吞吐量和一定的网络延迟需要分布式设置

混合方法通常效果最好。为简单起见，从垂直扩展开始，然后随着需求的增长逐渐纳入水平扩展。这使您可以随着系统的发展平衡成本、性能和可靠性。

选择扩展策略后，负载平衡对于保持平稳性能至关重要。

负载平衡在管理处理不同类型数据的多个模型中起着关键作用，每个模型都有独特的资源需求。通过有效分配工作负载，您可以防止瓶颈并确保稳定的性能。

基于使用情况的路由 监控每个模型的工作负载，并将请求从接近容量的模型转移出去。这样可以防止任何单个组件过载。 基于延迟的路由 更进一步，根据实时响应时间将请求定向到最快的可用端点。将这些策略组合到混合路由系统中，可以根据当前的需求，优先考虑节省成本或提高速度。

例如，SciForce为企业数据实施了混合查询路由系统，使LLM的使用量减少了37-46％，简单查询的响应时间缩短了32-38％。他们通过传统的搜索方法路由基本请求以及为更复杂的任务预留 LLM 来实现这一目标。同样，Snowflake的 “尤利西斯” 技术优化了长上下文LLM推理，在保持较高的GPU利用率的同时实现了3.4倍的处理速度。

专用推理服务器

专用推理服务器，例如 NVIDIA Triton 和 TensorFlow 服务，专为处理高吞吐量、低延迟的 AI 任务而设计。这些平台简化了跨各种框架的多模态人工智能系统的部署。

NVIDIA Triton 推理服务器 是一种多功能的开源解决方案，支持 TensorFlow 的模型， PyTorch， TensorRT， ONNX，以及 OpenVINO。根据英伟达的说法：

“Triton 推理服务器是一款开源推理服务软件，可简化人工智能推理。”

Triton 兼容云、数据中心、边缘和嵌入式环境，在 NVIDIA GPU、x86 和 ARM CPU 上运行，或 AWS Inferentia。它擅长处理实时、批处理、集成和音频/视频流媒体查询，使其成为多模态应用程序的绝佳选择。

Triton 的一个突出特点是 动态批处理，它将单个推理请求合并成更大的批次。这在不增加延迟的情况下显著增加了每秒的推理次数。此外，内存传输与计算的重叠进一步提高了性能。为了进一步提高效率，可以将TensorRT优化应用于ONNX和TensorFlow模型，将吞吐量提高一倍，同时将延迟减少一半。

对于云部署，顶点人工智能通过自定义支持 Triton 英伟达 GPU 云 (NGC) 容器。这些容器预先配置了必要的工具，可以有效地部署多个模型框架。此外， NUMA 优化 -为特定的主机策略分配模型实例-通过利用非统一内存访问属性最大限度地提高资源利用率。

要在吞吐量和延迟之间找到适当的平衡，通常需要对模型实例的数量进行试验。再加上自动缩放和负载均衡，专用的推理服务器即使在流量高峰期间也能确保稳定的性能。这些服务器对于实现多模态人工智能工作流程所需的实时响应能力至关重要。

缓存和资源管理方法

为了保持多模态人工智能系统的平稳高效运行，智能缓存、内存优化和资源感知调度起着至关重要的作用。这些方法共同作用，可以减少延迟、提高性能并充分利用您的部署架构。

缓存策略

在加速多模态人工智能系统方面，缓存可以改变游戏规则。通过避免冗余处理，它可以显著提高性能。有趣的是，大约 30-40% 的大型语言模型 (LLM) 请求与之前提出的问题相似，这使得缓存成为节省时间和资源的有效方式。

语义缓存通过关注查询背后的含义而不是精确匹配将缓存提升到一个新的水平。这种方法可以将文档问答任务的检索时间缩短3.4倍，在某些情况下，完全匹配查询的缩短高达123倍。嵌入式缓存等其他技术可存储输入的矢量表示以避免重复计算，而键值 (KV) 缓存可节省中级注意力计算，在 T4 GPU 上提供 300 个令牌输出的结果最多可快 5 倍。前缀缓存是另一个强大的工具，通过优化重复提示，可将聊天机器人和翻译服务等应用程序的成本降低多达90％。

缓存感知负载平衡通过将会话路由到可能已经缓存了所需上下文的服务器，从而提高了缓存命中率，从而进一步提高了效率。缓存到位后，下一步是专注于内存优化，以进一步减少延迟。

内存优化

内存限制可能会成为一个障碍，尤其是在多模态系统中处理大图像和文本时。有几种技术有助于在保持性能的同时最大限度地提高内存效率。

主成分分析 (PCA) 是压缩高维数据的有用工具，它可以减少计算需求并加快数据流。延迟加载和数据分片可确保仅加载必要的数据，从而避免不必要的瓶颈。模型修剪、量化和蒸馏等技术也可以在推理过程中减少内存占用。

专为特定模式设计的专业缓存机制可以进一步提高检索速度并减轻计算压力。例如，事实证明，在动态多模态设置中，智能缓存策略可将网络负载减少多达22％，并将缓存命中率提高至少 15%。优化缓存和内存后，重点将转移到资源调度上，以提高效率。

资源感知调度

有效管理资源是避免瓶颈和确保充分利用硬件潜力的关键。处理图像处理、文本生成和音频分析等任务的多模态系统可从量身定制的调度方法中受益匪浅。

模态感知批处理可识别每种类型的任务都有独特的要求。例如，图像处理通常最适合小到中等批量大小，而文本生成则在大批量时表现良好。特别是，交叉注意力模型可以显示出显著的性能差异，具体取决于模态的批处理方式。

阶段感知资源分配考虑了不同模型组件的特定需求。例如，与预填充和解码等语言模型操作相比，图像编码通常对 GPU 频率变化更为敏感。H100 等高端 GPU 在图像编码和 LLM 预填充等任务中往往表现更好，尽管优点可能因操作而异。

动态资源分配通过实时监控工作负载并相应地调整资源来增加另一层效率。工作负载感知自动扩展可确保在流量高峰期间扩大资源规模，在较平静的时段缩减资源，从而有助于在保持响应能力的同时避免过度配置。

根据模型中每个阶段的特定需求量身定制批处理策略和资源分配，可确保最佳性能和资源利用。

模态类型最佳批次大小主要资源需求排程优先级图像处理小号到中号 GPU 计算高（预处理）文本生成大号 GPU 内存中等（可以排队）音频分析中等平衡的 CPU/GPU 变量（取决于长度）

sbb-itb-f3c4398

使用平台工具进行延迟优化

优化延迟可能是一项技术要求很高的任务，但是专业平台通过管理底层基础设施来简化流程。这使您可以专注于制定高效的工作流程，而不会被系统复杂性所困扰。

最大限度地减少多模态系统中的延迟取决于不同 AI 组件之间的顺畅协作。像这样的平台 prompts.ai 擅长创建工作流程，将大型语言模型与文本、图像和音频处理工具连接起来，所有这些都在统一的环境中完成。这消除了因在不连续的系统之间传输数据而造成的延迟，从而实现了更快、更高效的数据交换。

更重要的是，这种集成不仅限于特定的提供商或架构。无论您是将大型语言模型与计算机视觉系统还是其他 AI 工具相结合，该平台都能简化链接这些组件的过程。随着应用程序变得越来越复杂，这种适应性变得越来越重要，为进一步减少延迟的高级功能奠定了基础。

实时协作和报告

统一的工作流程还为实时协作打开了大门，这是发现和解决延迟问题的关键。实时监控和自动报告等功能有助于及早发现瓶颈和资源冲突。然后，团队可以在整个组织内快速共享见解并应用优化策略，从而加快问题解决过程。

使用代币化跟踪进行经济实惠的扩展

有效管理资源对于平衡性能和成本至关重要。代币化跟踪提供了有关多模态工作流程如何使用计算资源的详细见解。通过确定工作流程的哪些部分消耗的代币最多，您可以将这些区域作为优化目标，直接影响成本和延迟。

即用即付模式与代币化跟踪相结合，提供了实时的改进机会。例如，通过监控令牌使用情况，您可以细化提示使其更加简洁，或者更有效地使用上下文提示。这些调整减少了代币数量，从而加快了处理速度和降低了成本。

代币优化的影响显而易见。在一个案例研究中 incident.io，将输出代币减少约50％导致延迟改善了40％。将输入令牌削减80％可改善20％的延迟，压缩输出格式可将延迟减少60％，同时将输出令牌减少70％。

像 prompts.ai 这样的平台可以更轻松地实施这些策略。通过使用提示模板执行常见任务，并根据性能数据不断对其进行细化，您可以构建既高效又可扩展的工作流程。令牌化跟踪可确保您的延迟优化工作在应用程序增长时保持成本效益。

延迟优化的关键要点

优化方法摘要

为了优化多模态人工智能系统的延迟，分层方法至关重要。通过将技术改进与高效的资源管理相结合，您可以解决系统瓶颈并实现显著的性能提升。

在 模型等级，专注于简化架构和修剪以减少计算需求。例如，削减50％的输出令牌可以将延迟减少约50％，但是减少相同数量的输入令牌通常只能将延迟提高1-5％。

基础设施升级 通过解决网络和处理效率低下造成的延迟来补充模型优化。粘性会话路由等技术可确保将来自同一会话的请求定向到同一个实例，重复使用先前处理过的数据。同样，积极的缓存方法（例如前缀缓存）可以将聊天机器人和翻译工具等应用程序中重复提示的成本降低多达90％。

当涉及到 部署架构，基于云的设置、本地解决方案和边缘计算之间的选择在平衡延迟和成本方面起着重要作用。虽然云环境提供可扩展性，但它们可能会带来网络延迟。本地设置可提供稳定的低延迟，但通常需要大量的初始投资。另一方面，边缘计算由于延迟最小，因此非常适合实时应用程序。此外，更小的优化模型可以在不影响用户满意度的前提下为高级型号代币节省40-70％的成本。

通过利用先进的平台工具持续减少延迟，可以进一步增强这些基本策略。