TRT LLM 用于推理

在 DGX Spark 上安装和使用 TensorRT-LLM

概述

NVIDIA TensorRT-LLM (TRT-LLM) 是一个用于在 NVIDIA GPU 上优化和加速大型语言模型（LLM）推理的开源库。

它提供了高效内核、内存管理和并行策略——如张量并行、流水线并行和序列并行——使开发人员能够以更低的延迟和更高的吞吐量提供 LLM。

TRT-LLM 与 Hugging Face 和 PyTorch 等框架集成，使大规模部署前沿模型变得更加容易。

你将在 DGX Spark 上设置 TensorRT-LLM 以优化和部署大型语言模型，通过内核级优化、高效内存布局和高级量化，实现比标准 PyTorch 推理显著更高的吞吐量和更低的延迟。

DGX Spark 设备
与 CUDA 12.x 兼容的 NVIDIA 驱动程序：nvidia-smi
安装 Docker 并配置 GPU 支持：docker run --rm --gpus all nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc13 nvidia-smi
带有模型访问令牌的 Hugging Face 账户：echo $HF_TOKEN
足够的 GPU VRAM（70B 模型建议 40GB+）
用于下载模型和容器镜像的互联网连接
网络：主机上打开 TCP 端口 8355（LLM）和 8356（VLM）以支持 OpenAI 兼容服务

以下模型支持在 Spark 上使用 TensorRT-LLM。所有列出的模型均可使用：

模型	量化	支持状态	HF Handle
Nemotron-3-Nano-Omni-30B-A3B-Reasoning	BF16	✅	`nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16`
Nemotron-3-Nano-Omni-30B-A3B-Reasoning	FP8	✅	`nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8`
Nemotron-3-Nano-Omni-30B-A3B-Reasoning	NVFP4	✅	`nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4`
Nemotron-3-Super-120B	NVFP4	✅	`nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4`
GPT-OSS-20B	MXFP4	✅	`openai/gpt-oss-20b`
GPT-OSS-120B	MXFP4	✅	`openai/gpt-oss-120b`
Llama-3.1-8B-Instruct	FP8	✅	`nvidia/Llama-3.1-8B-Instruct-FP8`
Llama-3.1-8B-Instruct	NVFP4	✅	`nvidia/Llama-3.1-8B-Instruct-FP4`
Llama-3.3-70B-Instruct	NVFP4	✅	`nvidia/Llama-3.3-70B-Instruct-FP4`
Qwen3-8B	FP8	✅	`nvidia/Qwen3-8B-FP8`
Qwen3-8B	NVFP4	✅	`nvidia/Qwen3-8B-FP4`
Qwen3-14B	FP8	✅	`nvidia/Qwen3-14B-FP8`
Qwen3-14B	NVFP4	✅	`nvidia/Qwen3-14B-FP4`
Qwen3-32B	NVFP4	✅	`nvidia/Qwen3-32B-FP4`
Phi-4-multimodal-instruct	FP8	✅	`nvidia/Phi-4-multimodal-instruct-FP8`
Phi-4-multimodal-instruct	NVFP4	✅	`nvidia/Phi-4-multimodal-instruct-FP4`
Phi-4-reasoning-plus	FP8	✅	`nvidia/Phi-4-reasoning-plus-FP8`
Phi-4-reasoning-plus	NVFP4	✅	`nvidia/Phi-4-reasoning-plus-FP4`
Qwen3-30B-A3B	NVFP4	✅	`nvidia/Qwen3-30B-A3B-FP4`
Llama-4-Scout-17B-16E-Instruct	NVFP4	✅	`nvidia/Llama-4-Scout-17B-16E-Instruct-FP4`
Qwen3-235B-A22B (仅两个 Sparks)	NVFP4	✅	`nvidia/Qwen3-235B-A22B-FP4`

[!NOTE] 你可以使用 NVFP4 量化文档为你的最爱模型生成自己的 NVFP4 量化检查点。这使你能够享受 NVFP4 量化带来的性能和内存优势，即使对于 NVIDIA 尚未发布的模型也是如此。

提醒：并非所有模型架构都支持 NVFP4 量化。