NVIDIA TensorRTA13B 推理

腾讯混元 (Hunyuan) 最新大语言模型 Hunyuan-A13B 今日发布,NVIDIA TensorRT-LLM 作为全球领先的 AI 推理加速引擎,现已提供全面高效的推理支持。开发者与企业用户现可借助 TensorRT-LLM 的强大优化能力,无缝部署并极致发挥混元模型的卓越性能,开启高效、稳定、低成本的大模型应用之旅。


腾讯混元:自研大模型的卓越力量


腾讯混元大模型 (Tencent Hunyuan) 是腾讯公司自主研发的全链路大语言模型及应用体系。基于强大的 Transformer 架构,该系列模型以其深厚的知识理解、精准的逻辑推理、流畅的文本生成(特别是卓越的中文创作能力)、复杂语境下的可靠任务执行能力著称,并具备多模态潜力。混元模型深度服务于腾讯内部海量业务场景,并持续向开发者及企业客户输出领先的 AI 能力。


最新混元模型的亮点聚焦:





TensorRT-LLM 加速大模型推理


NVIDIA TensorRT-LLM 提供了最新极致优化的计算 kernel、高性能 Attention 实现、多机多卡通信分布式支持、丰富的并行和量化策略等,向来是 NVIDIA GPU 上大语言模型 (LLM) 推理的性能标杆。此外,TensorRT-LLM 最近引入了 PyTorch backend,利用 PyTorch op 即可搭建、运行模型,极大简化了新模型的开发和调试;同时,它为模型的推理和配置提供了直观、简洁的 LLM API,方便模型的部署和运行。


针对 Hunyuan-A13B 的经典 GQA+MoE 结构,TensorRT-LLM 已经包含了模型基础组件的运行条件。然而,该模型的结构也有独特之处:其位置编码选用 Dynamic NTK Alpha scaling,而且 QK normalization 位于位置编码之后。利用 PyTorch backend 的编程灵活性,Hunyuan-A13B 模型得以在 TensorRT-LLM 上快速地开发并完善地运行,并提供 Tensor Parallel (TP) / Expert Parallel (EP) / FP8 量化等多种加速策略,实现了高性能推理。


基于 TensorRT-LLM 运行混元模型


以下将使用 PyTorch backend 进行模型性能基准测试以及服务化部署展示。


1. 性能基础测试示例


a. 准备 benchmarking 测试数据集和 extra-llm-api-config.yml 配置文件:


python3 /path/to/TensorRT-LLM/benchmarks/cpp/prepare_dataset.py \
    --tokenizer=/path/to/Hunyuan-A13B \
    --stdout token-norm-dist --num-requests=32768 \
    --input-mean=1024 --output-mean=1024 \
    --input-stdev=0 --output-stdev=0 > /path/to/dataset.txt




cat >/path/to/extra-llm-api-config.yml <


b. 使用 trtllm-bench 指令获取 benchmarking 数据


trtllm-bench \
      --model path/Hunyuan-A13B \
      --model_path /path/to/Hunyuan-A13B \
      throughput \
      --backend pytorch \
      --max_batch_size 128 \
      --max_num_tokens 16384 \
      --tp_size 2 \
      --dataset /path/to/dataset.txt \
      --extra_llm_api_options /path/to/extra-llm-api-config.yml \
      --streaming


2. 服务化部署示例


a. 使用 trtllm-serve 指令结合配置文件以启动服务


trtllm-serve \
  /path/to/HunYuan-A13B \
  --host localhost \
  --port 8000 \
  --backend pytorch \
  --max_batch_size 128 \
  --max_num_tokens 16384 \
  --tp_size 2 \
  --kv_cache_free_gpu_memory_fraction 0.95 \
  --extra_llm_api_options /path/to/extra-llm-api-config.yml


b. 使用 OpenAI API 进行模型推理调用


curl -X POST "http://localhost:8000/v1/chat/completions" \
  -H "Content-Type: application/json" \
  --data '{
    "model": "HunYuan/HunYuan-A13B",
           "Max_tokens": 1024,
           "Temperature": 0,
    "messages": [
      {
        "role": "user",
        "content": "What is Tencent HunYuan?"
      }
    ]
  }'


结语与展望:

加速生成式 AI 未来


未来,NVIDIA 技术专家团队将继续跟进混元模型的演进,探索更极致的推理加速技术(如新一代量化、更精细的算子融合、对 Blackwell 新特性的支持),不断刷新性能天花板。同时还将持续推动 TensorRT-LLM 与腾讯云 TI 平台、Hunyuan API 服务等生态的深度集成,提供更便捷的一站式混元模型部署与管理体验。


作者


王猛


NVIDIA 加速计算专家,专注于大语言模型和扩散模型的推理优化,对 NVIDIA TensorRT 和 TensorRT-LLM 拥有丰富的经验。

谷鋆


深度学习解决方案架构师。他于 2022 年加入 NVIDIA 解决方案架构师团队,专门为中国 CSP 进行 LLM 模型推理服务优化。

李博


2024 年加入 NVIDIA DevTech 团队,专注于 NVIDIA GPU 上 AI 模型推理的加速计算。目前他主要负责 TensorRT-LLM 中大语言模型的推理优化。

董纪莹


2025 年加入 NVIDIA DevTech 团队,专注于 NVIDIA GPU 上 AI 模型推理的加速计算。加入 NVIDIA 之后,她主要参加了 TensorRT-LLM 中大语言模型的推理优化。

袁劲飏


来自 NVIDIA DevTech 团队,从事企业用户 GPU 加速计算支持工作,目前主要负责大语言模型推理的性能优化工作。

更新时间:2025-07-01

标签:科技   模型   腾讯   性能   语言   团队   能力   极致   指令   架构   高效

1 2 3 4 5

上滑加载更多 ↓
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号

Top