はじめに

NVIDIAが提供するTensorRT-LLMは、大規模言語モデルの推論を極限まで最適化するためのライブラリです。

最適化の手法

  • 量子化(INT8, FP8)
  • PagedAttention
  • カーネルフュージョン