DDS-LOGO

FP8

8 位浮点(又称四分之一精度)。将模型精度降低至 FP8 不仅可以提升推理速度与效率,还能利用现代 GPU 的专用特性(如张量核心)。