新浪科技讯 2月24日上昼音问,在上周DeepSeek文告本周将是开源周(OpenSourceWeek),并将贯穿开源五个软件库后。当天,DeepSeek文告开源了开源周首款用于Hopper GPU的高效型MLA解码核——FlashMLA。
新浪科技留心到,在GitHub上,当今该神色如故得益了稀薄1700star,何况领有62个Fork。
MLA是DeepSeek V2-V3系列大模子最为紧迫技巧改进,主要用于减少推理历程的KV Cache,进而裁减推理本钱。据DeepSeek先容,FlashMLA是Hopper GPUs的灵验MLA解码内核,可针对可变长度序列进行优化,当今主要发布包括:1、 BF16;2、块大小为64 的分页kvcache。
在基准测试性能进展上,FlashMLA在英伟达H800 SXM5 GPU上可完竣3000 GB/s 的内存速率以及580TFLOPS的接头上限。(文猛)
背负裁剪:郝欣煜 kaiyun官方网站