鞭牛士 2 月 12 日音问,据豆包大模子团队音问,字节进步豆包大模子 Foundation 团队近期提议 UltraMem,一种相同将缱绻和参数解耦的寥落模子架构,在保证模子后果的前提下处治了推理的访存问题。据先容,该架构灵验处治了 MoE 推理时高额的访存问题,推理速率较 MoE 架构晋升 2-6 倍,推理本钱最高可裁减 83%。
践诺截止标明,西宾限制达 2000 万 value 的 UltraMem 模子,在同等缱绻资源下可同期达成业界率先的推理速率和模子性能,为构建数十亿限制 value 或 expert 开荒了新旅途。
据先容,UltraMem 是一种相同将缱绻和参数解耦的寥落模子架构,在保证模子后果的前提下处治了推理的访存问题。践诺截止标明,在参数和激活条目相易的情况下,UltraMem 在模子后果上特等了 MoE,并将推理速率晋升了 2-6 倍。此外,在常见 batch size 限制下九游娱乐(中国)有限公司-官方网站,UltraMem 的访存本钱真实与同缱绻量的 Dense 模子绝顶。