2025-03-17 新闻和博客

Triton 源码教程的 softmax 实现中,不做 warmup 的朴素实现快得多?!

我就只是去掉 warmup,其他啥都没做,代码是新下的(今天的日期是 2025/3/7)。感觉是虽然朴素实现没有同时塞下所有任务(任务多了),但是每个任务的计算量变小了。

感觉英伟达推 TensorRT-LLM 是在很努力巩固技术城池了

我不喜欢垄断。

2025/3/19 看到 marlin kernel 中的 bit hack 反量化算法都来自 FasterTransformer,深感震撼。

火山引擎分享用户数据换取 0.5M/day tokens

5 月 31 日结束,差不多是暑期实习要开始了,字节是要搞波大的?2025/3/19 刚发现这个已经是二期了。

B 站 up 主解读 DeepSeek 技术报告

【EZ 撸 paper: DeepSeek-V3 技术报告详细解读 part2 | 开源最强模型 | 性价比之王的核心技术 MLA】 https://www.bilibili.com/video/BV1HqFQezEMt/?share_source=copy_web&vd_source=2772e196cf84bbcdd0033756d77bfcce

发现了两个博客