话题精选
读书
旅行
好物
极客
个人总结
所有博客
Chaofa Yuan
没有故事,写点技术,同时打点酱油。
访问博客
Gemini 2.5 Pro 是怎么炼成的?-- gemini 2.5 技术报告阅读笔记与思考
2025-06-念头通达
2025-05-35岁之前赚不到一千万是我的错吗?
自适应快慢思考推理模型(Adaptive Reasoning Model):Qwen3混合思考->字节AdaCoT->清华AdaptThinking
LLM MOE的进化之路,从普通简化 MOE,到 sparse moe,再到 deepseek 使用的 share_expert sparse moe
LLM activate function激活函数的进化之路,从 ReLU,GELU 到 SwiGLU(swishGLU)
2024,公开表达元年
手写大模型组件之Group Query Attention,从 MHA,MQA 到 GQA
LoRA 原理和 PyTorch 代码实现
手写 transformer decoder(CausalLM)
手写 Self-Attention 的四重境界,从 self-attention 到 multi-head self-attention
2020年过去了,我不怀念它