Home

Publication

Blog

Talk

CV

Blog

English Blog

Can Better Cold-Start Strategies Improve RL Training for LLMs

Chinese Blog

ReMax: 一种高效，可替代PPO的RLHF算法
模仿学习理论与算法

WeChat Public Article

ICLR 2025 | 基于模块归因和干预的大型视觉语言模型幻觉缓解

i-Future报告｜基于熵最大原则的大语言模型微调方法
Adam有了mini版：内存占用少一半，吞吐量提升50%
在RTX 4090被限制的时代下，让大模型使用RLHF更高效的方法来了
实现模仿学习样本效率的理论新突破，南栖提高效对抗式模仿学习算法