Home
Publication
Blog
Talk
CV
Blog
English Blog
Can Better Cold-Start Strategies Improve RL Training for LLMs
Chinese Blog
ReMax: 一种高效,可替代PPO的RLHF算法
模仿学习理论与算法
WeChat Public Article
ICLR 2025 | 基于模块归因和干预的大型视觉语言模型幻觉缓解
i-Future报告|基于熵最大原则的大语言模型微调方法
Adam有了mini版:内存占用少一半,吞吐量提升50%
在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了
实现模仿学习样本效率的理论新突破,南栖提高效对抗式模仿学习算法