报 告 人:张丹,清华大学
报告时间:2024年12月7日(周六)9:30-11:30
报告地点:中国农业大学东区 信息与电气工程学院237会议室
联 系 人:马老师 13391809180
邮 箱:sockline@163.com
报告人简介:
张丹,清华大学计算机科学技术系四年级博士生,由国家杰出青年基金项目获得者唐杰教授指导。2023年,在California Institute of Technology(简称Caltech,美国加州理工学院)进行学生访问,合作导师为Prof. Yisong Yue。于2021年获得清华大学软件学院硕士学位。主要进行大模型推理的相关研究,致力于开发能够有效处理复杂科学推理场景的可靠生成式人工智能模型。
报告摘要:
大型语言模型 (LLM) 用于构建各种复杂的任务,但目前尚难以解决需要规划和自我改进的复杂科学任务。在本次报告中,主要讨论通过采用指令调整和自我训练技术来实现有效推理,从而赋能 LLM 的研究。首先介绍最新研究工作-科学大语言模型SciGLM,重点介绍其在解决复杂的科学和数学推理问题方面的能力。然后,将介绍ReST-MCTS*工作,一种自我强化的训练方法,该方法基于将过程奖励指导与树搜索MCTS*相结合,用于收集更高质量的推理轨迹以及每步值来训练策略和奖励模型。最后,将总结研究中遇到的挑战,并规划出未来的潜在方向。