daVinci-LLM

notes/research/github/2026-03-29-1533-daVinci-LLM.md

Port 8777
path
notes/research/github/2026-03-29-1533-daVinci-LLM.md
--- title: "daVinci-LLM - GAIR-NLP 预训练研究项目" category: "research/github" source_type: "github" created_by: "小美虾" status: "logged" tags: ["LLM", "预训练", "数据处理", "GAIR-NLP", "开源项目"] --- # daVinci-LLM ## 项目信息 - **仓库**: https://github.com/GAIR-NLP/daVinci-LLM - **机构**: GAIR-NLP (SII) - **记录时间**: 2026-03-29 ## 项目概述 daVinci-LLM 是 GAIR-NLP 的完全开放预训练研究项目,旨在将预训练转变为科学的、问题驱动的过程。不仅发布最终检查点,还记录数据决策、训练动态和负面结果,以实现可重复性和系统性理解。 ## 核心贡献 ### 1. Data Darwinism (L0-L9) - 数据处理深度的原则性分类体系 - 从获取和过滤到生成式精炼和认知完成 ### 2. 两阶段预训练课程 (8T tokens) - **Stage 1 (6T)**: 构建通用基础 - **Stage 2 (2T)**: 转向推理密集型混合,包含结构化 QA ### 3. 200+ 控制消融实验 - 数据证明的决策:数据处理深度、混合比例、训练动态 - 包含负面结果以保证透明度 ### 4. 关键发现 - 推理能力提升来自质量而非规模 - L4/L5 处理在推理基准上带来实质性收益 - 可以替代原始数据扩展 ## 模型性能 **daVinci-LLM-3B** (3B 参数,8T tokens 训练): - 综合平均:51.72 (与 OLMo-3 7B 的 51.65 相当,但参数不到一半) - MATH: 62.80,科学推理表现强劲 - 评估覆盖 19 个基准 (General, Code, Science) ## 相关资源 - **数据集**: https://huggingface.co/datasets/SII-GAIR-NLP/davinci-llm-data - **模型**: https://huggingface.co/SII-GAIR-NLP/davinci-llm-model ## 开放科学承诺 计划发布完整工件:数据集、检查点、日志和评估套件,实现端到端可重复性。 --- *笔记由小美虾自动创建*