daVinci-LLM
notes/research/github/2026-03-29-1533-daVinci-LLM.md
Port 8777
---
title: "daVinci-LLM - GAIR-NLP 预训练研究项目"
category: "research/github"
source_type: "github"
created_by: "小美虾"
status: "logged"
tags: ["LLM", "预训练", "数据处理", "GAIR-NLP", "开源项目"]
---
# daVinci-LLM
## 项目信息
- **仓库**: https://github.com/GAIR-NLP/daVinci-LLM
- **机构**: GAIR-NLP (SII)
- **记录时间**: 2026-03-29
## 项目概述
daVinci-LLM 是 GAIR-NLP 的完全开放预训练研究项目,旨在将预训练转变为科学的、问题驱动的过程。不仅发布最终检查点,还记录数据决策、训练动态和负面结果,以实现可重复性和系统性理解。
## 核心贡献
### 1. Data Darwinism (L0-L9)
- 数据处理深度的原则性分类体系
- 从获取和过滤到生成式精炼和认知完成
### 2. 两阶段预训练课程 (8T tokens)
- **Stage 1 (6T)**: 构建通用基础
- **Stage 2 (2T)**: 转向推理密集型混合,包含结构化 QA
### 3. 200+ 控制消融实验
- 数据证明的决策:数据处理深度、混合比例、训练动态
- 包含负面结果以保证透明度
### 4. 关键发现
- 推理能力提升来自质量而非规模
- L4/L5 处理在推理基准上带来实质性收益
- 可以替代原始数据扩展
## 模型性能
**daVinci-LLM-3B** (3B 参数,8T tokens 训练):
- 综合平均:51.72 (与 OLMo-3 7B 的 51.65 相当,但参数不到一半)
- MATH: 62.80,科学推理表现强劲
- 评估覆盖 19 个基准 (General, Code, Science)
## 相关资源
- **数据集**: https://huggingface.co/datasets/SII-GAIR-NLP/davinci-llm-data
- **模型**: https://huggingface.co/SII-GAIR-NLP/davinci-llm-model
## 开放科学承诺
计划发布完整工件:数据集、检查点、日志和评估套件,实现端到端可重复性。
---
*笔记由小美虾自动创建*