2025 年 AI 工程师必读清单 [译]
自从我们写了关于论文俱乐部的文章后,经常有人问我们:对于那些在工作中或与朋友一起从零开始的人,有什么推荐的阅读清单?我们最初参考了2023 年的 a16z 规范,但它需要 2025 年的更新,而且需要更注重实践。
在这里,我们为 AI 工程师精选「必读」论文。我们的设计目标是:
-
选择约 50 篇论文(约一年每周一篇),可选择额外补充。这是一个任意的限制。
-
告诉你为什么这篇论文重要,而不是简单地列出名字却没有有用的背景。
-
对 AI 工程师来说非常实用;不会浪费时间在「Attention is All You Need」上,因为 1) 每个人 都从那里开始,2) 大多数人在工作中并不真正需要它。
我们最终为每个版块选择了 5 篇「论文」:
- 第 1 节:前沿大语言模型
- 第 2 节:基准和评测
- 第 3 节:提示工程、上下文学习和思维链
- 第 4 节:检索增强生成
- 第 5 节:代理
- 第 6 节:代码生成
- 第 7 节:视觉
- 第 8 节:语音
- 第 9 节:图像/视频扩散
- 第 10 节:微调
第 1 节:前沿大语言模型
-
GPT1、GPT2、GPT3、Codex、InstructGPT、GPT4 论文。不言自明。GPT3.5、4o、o1 和 o3 倾向于发布启动活动和系统卡片,而不是论文。
-
Claude 3 和 Gemini 1 论文用于了解竞争对手。最新版本是 Claude 3.5 Sonnet 和 Gemini 2.0 Flash / Flash Thinking。还有 Gemma 2。
-
LLaMA 1、Llama 2、Llama 3 论文用于了解领先的开源模型。你也可以将 Mistral 7B、Mixtral 和 Pixtral 视为 Llama 家族树的一个分支。
-
Apple Intelligence 论文。它存在于每台 Mac 和 iPhone 中。
第 2 节:基准和评测
-
MMLU 论文:主要的「知识」基准测试,还有 GPQA 和 BIG-Bench。2025 年前沿实验室使用 MMLU Pro、GPQA Diamond 和 BIG-Bench Hard。
-
MuSR 论文:评估「长上下文」,还有 LongBench、BABILong 和 RULER。解决 Lost in The Middle 和其他问题,使用 Needle in a Haystack。
-
MATH 论文:一个「数学竞赛问题」的集合。前沿实验室专注于 MATH 的子集:MATH Level 5、AIME、FrontierMath、AMC10/AMC12。
-
IFEval 论文:领先的「指令跟随」评估工具,也是唯一被 Apple 采用的外部基准。另见 MT-Bench,它可以视为一种指令跟随评估形式。
-
ARC AGI 挑战:一个著名的「抽象推理」IQ 测试基准,比许多快速饱和的基准存在更长时间。
第 3 节:提示工程、上下文学习和思维链
-
The Prompt Report 论文:提示工程论文的综述(播客)。
-
Chain-of-Thought 论文:多篇声称普及「思维链」的论文之一,还有 Scratchpads 和 Let’s Think Step By Step。
-
Tree of Thought 论文:引入「前瞻」和「回溯」(播客)。
-
Prompt Tuning 论文:当提示不够用时,可以采用 Prefix-Tuning、调整解码(例如通过熵)或表征工程。
-
Automatic Prompt Engineering 论文:越来越明显的是,人类在零样本提示方面表现不佳,而「提示本身」可以通过 LLM 增强。这方面最著名的实现是 DSPy 论文/框架。
第 4 节:检索增强生成
-
信息检索导论:推荐一本书可能有些不公平,但我们想强调的是 RAG 是一个 IR 问题,而 IR 已经有 60 年的历史,其中包括 TF-IDF、BM25、FAISS、HNSW 等众多「无聊」但重要的技术。
-
Meta RAG 论文:首次提出了检索增强生成的概念。原作者现已创立 Contextual 并提出了 RAG 2.0。现代 RAG 的「标配」包括 HyDE、分块、重排序器、多模态数据 等。
-
MTEB:大规模文本嵌入基准 论文:目前事实上的领导者,尽管存在一些已知问题。嵌入技术有众多相关论文,选择适合你的方法,如 OpenAI、Nomic Embed、Jina v3、cde-small-v1 等。
-
GraphRAG 论文:微软尝试为 RAG 添加知识图谱的研究,目前已经开源。2024 年 RAG 的重要趋势之一,与 ColBERT、ColPali 和 ColQwen 并列。
-
RAGAS 论文:一个简单但实用的 RAG 评估工具,被 OpenAI 推荐。另见 Nvidia FACTS 框架 和 LLM 中的外生幻觉。
第 5 节:代理
-
SWE-Bench 论文:现被 Anthropic、Devin 和 OpenAI 采用,可能是目前最高知名度的代理基准。技术上是一个编码基准,但更多用于测试代理而非原始 LLM。另见 SWE-Agent、SWE-Bench Multimodal 和 Konwinski Prize。
-
ReAct 论文:首次对工具使用和函数调用 LLM 进行了长期研究。这一领域的历史性贡献包括 Toolformer 和 HuggingGPT。
-
Voyager 论文:Nvidia 提出的认知架构尝试,涵盖了课程、技能库、沙盒三个主要组件,目标是提高性能。
-
Anthropic 关于构建有效代理的文章:2024 年的重要回顾,强调了「链接、路由、并行化、编排、评估和优化」的意义。另见 OpenAI Swarm。
第 6 节:代码生成
-
The Stack 论文:一个开放的数据集,与专注于代码的 The Pile 配对,开启了从 The Stack v2 到 StarCoder 的优秀开源代码生成工作。
-
开源代码模型论文:例如 DeepSeek-Coder、Qwen2.5-Coder 和 CodeLlama。
-
HumanEval/Codex 论文:代码生成领域的重要基准。尽管该基准已趋于饱和,但仍需了解它的核心意义。
-
AlphaCodeium 论文:展示了如何通过「流程工程」来提升任何基础模型的性能。
-
CriticGPT 论文:OpenAI 开发的工具,用于发现可能存在安全问题的代码。另见 Anthropic 的 SAE 分析。
第 7 节:视觉
-
非 LLM 视觉工作:例如 YOLO 论文(现已更新至 v11),但需要注意其谱系。此外,越来越多的 Transformer 模型如 DETR 已超越 YOLO。
-
CLIP 论文:Alec Radford 开创的第一个成功的视觉 Transformer (ViT),现已被 BLIP 或 PaliGemma 等模型取代。
-
MMVP 基准:用于量化 CLIP 的问题,等效于视觉版 MMLU。
-
Segment Anything Model 和 SAM 2 论文:非常成功的图像和视频分割基础模型。
-
早期融合研究:例如 Flamingo、Chameleon 和 Reka Core。相比「后期融合」方法(如 LLaVA),早期融合表现出更大的潜力。
第 8 节:语音
-
Whisper 论文:由 Alec Radford 开发的成功语音识别模型,其后续版本包括 v2、v3 和 distil-whisper,以及 v3 Turbo。
-
AudioPaLM 论文:在 PaLM 成为 Gemini 之前,这是谷歌语音研究的最后一次主要更新。另见 Meta 的 Llama 3 语音探索。
-
NaturalSpeech 论文:几种领先语音合成方法之一。其最新版本 v3 展示了更多创新。
-
Kyutai Moshi 论文:一个令人印象深刻的全双工语音-文本开放权重模型,其高知名度演示令人关注。另见 Hume OCTAVE。
-
OpenAI 实时 API:缺失的手册:尽管前沿语音模型大多没有发表论文,但我们尽最大努力记录了 OpenAI 的实时 API。
第 9 节:图像/视频扩散
-
Latent Diffusion 论文:即 Stable Diffusion 论文,其后续版本包括 SD2、SDXL 和 SD3。团队现正在开发 BFL Flux。
-
Consistency Models 论文:这项蒸馏研究催生了 2023 年的快速绘画病毒传播,现已更新为 sCM。
-
Sora 博客文章:尽管文本转视频模型大多没有论文,但 DiT 论文 展示了相关方法。OpenSora 等竞争者正在快速崛起(Lilian Weng 的综述提供了更多背景)。
第 10 节:微调
-
ReFT 论文:提出了聚焦于特征而非微调层的新方法。
-
Orca 3/AgentInstruct 论文:探讨如何通过合成数据提升微调性能。
-
RL/推理微调论文:Let’s Verify Step By Step 提供了新方法,而 Noam Brown 的公开演讲 则进一步展示了实际应用。
我们建议查看 Unsloth 笔记本 和 HuggingFace 的如何在 2025 年微调开源 LLM 来了解完整流程。这显然是一个永无止境的深度话题,在极端情况下与研究科学家轨道重叠。
我们是否遗漏了什么明显的内容?这很有可能。请在下面评论,我们会更新并致谢以帮助社区。
阅读愉快!
感谢 Eugene Yan 和 Vibhu Sapra 对这个清单提出的精彩建议。
原文作者:swyx
原文链接:https://www.latent.space/p/2025-papers