文章

2025 年 AI 工程师必读清单 [译]

2025 年 AI 工程师必读清单 [译]

自从我们写了关于论文俱乐部的文章后,经常有人问我们:对于那些在工作中或与朋友一起从零开始的人,有什么推荐的阅读清单?我们最初参考了2023 年的 a16z 规范,但它需要 2025 年的更新,而且需要更注重实践。

在这里,我们为 AI 工程师精选「必读」论文。我们的设计目标是:

  • 选择约 50 篇论文(约一年每周一篇),可选择额外补充。这是一个任意的限制。

  • 告诉你为什么这篇论文重要,而不是简单地列出名字却没有有用的背景。

  • 对 AI 工程师来说非常实用;不会浪费时间在「Attention is All You Need」上,因为 1) 每个人 都从那里开始,2) 大多数人在工作中并不真正需要它。

我们最终为每个版块选择了 5 篇「论文」:

  • 第 1 节:前沿大语言模型
  • 第 2 节:基准和评测
  • 第 3 节:提示工程、上下文学习和思维链
  • 第 4 节:检索增强生成
  • 第 5 节:代理
  • 第 6 节:代码生成
  • 第 7 节:视觉
  • 第 8 节:语音
  • 第 9 节:图像/视频扩散
  • 第 10 节:微调

第 1 节:前沿大语言模型

  1. GPT1GPT2GPT3CodexInstructGPTGPT4 论文。不言自明。GPT3.54oo1o3 倾向于发布启动活动和系统卡片,而不是论文。

  2. Claude 3Gemini 1 论文用于了解竞争对手。最新版本是 Claude 3.5 SonnetGemini 2.0 Flash / Flash Thinking。还有 Gemma 2

  3. LLaMA 1Llama 2Llama 3 论文用于了解领先的开源模型。你也可以将 Mistral 7BMixtralPixtral 视为 Llama 家族树的一个分支。

  4. DeepSeek V1CoderMoEV2V3 论文。领先的(相对)开源模型实验室。

  5. Apple Intelligence 论文。它存在于每台 Mac 和 iPhone 中。

第 2 节:基准和评测

  1. MMLU 论文:主要的「知识」基准测试,还有 GPQABIG-Bench。2025 年前沿实验室使用 MMLU ProGPQA DiamondBIG-Bench Hard

  2. MuSR 论文:评估「长上下文」,还有 LongBenchBABILongRULER。解决 Lost in The Middle 和其他问题,使用 Needle in a Haystack

  3. MATH 论文:一个「数学竞赛问题」的集合。前沿实验室专注于 MATH 的子集:MATH Level 5、AIMEFrontierMathAMC10/AMC12

  4. IFEval 论文:领先的「指令跟随」评估工具,也是唯一被 Apple 采用的外部基准。另见 MT-Bench,它可以视为一种指令跟随评估形式。

  5. ARC AGI 挑战:一个著名的「抽象推理」IQ 测试基准,比许多快速饱和的基准存在更长时间。

第 3 节:提示工程、上下文学习和思维链

  1. The Prompt Report 论文:提示工程论文的综述(播客)。

  2. Chain-of-Thought 论文:多篇声称普及「思维链」的论文之一,还有 ScratchpadsLet’s Think Step By Step

  3. Tree of Thought 论文:引入「前瞻」和「回溯」(播客)。

  4. Prompt Tuning 论文:当提示不够用时,可以采用 Prefix-Tuning调整解码(例如通过熵)或表征工程

  5. Automatic Prompt Engineering 论文:越来越明显的是,人类在零样本提示方面表现不佳,而「提示本身」可以通过 LLM 增强。这方面最著名的实现是 DSPy 论文/框架。

第 4 节:检索增强生成

  1. 信息检索导论:推荐一本书可能有些不公平,但我们想强调的是 RAG 是一个 IR 问题,而 IR 已经有 60 年的历史,其中包括 TF-IDFBM25FAISSHNSW 等众多「无聊」但重要的技术。

  2. Meta RAG 论文:首次提出了检索增强生成的概念。原作者现已创立 Contextual 并提出了 RAG 2.0。现代 RAG 的「标配」包括 HyDE分块重排序器多模态数据 等。

  3. MTEB:大规模文本嵌入基准 论文:目前事实上的领导者,尽管存在一些已知问题。嵌入技术有众多相关论文,选择适合你的方法,如 OpenAINomic Embed、Jina v3、cde-small-v1 等。

  4. GraphRAG 论文:微软尝试为 RAG 添加知识图谱的研究,目前已经开源。2024 年 RAG 的重要趋势之一,与 ColBERT、ColPali 和 ColQwen 并列。

  5. RAGAS 论文:一个简单但实用的 RAG 评估工具,被 OpenAI 推荐。另见 Nvidia FACTS 框架LLM 中的外生幻觉

第 5 节:代理

  1. SWE-Bench 论文:现被 Anthropic、Devin 和 OpenAI 采用,可能是目前最高知名度的代理基准。技术上是一个编码基准,但更多用于测试代理而非原始 LLM。另见 SWE-AgentSWE-Bench MultimodalKonwinski Prize

  2. ReAct 论文:首次对工具使用和函数调用 LLM 进行了长期研究。这一领域的历史性贡献包括 ToolformerHuggingGPT

  3. MemGPT 论文:模拟长期运行代理记忆的方法之一,被 ChatGPTLangGraph 采用。

  4. Voyager 论文:Nvidia 提出的认知架构尝试,涵盖了课程、技能库、沙盒三个主要组件,目标是提高性能。

  5. Anthropic 关于构建有效代理的文章:2024 年的重要回顾,强调了「链接、路由、并行化、编排、评估和优化」的意义。另见 OpenAI Swarm

第 6 节:代码生成

  1. The Stack 论文:一个开放的数据集,与专注于代码的 The Pile 配对,开启了从 The Stack v2StarCoder 的优秀开源代码生成工作。

  2. 开源代码模型论文:例如 DeepSeek-CoderQwen2.5-CoderCodeLlama

  3. HumanEval/Codex 论文:代码生成领域的重要基准。尽管该基准已趋于饱和,但仍需了解它的核心意义。

  4. AlphaCodeium 论文:展示了如何通过「流程工程」来提升任何基础模型的性能。

  5. CriticGPT 论文:OpenAI 开发的工具,用于发现可能存在安全问题的代码。另见 Anthropic 的 SAE 分析

第 7 节:视觉

  1. 非 LLM 视觉工作:例如 YOLO 论文(现已更新至 v11),但需要注意其谱系。此外,越来越多的 Transformer 模型如 DETR 已超越 YOLO。

  2. CLIP 论文:Alec Radford 开创的第一个成功的视觉 Transformer (ViT),现已被 BLIPPaliGemma 等模型取代。

  3. MMVP 基准:用于量化 CLIP 的问题,等效于视觉版 MMLU。

  4. Segment Anything ModelSAM 2 论文:非常成功的图像和视频分割基础模型。

  5. 早期融合研究:例如 FlamingoChameleonReka Core。相比「后期融合」方法(如 LLaVA),早期融合表现出更大的潜力。

第 8 节:语音

  1. Whisper 论文:由 Alec Radford 开发的成功语音识别模型,其后续版本包括 v2v3distil-whisper,以及 v3 Turbo

  2. AudioPaLM 论文:在 PaLM 成为 Gemini 之前,这是谷歌语音研究的最后一次主要更新。另见 Meta 的 Llama 3 语音探索

  3. NaturalSpeech 论文:几种领先语音合成方法之一。其最新版本 v3 展示了更多创新。

  4. Kyutai Moshi 论文:一个令人印象深刻的全双工语音-文本开放权重模型,其高知名度演示令人关注。另见 Hume OCTAVE

  5. OpenAI 实时 API:缺失的手册:尽管前沿语音模型大多没有发表论文,但我们尽最大努力记录了 OpenAI 的实时 API。

第 9 节:图像/视频扩散

  1. Latent Diffusion 论文:即 Stable Diffusion 论文,其后续版本包括 SD2SDXLSD3。团队现正在开发 BFL Flux

  2. DALL-E / DALL-E-2 / DALL-E-3 论文:OpenAI 的图像生成模型。

  3. Imagen / Imagen 2 / Imagen 3 论文:谷歌的图像生成模型。另见 Ideogram

  4. Consistency Models 论文:这项蒸馏研究催生了 2023 年的快速绘画病毒传播,现已更新为 sCM

  5. Sora 博客文章:尽管文本转视频模型大多没有论文,但 DiT 论文 展示了相关方法。OpenSora 等竞争者正在快速崛起(Lilian Weng 的综述提供了更多背景)。

第 10 节:微调

  1. LoRA/QLoRA 论文:事实上的廉价模型微调方法,无论是在本地模型还是大型模型上都非常流行。

  2. DPO 论文:作为 PPO 的替代方案,现被 OpenAI 用于偏好微调。

  3. ReFT 论文:提出了聚焦于特征而非微调层的新方法。

  4. Orca 3/AgentInstruct 论文:探讨如何通过合成数据提升微调性能。

  5. RL/推理微调论文Let’s Verify Step By Step 提供了新方法,而 Noam Brown 的公开演讲 则进一步展示了实际应用。

我们建议查看 Unsloth 笔记本 和 HuggingFace 的如何在 2025 年微调开源 LLM 来了解完整流程。这显然是一个永无止境的深度话题,在极端情况下与研究科学家轨道重叠。


我们是否遗漏了什么明显的内容?这很有可能。请在下面评论,我们会更新并致谢以帮助社区。

阅读愉快!

感谢 Eugene YanVibhu Sapra 对这个清单提出的精彩建议。


原文作者:swyx
原文链接:https://www.latent.space/p/2025-papers

本文由作者按照 CC BY 4.0 进行授权