Danh sách đọc dành cho kỹ sư AI năm 2025

(latent.space)

45 điểm bởi GN⁺ 2025-01-14 | 3 bình luận | Chia sẻ qua WhatsApp

Chọn lọc 50 bài báo, mô hình và blog dành cho kỹ sư AI, được chia thành 10 lĩnh vực
Bao gồm các lĩnh vực LLMs, benchmark, prompting, RAG, agent, sinh mã, thị giác, giọng nói, khuếch tán và fine-tuning

Phần 1: LLMs tuyến đầu

Các mô hình của OpenAI
- GPT1 (bài báo), GPT2 (bài báo), GPT3 (bài báo), Codex (bài báo), InstructGPT (bài báo), GPT4 (bài báo)
- GPT3.5 (giới thiệu ChatGPT), 4o (giới thiệu GPT-4o), o1 (bản xem trước o1), o3 (thẻ hệ thống)
Các mô hình của Anthropic và Google
- Claude 3 (bài báo), Gemini 1 (bài báo)
- Claude 3.5 Sonnet (chi tiết), Gemini 2.0 Flash (blog chính thức), Flash Thinking (tài liệu Gemini API), Gemma 2 (bài báo)
Dòng LLaMA liên quan đến Meta
- LLaMA 1 (bài báo), LLaMA 2 (bài báo), LLaMA 3 (bài báo)
- Mô hình mở rộng: Mistral 7B (bài báo), Mixtral (bài báo), Pixtral (bài báo)
Các mô hình DeepSeek
- DeepSeek V1 (bài báo), Coder (bài báo), MoE (bài báo), V2 (bài báo), V3 (GitHub)
Apple Intelligence
- Apple Intelligence (bài báo) - mô hình được tích hợp trên mọi máy Mac và iPhone
Các mô hình và nghiên cứu bổ sung đáng chú ý
- Mô hình LLM
  - Dòng AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - Khác: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Nghiên cứu về Scaling Laws
  - Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- Các mô hình tối tân:
  - o1, o3, R1, QwQ, QVQ, f1
- Nghiên cứu về mô hình reasoning:
  - Let’s Verify Step By Step, STaR, bài nói chuyện của Noam Brown

Phần 2: Benchmark và đánh giá

MMLU
- MMLU (bài báo): tiêu chuẩn cho benchmark kiến thức đa lĩnh vực
  - Nghiên cứu tiên tiến nhất năm 2025 sử dụng MMLU Pro (bài báo), GPQA Diamond (bài báo), BIG-Bench Hard (bài báo)
- GPQA (bài báo): tập trung vào tạo câu hỏi và đánh giá đáp án
- BIG-Bench (bài báo): benchmark quy mô lớn bao gồm nhiều dạng bài toán
MuSR (bài báo): đánh giá trong ngữ cảnh dài
- Nghiên cứu liên quan: LongBench (bài báo), BABILong (bài báo), RULER (giới thiệu)
- Các vấn đề cần giải quyết: Lost in the Middle (bài báo), Needle in a Haystack (GitHub)
MATH (bài báo): tuyển tập bài toán thi toán
- Nghiên cứu tiên tiến tập trung vào FrontierMath (bài báo) và các bài toán độ khó cao
- Tập con: MATH Level 5, AIME, AMC10/AMC12
IFEval (bài báo): benchmark chính để đánh giá khả năng tuân theo chỉ dẫn
- Được Apple chính thức áp dụng (liên kết)
- Benchmark liên quan: MT-Bench (bài báo)
ARC AGI (trang chính thức): benchmark về suy luận trừu tượng và “bài kiểm tra IQ”
- Có tính bền vững dài hạn, không giống các benchmark khác nhanh chóng bão hòa
Tài liệu tham khảo bổ sung
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: phân tích chuyên sâu về benchmark
- Tài liệu liên quan đến LLM: LLM-as-Judge, Applied LLMs
- Tài nguyên dataset: Datasets

Phần 3: Prompting, ICL và chuỗi suy nghĩ

GPT-3 và In-Context Learning (ICL)
- Bài báo GPT-3(bài báo): giới thiệu khái niệm In-Context Learning (ICL)
- ICL có liên hệ chặt chẽ với prompting, cho phép LLM học và áp dụng ngay trong ngữ cảnh
- Prompt Injection: thao túng prompt và các vấn đề bảo mật (tổng hợp của Lilian Weng, chuỗi bài của Simon Willison)
The Prompt Report: khảo sát các bài báo liên quan đến prompting
- Tổng quan: tóm tắt sự phát triển tổng thể của kỹ thuật prompting và các xu hướng mới nhất (podcast liên quan)
Chain-of-Thought (CoT):
- Mô hình hóa quy trình suy nghĩ từng bước
- Nghiên cứu liên quan:
  - Scratchpads (bài báo)
  - Let’s Think Step By Step (bài báo)
Tree of Thought:
- Giới thiệu các khái niệm Lookahead và Backtracking
- Phương pháp hiệu quả để giải quyết các vấn đề phức tạp (podcast liên quan)
Prompt Tuning:
- Có thể điều chỉnh hiệu năng mô hình mà không cần prompt:
  - Prefix-Tuning (bài báo)
  - Điều chỉnh decoding dựa trên entropy (GitHub)
  - Representation Engineering (blog)
Automatic Prompt Engineering:
- Phương pháp để LLM tự tạo và tối ưu prompt
- Được triển khai trong framework DSPy (bài báo)
Không chỉ các bài báo nghiên cứu, các hướng dẫn thực tiễn cũng hữu ích:
- Blog Prompt Engineering của Lilian Weng
- Hướng dẫn Prompting của Eugene Yan
- Tutorial và workshop của Anthropic:
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

Phần 4: RAG (Retrieval-Augmented Generation)

Introduction to Information Retrieval: tài liệu tham khảo kinh điển trình bày các nền tảng của truy hồi thông tin
- RAG là một bài toán truy hồi thông tin (IR), có liên hệ chặt chẽ với một lĩnh vực có lịch sử hơn 60 năm
- Các kỹ thuật chính:
  - TF-IDF, BM25: tìm kiếm dựa trên văn bản
  - FAISS, HNSW: tìm kiếm vector và truy tìm lân cận gần nhất
Meta RAG (bài báo năm 2020) : nơi thuật ngữ RAG lần đầu xuất hiện
- HyDE (tài liệu)
- Chunking (nghiên cứu)
- Rerankers (blog Cohere)
- Xử lý dữ liệu đa phương thức (YouTube)
MTEB: benchmark đánh giá embedding
- Tranh cãi và giới hạn (thảo luận liên quan)
- Ví dụ về mô hình embedding:
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (blog HuggingFace)
GraphRAG: tích hợp RAG và đồ thị tri thức của Microsoft
- GraphRAG:
  - tích hợp đồ thị tri thức vào quy trình RAG để cung cấp kết quả tốt hơn trên dữ liệu cá nhân
  - đã được mã nguồn mở hóa (blog Microsoft)
- Nghiên cứu liên quan:
  - ColBERT, ColPali, ColQwen
RAGAS: phương pháp đánh giá RAG đơn giản được OpenAI khuyến nghị
- Nvidia FACTS Framework (bài báo)
- Extrinsic Hallucinations in LLMs (khảo sát của Lilian Weng)
- Recall vs Precision của Jason Wei (tweet)
Quảng cáo
Tài liệu học tập và thực hành RAG
- LlamaIndex (tài liệu, khóa học)
- LangChain (tài liệu, video hướng dẫn)
- RAG vs Long Context Debate:
  - bài báo: so sánh RAG với cách tiếp cận ngữ cảnh dài

Phần 5: Agent

SWE-Bench:
- Benchmark tiêu biểu để đánh giá agent (tập trung vào lập trình)
- Được Anthropic, Devin, OpenAI và nhiều bên khác áp dụng nên nhận được nhiều chú ý
- Tài liệu liên quan:
  - SWE-Agent (bài báo)
  - SWE-Bench Multimodal (bài báo)
  - Konwinski Prize (website)
- So sánh: WebArena (GitHub), SWE-Gym (tweet liên quan)
ReAct:
- Điểm khởi đầu của nghiên cứu LLM về sử dụng công cụ và function calling
- Nghiên cứu liên quan:
  - Gorilla (leaderboard)
  - Toolformer (bài báo)
  - HuggingGPT (bài báo)
MemGPT:
- Cách tiếp cận mô phỏng bộ nhớ dài hạn
- Ứng dụng chính:
  - Tính năng bộ nhớ và điều khiển của ChatGPT
  - Bộ nhớ episodic của LangGraph
- Hệ thống liên quan:
  - MetaGPT (bài báo)
  - AutoGen (bài báo)
  - Smallville (GitHub)
Voyager:
- Cách tiếp cận kiến trúc nhận thức của Nvidia:
  - Cải thiện hiệu năng bằng cách tận dụng curriculum, skill library, sandbox
- Mở rộng khái niệm:
  - Agent Workflow Memory (bài báo)
Building Effective Agents của Anthropic:
- Tổng kết cốt lõi về thiết kế agent trong năm 2024
- Chủ đề chính:
  - chaining, routing, parallelization, orchestration, evaluation, optimization
- Tài liệu liên quan:
  - Nghiên cứu về agent của Lilian Weng
  - Nghiên cứu về LLM agent của Shunyu Yao
  - Tổng quan agent năm 2025 của Chip Huyen
Tài liệu và bài giảng học thêm
- Thiết kế agent mới nhất năm 2024: tổng hợp NeurIPS
- MOOC của UC Berkeley: khóa học LLM Agents
- Thảo luận về định nghĩa agent: nếu cần, tham khảo định nghĩa này

Phần 6: Sinh mã (CodeGen)

The Stack paper
- Bắt đầu như một cặp dataset mở tập trung vào mã nguồn của The Pile
- Công việc tiếp nối:
  - The Stack v2: dataset được cải tiến
  - StarCoder: mô hình sinh mã được tối ưu hóa
Quảng cáo
Các bài báo về mô hình mã nguồn mở
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- Nhiều người đánh giá Claude 3.5 Sonnet là mô hình code tốt nhất, nhưng không có bài báo chính thức
HumanEval/Codex
- Benchmark thiết yếu trong lĩnh vực lập trình (hiện đã bão hòa)
- Các benchmark thay thế hiện đại:
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - Nổi tiếng với đánh giá xoay quanh agent, nhưng tốn kém và tập trung vào đánh giá agent hơn là mô hình
AlphaCodeium
- Dựa trên hiệu năng của AlphaCode và AlphaCode2 từ Google
- Tận dụng Flow Engineering để cải thiện mạnh hiệu năng của các mô hình hiện có
CriticGPT
- Tập trung vào việc phát hiện các vấn đề bảo mật phát sinh khi sinh mã
  - CriticGPT của OpenAI được huấn luyện để nhận diện các vấn đề bảo mật
  - Anthropic sử dụng SAEs (Safety-relevant Activation Ensembles) để phân tích các đặc trưng LLM gây ra vấn đề (nghiên cứu)
Sinh mã trong ngành đang chuyển trọng tâm từ nghiên cứu sang triển khai thực tế:
- Sử dụng các code agent như Devin (video)
- Lời khuyên thực tiễn về sinh mã (YouTube)

Phần 7: Thị giác

Nghiên cứu thị giác dựa trên non-LLM
- YOLO:
  - Nổi tiếng là mô hình phát hiện đối tượng theo thời gian thực
  - Hiện đã phát triển đến v11 (GitHub)
  - Nghiên cứu gần đây: các mô hình transformer dựa trên DETR cho thấy hiệu năng vượt YOLO
- Tham khảo: chú ý đến các phiên bản khác nhau và hệ phả phát triển của YOLO (thảo luận liên quan)
CLIP:
- Một ví dụ thành công của mô hình đa phương thức dựa trên ViT
- Các mô hình mới nhất:
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- CLIP vẫn là kiến thức nền quan trọng
MMVP benchmark:
- Đánh giá các giới hạn của CLIP
- Phiên bản đa phương thức: MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM):
- Mô hình tiêu biểu cho phân đoạn ảnh và video
- Nghiên cứu kế tiếp: SAM 2 (podcast liên quan)
- Mô hình bổ trợ: GroundingDINO
Early Fusion vs Late Fusion:
- Late Fusion: LLaVA (podcast)
- Early Fusion:
  - Flamingo của Meta
  - Chameleon
  - AIMv2 của Apple
  - Core của Reka
- Tài liệu tham khảo: dòng chảy nghiên cứu thị giác đa phương thức
Các công trình mới nhất chưa xuất bản:
- GPT4V System Card và các nghiên cứu phái sinh (bài báo)
- OpenAI 4o:
  - Tinh chỉnh 4o Vision
- Các mô hình mới nhất:
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - Các mô hình khác:
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ
  Quảng cáo

Phần 8: Âm thanh

Whisper:
- Mô hình ASR thành công của OpenAI
- Các phiên bản chính:
  - Whisper v2 (thảo luận liên quan)
  - Whisper v3 (thảo luận liên quan)
  - Distil-Whisper (GitHub)
  - Whisper v3 Turbo (phân tích)
- Whisper cung cấp nhiều mô hình trọng số mở, nhưng một số phiên bản không có bài báo
AudioPaLM:
- AudioPaLM của Google là nghiên cứu trước khi chuyển từ PaLM sang Gemini
- Tham khảo: khám phá giọng nói của Llama 3 từ Meta (bài báo)
NaturalSpeech:
- Một trong những nghiên cứu TTS quan trọng
- Gần đây đã được cập nhật lên v3 (bài báo)
Kyutai Moshi:
- Mô hình trọng số mở giọng nói-văn bản song công hoàn toàn
- Demo chất lượng cao (YouTube)
- Mô hình tham khảo: Hume OCTAVE (blog)
OpenAI Realtime API: The Missing Manual:
- Tài liệu không chính thức về API giọng nói thời gian thực của OpenAI
- Công cụ quan trọng cho các tác vụ tác nhân và thời gian thực mới nhất
Khuyến nghị nhiều giải pháp đa dạng ngoài các phòng thí nghiệm lớn:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Tham khảo: State of Voice AI 2024
- Mô hình giọng nói của NotebookLM:
  - Dù mô hình chưa được công khai, vẫn có giải thích chuyên sâu về quy trình mô hình hóa
Gemini 2.0: mô hình đa phương thức tích hợp tự nhiên giọng nói và thị giác
- Sau năm 2025: sự hội tụ giữa hai modality giọng nói và thị giác đang phát triển thành một lộ trình rõ ràng

Phần 9: Khuếch tán ảnh/video

Latent Diffusion:
- Bài báo cốt lõi của Stable Diffusion
- Các phiên bản mở rộng:
  - SD2 (công bố chính thức)
  - SDXL và SD3
- Hiện tại nhóm đang phát triển BFL Flux
Dòng OpenAI DALL-E:
- DALL-E, DALL-E-2, DALL-E-3
Dòng Google Imagen:
- Imagen, Imagen 2, Imagen 3
- Tham khảo: Ideogram
Consistency Models:
- Công việc chưng cất các mô hình diffusion
- Mở rộng:
  - LCMs
  - Cập nhật mới nhất: sCMs
Sora:
- Công cụ chuyển văn bản thành video của OpenAI (không có bài báo chính thức)
- Tham khảo:
  - bài báo DiT (cùng tác giả)
  - OpenSora: mô hình cạnh tranh dựa trên open weights
  - tổng hợp của Lilian Weng
Quảng cáo
ComfyUI:
- Được chú ý như giao diện người dùng cho các mô hình thị giác (phỏng vấn liên quan)
Lĩnh vực chuyên biệt:
- Text Diffusion: mô hình diffusion cho văn bản
- Music Diffusion: diffusion tạo nhạc
- Autoregressive Image Generation: sinh ảnh tự hồi quy
Cạnh tranh Open Weights:
- Text-to-Video Arena
Hiểu các xu hướng mới nhất:
- Ứng dụng các mô hình Stable Diffusion và DALL-E
- Nghiên cứu về sự hội tụ giữa các modality văn bản và video

Phần 10: Fine-tuning mô hình

LoRA/QLoRA:
- Tiêu chuẩn cho fine-tuning mô hình chi phí thấp
- Ứng dụng chính:
  - Hỗ trợ cả trên mô hình cục bộ và 4o của OpenAI (xem podcast)
  - FSDP+QLoRA: tài liệu đào tạo
DPO:
- Được hỗ trợ trong Preference Finetuning của OpenAI
- Phổ biến như một lựa chọn thay thế cho PPO (bài báo), nhưng hiệu năng có phần thấp hơn
ReFT:
- Tập trung vào các feature của mô hình thay vì fine-tuning một vài layer hiện có
- Cách tiếp cận fine-tuning hiệu quả
Orca 3/AgentInstruct:
- Phương pháp phù hợp để tạo dữ liệu tổng hợp
- Nghiên cứu liên quan:
  - Synthetic Data Picks của NeurIPS
Tinh chỉnh RL:
- RL Finetuning for o1 của OpenAI là tài liệu còn gây tranh cãi nhưng quan trọng
- Nghiên cứu liên quan:
  - Let’s Verify Step By Step
  - bài giảng của Noam Brown
Notebook của Unsloth:
- Cung cấp các notebook thiên về thực hành trên GitHub
Hướng dẫn của HuggingFace:
- How to fine-tune open LLMs: hướng dẫn chuyên sâu về toàn bộ quy trình fine-tuning

Kết lại danh sách đọc năm 2025 cho kỹ sư AI

Danh sách này có thể rất đồ sộ và gây choáng ngợp, nhưng bỏ dở giữa chừng cũng không sao. Điều quan trọng là bắt đầu lại
Sẽ tiếp tục được cập nhật trong năm 2025 để duy trì tính thời sự
Bạn hoàn toàn có thể tự xây dựng phương pháp học của riêng mình, nhưng cách đọc bài báo trong một giờ sẽ là tài liệu tham khảo hữu ích
Có thể xem mẹo đọc và học tập tại đây
Học cùng cộng đồng
- Nhóm Discord và Telegram:
  - Nhóm Discord của Krispin: https://app.discuna.com/invite/ai_engineer
  - Nhóm Telegram của Fed of Flow AI đang hoạt động tại NYC: AI NYC Telegram
  - Tham gia cộng đồng Discord Latent Space: liên kết mời Discord
- Chia sẻ ghi chú và highlight:
  - Blog do độc giả Niels khởi xướng: Ghi chú về 2025 AI Engineer Reading List

3 bình luận

kipsong133 2025-01-16

Nhìn như vậy mới thấy, vẫn còn rất nhiều tài liệu đáng để đọc thật kỹ.

GN⁺ 2025-01-14

Ý kiến trên Hacker News

Phần lớn các bài báo tập trung vào việc tiếp thu kiến thức hơn là xây dựng hiểu biết sâu. Nếu chưa quen với chủ đề, nên bắt đầu bằng giáo trình thay vì bài báo. Bản mới nhất của Bishop là "Deep Learning: Foundations and Concepts (2024)" và "AI Engineering (2024)" của Chip Huyen là những tài liệu tốt. "Dive into Deep Learning" và tài liệu của fast.ai cũng được khuyến nghị
Không rõ nghề "AI Engineer" thực sự là gì, nhưng có thể nghi ngờ việc đọc các bài báo nghiên cứu có thật sự cần thiết hay không. Nếu không làm việc ở tuyến đầu của AI thì việc đọc bài báo có thể không mang nhiều ý nghĩa. Quan trọng hơn là hiểu phản hồi của LLM và xây dựng các ứng dụng thân thiện với người dùng. Khi dùng API của OpenAI hay Groq, biết sự khác biệt giữa "multi head attention" và "single head attention" không hữu ích đến vậy
Việc lập một danh sách như vậy là công việc khó. Ngoài những mục đã chọn còn có rất nhiều ứng viên phù hợp, vì vậy hãy xem đây như một chương trình học, và hiểu rằng các bài báo liên quan hiện tại là những mốc tham chiếu luôn dịch chuyển chứ không phải tài liệu tham khảo cố định. Một câu lạc bộ đọc bài báo có đề cập đến một danh sách đọc cụ thể
Phương pháp tinh chỉnh theo chỉ dẫn của đa số mô hình mã nguồn mở bắt nguồn từ Alpaca. Cũng nên đưa vào các bài báo về Alpaca và về tạo dữ liệu tổng hợp
Thay vì lãng phí thời gian đọc và cố hiểu các bài báo về AI và LLM, tốt hơn nên đọc về ELIZA và tự xây dựng nó. Nên tập trung vào tensor, vector, field, ngôn ngữ học, kiến trúc máy tính và mạng
Danh sách đọc này đã có từ khoảng 1 năm trước. Năm 2025 nên tập trung vào các kỹ thuật như KTO, RLOO và DPO. Trong năm 2025 chỉ nên tập trung vào chưng cất và tối ưu hóa. CoT không phải điều mới, mà CoT đã được chỉnh sửa mới là điểm cốt lõi
Thật thú vị khi thuật ngữ "AI" gần như đã bị các tiến bộ DL gần đây hấp thụ hoàn toàn. Không có nhắc đến Russell & Norvig, Minsky, Shannon, Lenat hay những tên tuổi tương tự. Nếu quan tâm đến phần giới thiệu về các chủ đề AI rộng hơn, thì hầu hết các chương trình sau đại học đều dùng cùng một cuốn sách
Một khảo sát tuyệt vời. Nếu kết hợp với khóa học bên dưới thì có thể đạt kết quả tốt nhất
Một danh sách tuyệt vời

francomoon7 2025-01-16

"Tự tay xây dựng Eliza" nghĩa là gì?