Danh sách đọc dành cho kỹ sư AI năm 2025
(latent.space)- Chọn lọc 50 bài báo, mô hình và blog dành cho kỹ sư AI, được chia thành 10 lĩnh vực
- Bao gồm các lĩnh vực LLMs, benchmark, prompting, RAG, agent, sinh mã, thị giác, giọng nói, khuếch tán và fine-tuning
Phần 1: LLMs tuyến đầu
- Các mô hình của OpenAI
- GPT1 (bài báo), GPT2 (bài báo), GPT3 (bài báo), Codex (bài báo), InstructGPT (bài báo), GPT4 (bài báo)
- GPT3.5 (giới thiệu ChatGPT), 4o (giới thiệu GPT-4o), o1 (bản xem trước o1), o3 (thẻ hệ thống)
- Các mô hình của Anthropic và Google
- Claude 3 (bài báo), Gemini 1 (bài báo)
- Claude 3.5 Sonnet (chi tiết), Gemini 2.0 Flash (blog chính thức), Flash Thinking (tài liệu Gemini API), Gemma 2 (bài báo)
- Dòng LLaMA liên quan đến Meta
- Các mô hình DeepSeek
- Apple Intelligence
- Apple Intelligence (bài báo) - mô hình được tích hợp trên mọi máy Mac và iPhone
- Các mô hình và nghiên cứu bổ sung đáng chú ý
- Mô hình LLM
- Dòng AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Khác: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Nghiên cứu về Scaling Laws
- Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- Các mô hình tối tân:
- Nghiên cứu về mô hình reasoning:
- Mô hình LLM
Phần 2: Benchmark và đánh giá
- MMLU
- MuSR (bài báo): đánh giá trong ngữ cảnh dài
- Nghiên cứu liên quan: LongBench (bài báo), BABILong (bài báo), RULER (giới thiệu)
- Các vấn đề cần giải quyết: Lost in the Middle (bài báo), Needle in a Haystack (GitHub)
- MATH (bài báo): tuyển tập bài toán thi toán
- Nghiên cứu tiên tiến tập trung vào FrontierMath (bài báo) và các bài toán độ khó cao
- Tập con: MATH Level 5, AIME, AMC10/AMC12
- IFEval (bài báo): benchmark chính để đánh giá khả năng tuân theo chỉ dẫn
- ARC AGI (trang chính thức): benchmark về suy luận trừu tượng và “bài kiểm tra IQ”
- Có tính bền vững dài hạn, không giống các benchmark khác nhanh chóng bão hòa
- Tài liệu tham khảo bổ sung
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: phân tích chuyên sâu về benchmark
- Tài liệu liên quan đến LLM: LLM-as-Judge, Applied LLMs
- Tài nguyên dataset: Datasets
Phần 3: Prompting, ICL và chuỗi suy nghĩ
- GPT-3 và In-Context Learning (ICL)
- Bài báo GPT-3(bài báo): giới thiệu khái niệm In-Context Learning (ICL)
- ICL có liên hệ chặt chẽ với prompting, cho phép LLM học và áp dụng ngay trong ngữ cảnh
- Prompt Injection: thao túng prompt và các vấn đề bảo mật (tổng hợp của Lilian Weng, chuỗi bài của Simon Willison)
- The Prompt Report: khảo sát các bài báo liên quan đến prompting
- Tổng quan: tóm tắt sự phát triển tổng thể của kỹ thuật prompting và các xu hướng mới nhất (podcast liên quan)
- Chain-of-Thought (CoT):
- Tree of Thought:
- Giới thiệu các khái niệm Lookahead và Backtracking
- Phương pháp hiệu quả để giải quyết các vấn đề phức tạp (podcast liên quan)
- Prompt Tuning:
- Automatic Prompt Engineering:
- Phương pháp để LLM tự tạo và tối ưu prompt
- Được triển khai trong framework DSPy (bài báo)
- Không chỉ các bài báo nghiên cứu, các hướng dẫn thực tiễn cũng hữu ích:
- Blog Prompt Engineering của Lilian Weng
- Hướng dẫn Prompting của Eugene Yan
- Tutorial và workshop của Anthropic:
Phần 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: tài liệu tham khảo kinh điển trình bày các nền tảng của truy hồi thông tin
- RAG là một bài toán truy hồi thông tin (IR), có liên hệ chặt chẽ với một lĩnh vực có lịch sử hơn 60 năm
- Các kỹ thuật chính:
- TF-IDF, BM25: tìm kiếm dựa trên văn bản
- FAISS, HNSW: tìm kiếm vector và truy tìm lân cận gần nhất
- Meta RAG (bài báo năm 2020) : nơi thuật ngữ RAG lần đầu xuất hiện
- HyDE (tài liệu)
- Chunking (nghiên cứu)
- Rerankers (blog Cohere)
- Xử lý dữ liệu đa phương thức (YouTube)
- MTEB: benchmark đánh giá embedding
- Tranh cãi và giới hạn (thảo luận liên quan)
- Ví dụ về mô hình embedding:
- SentenceTransformers
- OpenAI, Nomic Embed, ModernBERT Embed
- Matryoshka Embeddings (blog HuggingFace)
- GraphRAG: tích hợp RAG và đồ thị tri thức của Microsoft
- GraphRAG:
- tích hợp đồ thị tri thức vào quy trình RAG để cung cấp kết quả tốt hơn trên dữ liệu cá nhân
- đã được mã nguồn mở hóa (blog Microsoft)
- Nghiên cứu liên quan:
- ColBERT, ColPali, ColQwen
- GraphRAG:
- RAGAS: phương pháp đánh giá RAG đơn giản được OpenAI khuyến nghị
- Nvidia FACTS Framework (bài báo)
- Extrinsic Hallucinations in LLMs (khảo sát của Lilian Weng)
- Recall vs Precision của Jason Wei (tweet)
- Tài liệu học tập và thực hành RAG
- LlamaIndex (tài liệu, khóa học)
- LangChain (tài liệu, video hướng dẫn)
- RAG vs Long Context Debate:
- bài báo: so sánh RAG với cách tiếp cận ngữ cảnh dài
Phần 5: Agent
- SWE-Bench:
- Benchmark tiêu biểu để đánh giá agent (tập trung vào lập trình)
- Được Anthropic, Devin, OpenAI và nhiều bên khác áp dụng nên nhận được nhiều chú ý
- Tài liệu liên quan:
- So sánh: WebArena (GitHub), SWE-Gym (tweet liên quan)
- ReAct:
- Điểm khởi đầu của nghiên cứu LLM về sử dụng công cụ và function calling
- Nghiên cứu liên quan:
- Gorilla (leaderboard)
- Toolformer (bài báo)
- HuggingGPT (bài báo)
- MemGPT:
- Cách tiếp cận mô phỏng bộ nhớ dài hạn
- Ứng dụng chính:
- Hệ thống liên quan:
- Voyager:
- Cách tiếp cận kiến trúc nhận thức của Nvidia:
- Cải thiện hiệu năng bằng cách tận dụng curriculum, skill library, sandbox
- Mở rộng khái niệm:
- Agent Workflow Memory (bài báo)
- Cách tiếp cận kiến trúc nhận thức của Nvidia:
- Building Effective Agents của Anthropic:
- Tổng kết cốt lõi về thiết kế agent trong năm 2024
- Chủ đề chính:
- chaining, routing, parallelization, orchestration, evaluation, optimization
- Tài liệu liên quan:
- Nghiên cứu về agent của Lilian Weng
- Nghiên cứu về LLM agent của Shunyu Yao
- Tổng quan agent năm 2025 của Chip Huyen
- Tài liệu và bài giảng học thêm
- Thiết kế agent mới nhất năm 2024: tổng hợp NeurIPS
- MOOC của UC Berkeley: khóa học LLM Agents
- Thảo luận về định nghĩa agent: nếu cần, tham khảo định nghĩa này
Phần 6: Sinh mã (CodeGen)
- The Stack paper
- Bắt đầu như một cặp dataset mở tập trung vào mã nguồn của The Pile
- Công việc tiếp nối:
- The Stack v2: dataset được cải tiến
- StarCoder: mô hình sinh mã được tối ưu hóa
- Các bài báo về mô hình mã nguồn mở
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- Nhiều người đánh giá Claude 3.5 Sonnet là mô hình code tốt nhất, nhưng không có bài báo chính thức
- HumanEval/Codex
- Benchmark thiết yếu trong lĩnh vực lập trình (hiện đã bão hòa)
- Các benchmark thay thế hiện đại:
- SWE-Bench
- Nổi tiếng với đánh giá xoay quanh agent, nhưng tốn kém và tập trung vào đánh giá agent hơn là mô hình
- AlphaCodeium
- Dựa trên hiệu năng của AlphaCode và AlphaCode2 từ Google
- Tận dụng Flow Engineering để cải thiện mạnh hiệu năng của các mô hình hiện có
- CriticGPT
- Tập trung vào việc phát hiện các vấn đề bảo mật phát sinh khi sinh mã
- CriticGPT của OpenAI được huấn luyện để nhận diện các vấn đề bảo mật
- Anthropic sử dụng SAEs (Safety-relevant Activation Ensembles) để phân tích các đặc trưng LLM gây ra vấn đề (nghiên cứu)
- Tập trung vào việc phát hiện các vấn đề bảo mật phát sinh khi sinh mã
- Sinh mã trong ngành đang chuyển trọng tâm từ nghiên cứu sang triển khai thực tế:
Phần 7: Thị giác
- Nghiên cứu thị giác dựa trên non-LLM
- YOLO:
- Tham khảo: chú ý đến các phiên bản khác nhau và hệ phả phát triển của YOLO (thảo luận liên quan)
- CLIP:
- Một ví dụ thành công của mô hình đa phương thức dựa trên ViT
- Các mô hình mới nhất:
- CLIP vẫn là kiến thức nền quan trọng
- MMVP benchmark:
- Đánh giá các giới hạn của CLIP
- Phiên bản đa phương thức: MMMU, SWE-Bench Multimodal
- Segment Anything Model (SAM):
- Mô hình tiêu biểu cho phân đoạn ảnh và video
- Nghiên cứu kế tiếp: SAM 2 (podcast liên quan)
- Mô hình bổ trợ: GroundingDINO
- Early Fusion vs Late Fusion:
- Các công trình mới nhất chưa xuất bản:
- GPT4V System Card và các nghiên cứu phái sinh (bài báo)
- OpenAI 4o:
- Các mô hình mới nhất:
Phần 8: Âm thanh
- Whisper:
- Mô hình ASR thành công của OpenAI
- Các phiên bản chính:
- Whisper v2 (thảo luận liên quan)
- Whisper v3 (thảo luận liên quan)
- Distil-Whisper (GitHub)
- Whisper v3 Turbo (phân tích)
- Whisper cung cấp nhiều mô hình trọng số mở, nhưng một số phiên bản không có bài báo
- AudioPaLM:
- AudioPaLM của Google là nghiên cứu trước khi chuyển từ PaLM sang Gemini
- Tham khảo: khám phá giọng nói của Llama 3 từ Meta (bài báo)
- NaturalSpeech:
- Một trong những nghiên cứu TTS quan trọng
- Gần đây đã được cập nhật lên v3 (bài báo)
- Kyutai Moshi:
- OpenAI Realtime API: The Missing Manual:
- Tài liệu không chính thức về API giọng nói thời gian thực của OpenAI
- Công cụ quan trọng cho các tác vụ tác nhân và thời gian thực mới nhất
- Khuyến nghị nhiều giải pháp đa dạng ngoài các phòng thí nghiệm lớn:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Tham khảo: State of Voice AI 2024
- Mô hình giọng nói của NotebookLM:
- Dù mô hình chưa được công khai, vẫn có giải thích chuyên sâu về quy trình mô hình hóa
- Gemini 2.0: mô hình đa phương thức tích hợp tự nhiên giọng nói và thị giác
- Sau năm 2025: sự hội tụ giữa hai modality giọng nói và thị giác đang phát triển thành một lộ trình rõ ràng
Phần 9: Khuếch tán ảnh/video
- Latent Diffusion:
- Bài báo cốt lõi của Stable Diffusion
- Các phiên bản mở rộng:
- SD2 (công bố chính thức)
- SDXL và SD3
- Hiện tại nhóm đang phát triển BFL Flux
- Dòng OpenAI DALL-E:
- Dòng Google Imagen:
- Consistency Models:
- Sora:
- Công cụ chuyển văn bản thành video của OpenAI (không có bài báo chính thức)
- Tham khảo:
- bài báo DiT (cùng tác giả)
- OpenSora: mô hình cạnh tranh dựa trên open weights
- tổng hợp của Lilian Weng
- ComfyUI:
- Được chú ý như giao diện người dùng cho các mô hình thị giác (phỏng vấn liên quan)
- Lĩnh vực chuyên biệt:
- Text Diffusion: mô hình diffusion cho văn bản
- Music Diffusion: diffusion tạo nhạc
- Autoregressive Image Generation: sinh ảnh tự hồi quy
- Cạnh tranh Open Weights:
- Hiểu các xu hướng mới nhất:
- Ứng dụng các mô hình Stable Diffusion và DALL-E
- Nghiên cứu về sự hội tụ giữa các modality văn bản và video
Phần 10: Fine-tuning mô hình
- LoRA/QLoRA:
- Tiêu chuẩn cho fine-tuning mô hình chi phí thấp
- Ứng dụng chính:
- Hỗ trợ cả trên mô hình cục bộ và 4o của OpenAI (xem podcast)
- FSDP+QLoRA: tài liệu đào tạo
- DPO:
- Được hỗ trợ trong Preference Finetuning của OpenAI
- Phổ biến như một lựa chọn thay thế cho PPO (bài báo), nhưng hiệu năng có phần thấp hơn
- ReFT:
- Tập trung vào các feature của mô hình thay vì fine-tuning một vài layer hiện có
- Cách tiếp cận fine-tuning hiệu quả
- Orca 3/AgentInstruct:
- Phương pháp phù hợp để tạo dữ liệu tổng hợp
- Nghiên cứu liên quan:
- Synthetic Data Picks của NeurIPS
- Tinh chỉnh RL:
- RL Finetuning for o1 của OpenAI là tài liệu còn gây tranh cãi nhưng quan trọng
- Nghiên cứu liên quan:
- Let’s Verify Step By Step
- bài giảng của Noam Brown
- Notebook của Unsloth:
- Cung cấp các notebook thiên về thực hành trên GitHub
- Hướng dẫn của HuggingFace:
- How to fine-tune open LLMs: hướng dẫn chuyên sâu về toàn bộ quy trình fine-tuning
Kết lại danh sách đọc năm 2025 cho kỹ sư AI
- Danh sách này có thể rất đồ sộ và gây choáng ngợp, nhưng bỏ dở giữa chừng cũng không sao. Điều quan trọng là bắt đầu lại
- Sẽ tiếp tục được cập nhật trong năm 2025 để duy trì tính thời sự
- Bạn hoàn toàn có thể tự xây dựng phương pháp học của riêng mình, nhưng cách đọc bài báo trong một giờ sẽ là tài liệu tham khảo hữu ích
- Có thể xem mẹo đọc và học tập tại đây
- Học cùng cộng đồng
- Nhóm Discord và Telegram:
- Nhóm Discord của Krispin: https://app.discuna.com/invite/ai_engineer
- Nhóm Telegram của Fed of Flow AI đang hoạt động tại NYC: AI NYC Telegram
- Tham gia cộng đồng Discord Latent Space: liên kết mời Discord
- Chia sẻ ghi chú và highlight:
- Blog do độc giả Niels khởi xướng: Ghi chú về 2025 AI Engineer Reading List
- Nhóm Discord và Telegram:
3 bình luận
Nhìn như vậy mới thấy, vẫn còn rất nhiều tài liệu đáng để đọc thật kỹ.
Ý kiến trên Hacker News
Phần lớn các bài báo tập trung vào việc tiếp thu kiến thức hơn là xây dựng hiểu biết sâu. Nếu chưa quen với chủ đề, nên bắt đầu bằng giáo trình thay vì bài báo. Bản mới nhất của Bishop là "Deep Learning: Foundations and Concepts (2024)" và "AI Engineering (2024)" của Chip Huyen là những tài liệu tốt. "Dive into Deep Learning" và tài liệu của fast.ai cũng được khuyến nghị
Không rõ nghề "AI Engineer" thực sự là gì, nhưng có thể nghi ngờ việc đọc các bài báo nghiên cứu có thật sự cần thiết hay không. Nếu không làm việc ở tuyến đầu của AI thì việc đọc bài báo có thể không mang nhiều ý nghĩa. Quan trọng hơn là hiểu phản hồi của LLM và xây dựng các ứng dụng thân thiện với người dùng. Khi dùng API của OpenAI hay Groq, biết sự khác biệt giữa "multi head attention" và "single head attention" không hữu ích đến vậy
Việc lập một danh sách như vậy là công việc khó. Ngoài những mục đã chọn còn có rất nhiều ứng viên phù hợp, vì vậy hãy xem đây như một chương trình học, và hiểu rằng các bài báo liên quan hiện tại là những mốc tham chiếu luôn dịch chuyển chứ không phải tài liệu tham khảo cố định. Một câu lạc bộ đọc bài báo có đề cập đến một danh sách đọc cụ thể
Phương pháp tinh chỉnh theo chỉ dẫn của đa số mô hình mã nguồn mở bắt nguồn từ Alpaca. Cũng nên đưa vào các bài báo về Alpaca và về tạo dữ liệu tổng hợp
Thay vì lãng phí thời gian đọc và cố hiểu các bài báo về AI và LLM, tốt hơn nên đọc về ELIZA và tự xây dựng nó. Nên tập trung vào tensor, vector, field, ngôn ngữ học, kiến trúc máy tính và mạng
Danh sách đọc này đã có từ khoảng 1 năm trước. Năm 2025 nên tập trung vào các kỹ thuật như KTO, RLOO và DPO. Trong năm 2025 chỉ nên tập trung vào chưng cất và tối ưu hóa. CoT không phải điều mới, mà CoT đã được chỉnh sửa mới là điểm cốt lõi
Thật thú vị khi thuật ngữ "AI" gần như đã bị các tiến bộ DL gần đây hấp thụ hoàn toàn. Không có nhắc đến Russell & Norvig, Minsky, Shannon, Lenat hay những tên tuổi tương tự. Nếu quan tâm đến phần giới thiệu về các chủ đề AI rộng hơn, thì hầu hết các chương trình sau đại học đều dùng cùng một cuốn sách
Một khảo sát tuyệt vời. Nếu kết hợp với khóa học bên dưới thì có thể đạt kết quả tốt nhất
Một danh sách tuyệt vời
"Tự tay xây dựng Eliza" nghĩa là gì?