- Chọn lọc 50 bài báo, mô hình và blog dành cho kỹ sư AI, được chia thành 10 lĩnh vực
- Bao gồm các lĩnh vực LLMs, benchmark, prompting, RAG, agent, sinh mã, thị giác, giọng nói, khuếch tán và fine-tuning
Phần 1: LLMs tuyến đầu
- Các mô hình của OpenAI
- Các mô hình của Anthropic và Google
- Dòng LLaMA liên quan đến Meta
- Các mô hình DeepSeek
- Apple Intelligence
- Apple Intelligence (bài báo) - mô hình được tích hợp trên mọi máy Mac và iPhone
- Các mô hình và nghiên cứu bổ sung đáng chú ý
- Mô hình LLM
- Dòng AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Khác: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Nghiên cứu về Scaling Laws
- Các mô hình tối tân:
- Nghiên cứu về mô hình reasoning:
Phần 2: Benchmark và đánh giá
- MMLU
- MMLU (bài báo): tiêu chuẩn cho benchmark kiến thức đa lĩnh vực
- Nghiên cứu tiên tiến nhất năm 2025 sử dụng MMLU Pro (bài báo), GPQA Diamond (bài báo), BIG-Bench Hard (bài báo)
- GPQA (bài báo): tập trung vào tạo câu hỏi và đánh giá đáp án
- BIG-Bench (bài báo): benchmark quy mô lớn bao gồm nhiều dạng bài toán
- MuSR (bài báo): đánh giá trong ngữ cảnh dài
- MATH (bài báo): tuyển tập bài toán thi toán
- Nghiên cứu tiên tiến tập trung vào FrontierMath (bài báo) và các bài toán độ khó cao
- Tập con: MATH Level 5, AIME, AMC10/AMC12
- IFEval (bài báo): benchmark chính để đánh giá khả năng tuân theo chỉ dẫn
- Được Apple chính thức áp dụng (liên kết)
- Benchmark liên quan: MT-Bench (bài báo)
- ARC AGI (trang chính thức): benchmark về suy luận trừu tượng và “bài kiểm tra IQ”
- Có tính bền vững dài hạn, không giống các benchmark khác nhanh chóng bão hòa
- Tài liệu tham khảo bổ sung
Phần 3: Prompting, ICL và chuỗi suy nghĩ
- GPT-3 và In-Context Learning (ICL)
- The Prompt Report: khảo sát các bài báo liên quan đến prompting
- Tổng quan: tóm tắt sự phát triển tổng thể của kỹ thuật prompting và các xu hướng mới nhất (podcast liên quan)
- Chain-of-Thought (CoT):
- Mô hình hóa quy trình suy nghĩ từng bước
- Nghiên cứu liên quan:
- Tree of Thought:
- Giới thiệu các khái niệm Lookahead và Backtracking
- Phương pháp hiệu quả để giải quyết các vấn đề phức tạp (podcast liên quan)
- Prompt Tuning:
- Có thể điều chỉnh hiệu năng mô hình mà không cần prompt:
- Prefix-Tuning (bài báo)
- Điều chỉnh decoding dựa trên entropy (GitHub)
- Representation Engineering (blog)
- Automatic Prompt Engineering:
- Phương pháp để LLM tự tạo và tối ưu prompt
- Được triển khai trong framework DSPy (bài báo)
- Không chỉ các bài báo nghiên cứu, các hướng dẫn thực tiễn cũng hữu ích:
Phần 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: tài liệu tham khảo kinh điển trình bày các nền tảng của truy hồi thông tin
- RAG là một bài toán truy hồi thông tin (IR), có liên hệ chặt chẽ với một lĩnh vực có lịch sử hơn 60 năm
- Các kỹ thuật chính:
- TF-IDF, BM25: tìm kiếm dựa trên văn bản
- FAISS, HNSW: tìm kiếm vector và truy tìm lân cận gần nhất
- Meta RAG (bài báo năm 2020) : nơi thuật ngữ RAG lần đầu xuất hiện
- MTEB: benchmark đánh giá embedding
- GraphRAG: tích hợp RAG và đồ thị tri thức của Microsoft
- GraphRAG:
- tích hợp đồ thị tri thức vào quy trình RAG để cung cấp kết quả tốt hơn trên dữ liệu cá nhân
- đã được mã nguồn mở hóa (blog Microsoft)
- Nghiên cứu liên quan:
- RAGAS: phương pháp đánh giá RAG đơn giản được OpenAI khuyến nghị
- Tài liệu học tập và thực hành RAG
Phần 5: Agent
- SWE-Bench:
- Benchmark tiêu biểu để đánh giá agent (tập trung vào lập trình)
- Được Anthropic, Devin, OpenAI và nhiều bên khác áp dụng nên nhận được nhiều chú ý
- Tài liệu liên quan:
- So sánh: WebArena (GitHub), SWE-Gym (tweet liên quan)
- ReAct:
- Điểm khởi đầu của nghiên cứu LLM về sử dụng công cụ và function calling
- Nghiên cứu liên quan:
- MemGPT:
- Cách tiếp cận mô phỏng bộ nhớ dài hạn
- Ứng dụng chính:
- Hệ thống liên quan:
- Voyager:
- Cách tiếp cận kiến trúc nhận thức của Nvidia:
- Cải thiện hiệu năng bằng cách tận dụng curriculum, skill library, sandbox
- Mở rộng khái niệm:
- Building Effective Agents của Anthropic:
- Tổng kết cốt lõi về thiết kế agent trong năm 2024
- Chủ đề chính:
- chaining, routing, parallelization, orchestration, evaluation, optimization
- Tài liệu liên quan:
- Tài liệu và bài giảng học thêm
Phần 6: Sinh mã (CodeGen)
- The Stack paper
- Bắt đầu như một cặp dataset mở tập trung vào mã nguồn của The Pile
- Công việc tiếp nối:
- Các bài báo về mô hình mã nguồn mở
- HumanEval/Codex
- Benchmark thiết yếu trong lĩnh vực lập trình (hiện đã bão hòa)
- Các benchmark thay thế hiện đại:
- SWE-Bench
- Nổi tiếng với đánh giá xoay quanh agent, nhưng tốn kém và tập trung vào đánh giá agent hơn là mô hình
- AlphaCodeium
- Dựa trên hiệu năng của AlphaCode và AlphaCode2 từ Google
- Tận dụng Flow Engineering để cải thiện mạnh hiệu năng của các mô hình hiện có
- CriticGPT
- Tập trung vào việc phát hiện các vấn đề bảo mật phát sinh khi sinh mã
- CriticGPT của OpenAI được huấn luyện để nhận diện các vấn đề bảo mật
- Anthropic sử dụng SAEs (Safety-relevant Activation Ensembles) để phân tích các đặc trưng LLM gây ra vấn đề (nghiên cứu)
- Sinh mã trong ngành đang chuyển trọng tâm từ nghiên cứu sang triển khai thực tế:
- Sử dụng các code agent như Devin (video)
- Lời khuyên thực tiễn về sinh mã (YouTube)
Phần 7: Thị giác
- Nghiên cứu thị giác dựa trên non-LLM
- YOLO:
- Nổi tiếng là mô hình phát hiện đối tượng theo thời gian thực
- Hiện đã phát triển đến v11 (GitHub)
- Nghiên cứu gần đây: các mô hình transformer dựa trên DETR cho thấy hiệu năng vượt YOLO
- Tham khảo: chú ý đến các phiên bản khác nhau và hệ phả phát triển của YOLO (thảo luận liên quan)
- CLIP:
- Một ví dụ thành công của mô hình đa phương thức dựa trên ViT
- Các mô hình mới nhất:
- CLIP vẫn là kiến thức nền quan trọng
- MMVP benchmark:
- Segment Anything Model (SAM):
- Early Fusion vs Late Fusion:
- Các công trình mới nhất chưa xuất bản:
- GPT4V System Card và các nghiên cứu phái sinh (bài báo)
- OpenAI 4o:
- Các mô hình mới nhất:
- Claude 3.5 Sonnet/Haiku
- Gemini 2.0 Flash
- o1
- Các mô hình khác:
Phần 8: Âm thanh
- Whisper:
- Mô hình ASR thành công của OpenAI
- Các phiên bản chính:
- Whisper cung cấp nhiều mô hình trọng số mở, nhưng một số phiên bản không có bài báo
- AudioPaLM:
- AudioPaLM của Google là nghiên cứu trước khi chuyển từ PaLM sang Gemini
- Tham khảo: khám phá giọng nói của Llama 3 từ Meta (bài báo)
- NaturalSpeech:
- Một trong những nghiên cứu TTS quan trọng
- Gần đây đã được cập nhật lên v3 (bài báo)
- Kyutai Moshi:
- Mô hình trọng số mở giọng nói-văn bản song công hoàn toàn
- Demo chất lượng cao (YouTube)
- Mô hình tham khảo: Hume OCTAVE (blog)
- OpenAI Realtime API: The Missing Manual:
- Tài liệu không chính thức về API giọng nói thời gian thực của OpenAI
- Công cụ quan trọng cho các tác vụ tác nhân và thời gian thực mới nhất
- Khuyến nghị nhiều giải pháp đa dạng ngoài các phòng thí nghiệm lớn:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Tham khảo: State of Voice AI 2024
- Mô hình giọng nói của NotebookLM:
- Gemini 2.0: mô hình đa phương thức tích hợp tự nhiên giọng nói và thị giác
- Sau năm 2025: sự hội tụ giữa hai modality giọng nói và thị giác đang phát triển thành một lộ trình rõ ràng
Phần 9: Khuếch tán ảnh/video
- Latent Diffusion:
- Bài báo cốt lõi của Stable Diffusion
- Các phiên bản mở rộng:
- Hiện tại nhóm đang phát triển BFL Flux
- Dòng OpenAI DALL-E:
- Dòng Google Imagen:
- Consistency Models:
- Công việc chưng cất các mô hình diffusion
- Mở rộng:
- Sora:
- Công cụ chuyển văn bản thành video của OpenAI (không có bài báo chính thức)
- Tham khảo:
- ComfyUI:
- Lĩnh vực chuyên biệt:
- Cạnh tranh Open Weights:
- Hiểu các xu hướng mới nhất:
- Ứng dụng các mô hình Stable Diffusion và DALL-E
- Nghiên cứu về sự hội tụ giữa các modality văn bản và video
Phần 10: Fine-tuning mô hình
- LoRA/QLoRA:
- Tiêu chuẩn cho fine-tuning mô hình chi phí thấp
- Ứng dụng chính:
- DPO:
- ReFT:
- Tập trung vào các feature của mô hình thay vì fine-tuning một vài layer hiện có
- Cách tiếp cận fine-tuning hiệu quả
- Orca 3/AgentInstruct:
- Phương pháp phù hợp để tạo dữ liệu tổng hợp
- Nghiên cứu liên quan:
- Tinh chỉnh RL:
- RL Finetuning for o1 của OpenAI là tài liệu còn gây tranh cãi nhưng quan trọng
- Nghiên cứu liên quan:
- Notebook của Unsloth:
- Cung cấp các notebook thiên về thực hành trên GitHub
- Hướng dẫn của HuggingFace:
Kết lại danh sách đọc năm 2025 cho kỹ sư AI
- Danh sách này có thể rất đồ sộ và gây choáng ngợp, nhưng bỏ dở giữa chừng cũng không sao. Điều quan trọng là bắt đầu lại
- Sẽ tiếp tục được cập nhật trong năm 2025 để duy trì tính thời sự
- Bạn hoàn toàn có thể tự xây dựng phương pháp học của riêng mình, nhưng cách đọc bài báo trong một giờ sẽ là tài liệu tham khảo hữu ích
- Có thể xem mẹo đọc và học tập tại đây
- Học cùng cộng đồng
- Nhóm Discord và Telegram:
- Chia sẻ ghi chú và highlight:
3 bình luận
Nhìn như vậy mới thấy, vẫn còn rất nhiều tài liệu đáng để đọc thật kỹ.
Ý kiến trên Hacker News
Phần lớn các bài báo tập trung vào việc tiếp thu kiến thức hơn là xây dựng hiểu biết sâu. Nếu chưa quen với chủ đề, nên bắt đầu bằng giáo trình thay vì bài báo. Bản mới nhất của Bishop là "Deep Learning: Foundations and Concepts (2024)" và "AI Engineering (2024)" của Chip Huyen là những tài liệu tốt. "Dive into Deep Learning" và tài liệu của fast.ai cũng được khuyến nghị
Không rõ nghề "AI Engineer" thực sự là gì, nhưng có thể nghi ngờ việc đọc các bài báo nghiên cứu có thật sự cần thiết hay không. Nếu không làm việc ở tuyến đầu của AI thì việc đọc bài báo có thể không mang nhiều ý nghĩa. Quan trọng hơn là hiểu phản hồi của LLM và xây dựng các ứng dụng thân thiện với người dùng. Khi dùng API của OpenAI hay Groq, biết sự khác biệt giữa "multi head attention" và "single head attention" không hữu ích đến vậy
Việc lập một danh sách như vậy là công việc khó. Ngoài những mục đã chọn còn có rất nhiều ứng viên phù hợp, vì vậy hãy xem đây như một chương trình học, và hiểu rằng các bài báo liên quan hiện tại là những mốc tham chiếu luôn dịch chuyển chứ không phải tài liệu tham khảo cố định. Một câu lạc bộ đọc bài báo có đề cập đến một danh sách đọc cụ thể
Phương pháp tinh chỉnh theo chỉ dẫn của đa số mô hình mã nguồn mở bắt nguồn từ Alpaca. Cũng nên đưa vào các bài báo về Alpaca và về tạo dữ liệu tổng hợp
Thay vì lãng phí thời gian đọc và cố hiểu các bài báo về AI và LLM, tốt hơn nên đọc về ELIZA và tự xây dựng nó. Nên tập trung vào tensor, vector, field, ngôn ngữ học, kiến trúc máy tính và mạng
Danh sách đọc này đã có từ khoảng 1 năm trước. Năm 2025 nên tập trung vào các kỹ thuật như KTO, RLOO và DPO. Trong năm 2025 chỉ nên tập trung vào chưng cất và tối ưu hóa. CoT không phải điều mới, mà CoT đã được chỉnh sửa mới là điểm cốt lõi
Thật thú vị khi thuật ngữ "AI" gần như đã bị các tiến bộ DL gần đây hấp thụ hoàn toàn. Không có nhắc đến Russell & Norvig, Minsky, Shannon, Lenat hay những tên tuổi tương tự. Nếu quan tâm đến phần giới thiệu về các chủ đề AI rộng hơn, thì hầu hết các chương trình sau đại học đều dùng cùng một cuốn sách
Một khảo sát tuyệt vời. Nếu kết hợp với khóa học bên dưới thì có thể đạt kết quả tốt nhất
Một danh sách tuyệt vời
"Tự tay xây dựng Eliza" nghĩa là gì?