45 điểm bởi GN⁺ 2025-01-14 | 3 bình luận | Chia sẻ qua WhatsApp
  • Chọn lọc 50 bài báo, mô hình và blog dành cho kỹ sư AI, được chia thành 10 lĩnh vực
  • Bao gồm các lĩnh vực LLMs, benchmark, prompting, RAG, agent, sinh mã, thị giác, giọng nói, khuếch tán và fine-tuning

Phần 1: LLMs tuyến đầu

Phần 2: Benchmark và đánh giá

  • MMLU
    • MMLU (bài báo): tiêu chuẩn cho benchmark kiến thức đa lĩnh vực
    • GPQA (bài báo): tập trung vào tạo câu hỏi và đánh giá đáp án
    • BIG-Bench (bài báo): benchmark quy mô lớn bao gồm nhiều dạng bài toán
  • MuSR (bài báo): đánh giá trong ngữ cảnh dài
  • MATH (bài báo): tuyển tập bài toán thi toán
    • Nghiên cứu tiên tiến tập trung vào FrontierMath (bài báo) và các bài toán độ khó cao
    • Tập con: MATH Level 5, AIME, AMC10/AMC12
  • IFEval (bài báo): benchmark chính để đánh giá khả năng tuân theo chỉ dẫn
  • ARC AGI (trang chính thức): benchmark về suy luận trừu tượng và “bài kiểm tra IQ”
    • Có tính bền vững dài hạn, không giống các benchmark khác nhanh chóng bão hòa
  • Tài liệu tham khảo bổ sung

Phần 3: Prompting, ICL và chuỗi suy nghĩ

Phần 4: RAG (Retrieval-Augmented Generation)

  • Introduction to Information Retrieval: tài liệu tham khảo kinh điển trình bày các nền tảng của truy hồi thông tin
    • RAG là một bài toán truy hồi thông tin (IR), có liên hệ chặt chẽ với một lĩnh vực có lịch sử hơn 60 năm
    • Các kỹ thuật chính:
      • TF-IDF, BM25: tìm kiếm dựa trên văn bản
      • FAISS, HNSW: tìm kiếm vector và truy tìm lân cận gần nhất
  • Meta RAG (bài báo năm 2020) : nơi thuật ngữ RAG lần đầu xuất hiện
  • MTEB: benchmark đánh giá embedding
  • GraphRAG: tích hợp RAG và đồ thị tri thức của Microsoft
    • GraphRAG:
      • tích hợp đồ thị tri thức vào quy trình RAG để cung cấp kết quả tốt hơn trên dữ liệu cá nhân
      • đã được mã nguồn mở hóa (blog Microsoft)
    • Nghiên cứu liên quan:
  • RAGAS: phương pháp đánh giá RAG đơn giản được OpenAI khuyến nghị
  • Tài liệu học tập và thực hành RAG

Phần 5: Agent

Phần 6: Sinh mã (CodeGen)

  • The Stack paper
    • Bắt đầu như một cặp dataset mở tập trung vào mã nguồn của The Pile
    • Công việc tiếp nối:
  • Các bài báo về mô hình mã nguồn mở
  • HumanEval/Codex
    • Benchmark thiết yếu trong lĩnh vực lập trình (hiện đã bão hòa)
    • Các benchmark thay thế hiện đại:
    • SWE-Bench
      • Nổi tiếng với đánh giá xoay quanh agent, nhưng tốn kém và tập trung vào đánh giá agent hơn là mô hình
  • AlphaCodeium
    • Dựa trên hiệu năng của AlphaCodeAlphaCode2 từ Google
    • Tận dụng Flow Engineering để cải thiện mạnh hiệu năng của các mô hình hiện có
  • CriticGPT
    • Tập trung vào việc phát hiện các vấn đề bảo mật phát sinh khi sinh mã
      • CriticGPT của OpenAI được huấn luyện để nhận diện các vấn đề bảo mật
      • Anthropic sử dụng SAEs (Safety-relevant Activation Ensembles) để phân tích các đặc trưng LLM gây ra vấn đề (nghiên cứu)
  • Sinh mã trong ngành đang chuyển trọng tâm từ nghiên cứu sang triển khai thực tế:
    • Sử dụng các code agent như Devin (video)
    • Lời khuyên thực tiễn về sinh mã (YouTube)

Phần 7: Thị giác

Phần 8: Âm thanh

  • Whisper:
  • AudioPaLM:
    • AudioPaLM của Google là nghiên cứu trước khi chuyển từ PaLM sang Gemini
    • Tham khảo: khám phá giọng nói của Llama 3 từ Meta (bài báo)
  • NaturalSpeech:
    • Một trong những nghiên cứu TTS quan trọng
    • Gần đây đã được cập nhật lên v3 (bài báo)
  • Kyutai Moshi:
    • Mô hình trọng số mở giọng nói-văn bản song công hoàn toàn
    • Demo chất lượng cao (YouTube)
    • Mô hình tham khảo: Hume OCTAVE (blog)
  • OpenAI Realtime API: The Missing Manual:
    • Tài liệu không chính thức về API giọng nói thời gian thực của OpenAI
    • Công cụ quan trọng cho các tác vụ tác nhân và thời gian thực mới nhất
  • Khuyến nghị nhiều giải pháp đa dạng ngoài các phòng thí nghiệm lớn:
  • Gemini 2.0: mô hình đa phương thức tích hợp tự nhiên giọng nói và thị giác
    • Sau năm 2025: sự hội tụ giữa hai modality giọng nói và thị giác đang phát triển thành một lộ trình rõ ràng

Phần 9: Khuếch tán ảnh/video

Phần 10: Fine-tuning mô hình

  • LoRA/QLoRA:
    • Tiêu chuẩn cho fine-tuning mô hình chi phí thấp
    • Ứng dụng chính:
  • DPO:
    • Được hỗ trợ trong Preference Finetuning của OpenAI
    • Phổ biến như một lựa chọn thay thế cho PPO (bài báo), nhưng hiệu năng có phần thấp hơn
  • ReFT:
    • Tập trung vào các feature của mô hình thay vì fine-tuning một vài layer hiện có
    • Cách tiếp cận fine-tuning hiệu quả
  • Orca 3/AgentInstruct:
    • Phương pháp phù hợp để tạo dữ liệu tổng hợp
    • Nghiên cứu liên quan:
  • Tinh chỉnh RL:
  • Notebook của Unsloth:
    • Cung cấp các notebook thiên về thực hành trên GitHub
  • Hướng dẫn của HuggingFace:

Kết lại danh sách đọc năm 2025 cho kỹ sư AI

  • Danh sách này có thể rất đồ sộ và gây choáng ngợp, nhưng bỏ dở giữa chừng cũng không sao. Điều quan trọng là bắt đầu lại
  • Sẽ tiếp tục được cập nhật trong năm 2025 để duy trì tính thời sự
  • Bạn hoàn toàn có thể tự xây dựng phương pháp học của riêng mình, nhưng cách đọc bài báo trong một giờ sẽ là tài liệu tham khảo hữu ích
  • Có thể xem mẹo đọc và học tập tại đây
  • Học cùng cộng đồng

3 bình luận

 
kipsong133 2025-01-16

Nhìn như vậy mới thấy, vẫn còn rất nhiều tài liệu đáng để đọc thật kỹ.

 
GN⁺ 2025-01-14
Ý kiến trên Hacker News
  • Phần lớn các bài báo tập trung vào việc tiếp thu kiến thức hơn là xây dựng hiểu biết sâu. Nếu chưa quen với chủ đề, nên bắt đầu bằng giáo trình thay vì bài báo. Bản mới nhất của Bishop là "Deep Learning: Foundations and Concepts (2024)" và "AI Engineering (2024)" của Chip Huyen là những tài liệu tốt. "Dive into Deep Learning" và tài liệu của fast.ai cũng được khuyến nghị

  • Không rõ nghề "AI Engineer" thực sự là gì, nhưng có thể nghi ngờ việc đọc các bài báo nghiên cứu có thật sự cần thiết hay không. Nếu không làm việc ở tuyến đầu của AI thì việc đọc bài báo có thể không mang nhiều ý nghĩa. Quan trọng hơn là hiểu phản hồi của LLM và xây dựng các ứng dụng thân thiện với người dùng. Khi dùng API của OpenAI hay Groq, biết sự khác biệt giữa "multi head attention" và "single head attention" không hữu ích đến vậy

  • Việc lập một danh sách như vậy là công việc khó. Ngoài những mục đã chọn còn có rất nhiều ứng viên phù hợp, vì vậy hãy xem đây như một chương trình học, và hiểu rằng các bài báo liên quan hiện tại là những mốc tham chiếu luôn dịch chuyển chứ không phải tài liệu tham khảo cố định. Một câu lạc bộ đọc bài báo có đề cập đến một danh sách đọc cụ thể

  • Phương pháp tinh chỉnh theo chỉ dẫn của đa số mô hình mã nguồn mở bắt nguồn từ Alpaca. Cũng nên đưa vào các bài báo về Alpaca và về tạo dữ liệu tổng hợp

  • Thay vì lãng phí thời gian đọc và cố hiểu các bài báo về AI và LLM, tốt hơn nên đọc về ELIZA và tự xây dựng nó. Nên tập trung vào tensor, vector, field, ngôn ngữ học, kiến trúc máy tính và mạng

  • Danh sách đọc này đã có từ khoảng 1 năm trước. Năm 2025 nên tập trung vào các kỹ thuật như KTO, RLOO và DPO. Trong năm 2025 chỉ nên tập trung vào chưng cất và tối ưu hóa. CoT không phải điều mới, mà CoT đã được chỉnh sửa mới là điểm cốt lõi

  • Thật thú vị khi thuật ngữ "AI" gần như đã bị các tiến bộ DL gần đây hấp thụ hoàn toàn. Không có nhắc đến Russell & Norvig, Minsky, Shannon, Lenat hay những tên tuổi tương tự. Nếu quan tâm đến phần giới thiệu về các chủ đề AI rộng hơn, thì hầu hết các chương trình sau đại học đều dùng cùng một cuốn sách

  • Một khảo sát tuyệt vời. Nếu kết hợp với khóa học bên dưới thì có thể đạt kết quả tốt nhất

  • Một danh sách tuyệt vời

 
francomoon7 2025-01-16

"Tự tay xây dựng Eliza" nghĩa là gì?