46 điểm bởi spilist2 2025-03-04 | 3 bình luận | Chia sẻ qua WhatsApp
  • Tóm tắt kèm ảnh chụp từ bài giảng AI dành cho người dùng phổ thông của Andrej Karpathy, đồng sáng lập OpenAI, với video How I use LLMs được đăng ngày 28/2
  • Vì các tư liệu trực quan đa dạng và những ví dụ sử dụng thực tế của Karpathy có giá trị rất lớn, chỉ tóm tắt bằng văn bản sẽ không thể truyền tải hết cái hay của video nên bài này được thực hiện

Có nhiều loại LLM khác nhau

ChatGPT là cái tên nổi tiếng nhất và cũng có nhiều tính năng nhất. Ngoài ra, những cái tên sau cũng rất phổ biến

  • Gemini của Google
  • Meta AI của Meta
  • Copilot của MS
  • Claude của Anthropic
  • Grok của xAI
  • Perplexity
  • DeepSeek của Trung Quốc
  • Le Chat của Mistral, Pháp

ChatGPT hoạt động như thế nào

LLM giống như một file zip nén mất dữ liệu toàn bộ tài liệu trên internet xuống còn 1TB. Bên trong là một mạng nơ-ron nhân tạo với hàng nghìn tỷ tham số, và nó tạo ra 'ký tự tiếp theo' theo xác suất

File nén này được tạo ra thông qua hai loại huấn luyện lớn

Huấn luyện trước: tốn hàng chục triệu USD + mất hơn 3 tháng. Vì chi phí quá cao nên không thể làm thường xuyên, và đó là lý do xuất hiện knowledge cutoff

Huấn luyện sau: fine-tuning với chi phí thấp hơn nhiều. Mục tiêu là khiến mô hình không chỉ lặp lại tài liệu internet mà còn hoạt động như một Assistant trả lời câu hỏi của người dùng

  • Huấn luyện có giám sát với các đáp án mẫu (Supervised Fine-Tuning)
  • Học tăng cường dựa trên sở thích của con người đối với các câu trả lời được sinh ra (Reinforcement Learning from Human Feedback)
  • Học tăng cường dựa trên câu trả lời lý tưởng của Assistant cho các câu hỏi của con người (Reinforcement Learning on Conversation)

Khi tạo một phiên mới trong ChatGPT và người dùng nhập tin nhắn, nội dung đó sẽ được token hóa để đưa vào mô hình làm đầu vào, rồi từ đó LLM tạo ra token tiếp theo. Toàn bộ cuộc trò chuyện này (đầu vào của người dùng, đầu ra của ChatGPT) đều được lưu trong Context Window.

Context Window tương tự như trí nhớ làm việc (Working Memory) của con người, và cũng có giới hạn. Context Window càng dài thì xác suất tạo ra thông tin thiếu chính xác có thể tăng lên một chút, đồng thời việc tạo câu trả lời tiếp theo cũng tốn kém hơn (= chậm hơn).

Vì vậy, nếu không thực sự cần thiết thì việc giữ một phiên quá lâu không hẳn là lựa chọn tốt

Khi nào nên dùng mô hình 'Thinking'

Đây là các mô hình được tăng cường học thêm trên nền LLM đã qua huấn luyện trước/sau, để có thể trả lời các bài toán STEM phức tạp (khoa học, công nghệ, kỹ thuật, toán học) thông qua một quá trình suy nghĩ dài hơn

Vì phải 'suy nghĩ' bằng cách tạo ra nhiều token nên chúng tốn cả thời gian lẫn chi phí hơn, nhưng độ chính xác khi trả lời các vấn đề phức tạp tăng mạnh

Cần lưu ý rằng mô hình có 'suy nghĩ' không phải lúc nào cũng giải đúng vấn đề, và ngược lại, mô hình không có 'suy nghĩ' cũng có thể giải đúng. (Trong một bài toán debug phức tạp mà Karpathy đưa ra, mọi mô hình thinking đều thành công còn ChatGPT-4o thất bại, nhưng Sonnet 3.5, Gemini 2.0 Pro, Grok 3 lại thành công dù không dùng Thinking)

Karpathy cho biết ông thường thử trước bằng mô hình non-thinking có phản hồi nhanh, rồi nếu thấy câu trả lời đáng ngờ thì mới chuyển sang Thinking

Những công cụ hỗ trợ LLM

Tìm kiếm trên internet

Có mô hình hỗ trợ tìm kiếm internet và có mô hình thì không. Dù không chỉ riêng chuyện tìm kiếm, chúng ta luôn phải biết mô hình đó có thể làm gì rồi mới dùng

Ở mức cơ bản nhất, tìm kiếm là cần thiết vì knowledge cutoff khiến mô hình không thể trả lời về dữ liệu mới nhất. Trong thời kỳ đầu ChatGPT chưa làm được điều này, Perplexity đã tận dụng khoảng trống đó để thu hút rất nhiều người dùng

Dựa trên truy vấn của người dùng, mô hình sẽ tự quyết định rằng 'cái này cần phải tìm kiếm', sau đó token hóa kết quả tìm kiếm trên internet và đưa vào Context Window rồi mới trả lời. (Đôi khi có thể cần yêu cầu rõ ràng rằng hãy tìm kiếm rồi trả lời)

Dạo gần đây, Karpathy thường hỏi Perplexity thay vì Google. Ông dần hình thành thói quen kiểu 'thông tin dạng này thì nên hỏi Perplexity'

  • Có vẻ chỉ cần Google vài từ và nhấp vài link đầu là biết được (hôm nay thị trường chứng khoán có mở không, mùa 3 của White Lotus được quay khi nào, v.v.)
  • Thông tin liên tục thay đổi và cần dữ liệu mới nhất (Vercel có hỗ trợ Postgresql không, dàn diễn viên Single's Inferno mùa 4 hiện giờ đang làm gì, v.v.)

Deep Research

Nói ngắn gọn thì đây là tìm kiếm internet + Thinking. Có khi nó tìm kiếm trong hàng chục phút, rồi dùng Thinking để sắp xếp thông tin thu được thành một bản báo cáo.

Điểm đặc trưng của Deep Research trong ChatGPT là trước khi bắt đầu, nó sẽ hỏi ý định của người đặt câu hỏi là gì và nên tập trung vào đâu để tạo ra báo cáo tốt hơn. Perplexity cũng có tính năng Deep Research tương tự, còn Grok3 có 'Deep Search'. Tốc độ và chất lượng của mỗi bên là khác nhau.

Cũng như tìm kiếm internet, cần lưu ý rằng câu trả lời ở đây vẫn có thể không chính xác. Người dùng nên tự kiểm tra nguồn, nhưng đây vẫn là một 'bản nháp cực kỳ hữu ích'

Karpathy đã thử khoảng hơn 20 lượt deep research và thấy câu trả lời của ChatGPT là tốt nhất vì dài nhất theo nghĩa chứa nhiều thông tin có ý nghĩa. Những chủ đề Karpathy từng hỏi gồm:

  • Tìm hiểu về một thành phần cụ thể trong thực phẩm chức năng
  • Giữa trình duyệt Brave và Arc, bên nào tốt hơn về bảo mật và quyền riêng tư
  • Công nghệ mới nhất giúp kéo dài tuổi thọ chuột là gì? Những hình thức can thiệp nào đã được thử? Tôi đến từ lĩnh vực ML nên quen với việc đặt và tối ưu chỉ số đánh giá; tuổi thọ chuột cũng được đánh giá theo cách như vậy chứ?
  • Hãy lập một bảng về tất cả các phòng thí nghiệm nghiên cứu LLM lớn ở Mỹ: họ được thành lập khi nào, có bao nhiêu người làm việc, và việc gọi vốn có thuận lợi không.

Code Interpreter

LLM viết mã rồi thực thi, sau đó đưa kết quả chạy mã vào ngữ cảnh để tạo câu trả lời. Có cả Python lẫn JavaScript. Nếu dùng tốt thì cực kỳ mạnh. Có thể xem như bạn có thêm một junior khá lanh lợi.

  • Phân tích dữ liệu bằng ChatGPT 4o
  • Dùng Claude để tạo app flashcard tóm tắt nội dung sách
  • Dùng Claude để tạo sơ đồ Mermaid trực quan hóa nội dung sách
  • Dùng Cursor để làm game cờ caro 3x3 rồi tiếp tục cải tiến chỉ bằng trò chuyện để thêm hiệu ứng cho người chiến thắng

Modality

Không chỉ trao đổi với LLM bằng văn bản mà còn có thể dùng âm thanh, hình ảnh và video

Đầu vào/đầu ra âm thanh

Với đầu vào âm thanh, Karpathy dùng các ứng dụng đọc chính tả trên Mac như SuperWhisper, WisprFlow, MacWhisper. Ông cho biết hiện nay khoảng một nửa những gì trước đây sẽ gõ bằng tay thì giờ ông nói ra thành lời.

Đầu ra âm thanh thường được cung cấp ngay trong ứng dụng. Cũng có thể dùng kiểu đọc màn hình

Nhưng về bản chất, các cách này vẫn là trao đổi bằng văn bản. Vì phải Speech-to-Text rồi lại Text-to-Speech nên bị chậm.

Cũng có thể trao đổi với LLM hoàn toàn bằng âm thanh thực thụ. Tức là token hóa thông tin âm thanh. Karpathy gọi đó là True Audio, còn trong ChatGPT thì gọi là Advanced Voice Mode.

  • Video demo hội thoại cho thấy mô hình có thể nói với nhiều ngữ điệu, tốc độ khác nhau, và thậm chí bắt chước tiếng động vật

Grok3 cũng cung cấp Advanced Voice Mode trên ứng dụng di động. Vì có nhiều kiểu mô hình rất 'không ngại gì cả' như sexy mode, chế độ chửi thề, v.v. nên ở một khía cạnh nào đó nó còn vui và thú vị hơn

NotebookLM còn có thể cho phép người dùng tải tệp lên để phân tích, rồi dựa trên nội dung đó tạo một podcast với nhiều người dẫn nói bằng giọng tự nhiên. Người dùng cũng có thể xen vào giữa để đặt câu hỏi thoải mái (Interactive Mode).

  • Karpathy thường tạo podcast để nghe về những lĩnh vực mà bản thân không phải chuyên gia sâu nhưng lại tò mò. Ông còn đăng các podcast như vậy lên Spotify với tên Histories of Mysteris

Đầu vào/đầu ra hình ảnh

Khi dùng OCR, Karpathy luôn có thói quen trước tiên kiểm tra xem mô hình đã đọc chính xác chưa rồi mới hỏi về nội dung. Lý do là vì lúc nào cũng có khả năng nó đọc sai.

Ví dụ sử dụng thực tế: kiểm tra thành phần dinh dưỡng của thực phẩm chức năng, xem và diễn giải kết quả xét nghiệm máu, lấy phiên bản LaTeX của công thức, giải thích meme, v.v.

Đầu ra hình ảnh thì dùng DALLE, IdeoGram, v.v. Việc tạo ảnh không phải là chức năng tích hợp sẵn trong LLM, mà là đưa prompt vào một mô hình riêng rồi lấy lại ảnh đầu ra.

Đầu vào/đầu ra video

Tương tự âm thanh, có thể dùng Advanced Voice + Video làm đầu vào để nhận câu trả lời. Tính năng này khả dụng trên ứng dụng di động. Có lẽ thay vì thật sự đưa video trực tiếp làm input, LLM sẽ lấy video theo từng khung hình nhất định rồi chuyển thành đầu vào dạng ảnh

Bản thân Karpathy không dùng thường xuyên, nhưng ông thấy tính năng này rất tốt cho những người ít nền tảng kỹ thuật như thế hệ cha mẹ mình vì họ có thể lập tức hỏi và nhận câu trả lời

Đầu ra video thì có nhiều mô hình, trong đó có Sora. Hiện tại Karpathy cảm thấy Google Veo 2 là thực tế nhất

Các tính năng bổ sung

Memory

  • Trong lúc trò chuyện với người dùng, những điều mà hệ thống cho rằng 'nếu nhớ điều này thì sẽ trả lời tốt hơn', hoặc những gì người dùng yêu cầu nhớ rõ ràng, sẽ được lưu cùng dòng thông báo Memory Updated
    = Có thể hiểu là những thứ này sẽ được đưa vào Context Window mỗi khi tạo cuộc trò chuyện mới. Người dùng cũng có thể xem toàn bộ danh sách và quản lý chúng

Customize

  • Nếu lưu các thông tin như muốn được gọi là gì, làm công việc gì, muốn nhận câu trả lời theo phong cách nào..., thì các thông tin đó cũng sẽ được đưa vào context window khi mô hình trả lời
  • Vì hiện Karpathy đang học tiếng Hàn nên ông cũng đang thử đưa các thông tin liên quan vào đó

Custom GPTs

Karpathy đang tạo và sử dụng nhiều GPTs cho việc học tiếng Hàn. Chủ yếu là prompt đơn giản kết hợp với Few-Shot.

Korean Vocabulary Extractor: tách câu tiếng Hàn ra và trích xuất các từ vựng

Korean Detailed Translator: tương tự như trên nhưng dịch theo kiểu đối chiếu từng từ một

KoreanCap: chụp ảnh đưa vào, sau đó OCR rồi dịch, đồng thời tách theo từng từ và kèm cả cách phát âm

3 bình luận

 
halfenif 2025-03-06

> "Nhả ra 'ký tự tiếp theo'" theo xác suất

Tôi nghĩ khó có lời giải thích nào phù hợp hơn thế này.

 
ned0909 2025-03-05

Việc học tiếng Hàn thật thú vị nhỉ

 
stadia 2025-03-04

https://youtube.com/watch/… Hãy xem bằng phụ đề