Những điều chúng ta học được về LLM trong năm 2024
(simonwillison.net)Tóm tắt toàn bộ những thay đổi liên quan đến LLM trong năm 2024 của Simon Willison
- Hoàn toàn vượt qua giới hạn của GPT-4
- Một số mô hình cấp độ GPT-4 chạy được trên laptop của tôi
- Giá LLM lao dốc, thay đổi do cạnh tranh và hiệu quả tạo ra
- Thị giác đa phương thức lan rộng, âm thanh và video mới xuất hiện
- Giọng nói và chế độ camera trực tiếp, khoa học viễn tưởng đã thành hiện thực
- Tạo ứng dụng bằng prompt, công nghệ đã trở nên rất đời thường
- Truy cập miễn phí vào các mô hình tốt nhất, rồi kết thúc chỉ sau vài tháng
- "Agent", vẫn là một khái niệm chưa thành hiện thực
- Tầm quan trọng của đánh giá (Evals)
- Apple Intelligence gây thất vọng, nhưng thư viện MLX thì rất xuất sắc
- Mở rộng quy mô suy luận, sự trỗi dậy của các mô hình "Reasoning"
- LLM tốt nhất hiện nay được huấn luyện ở Trung Quốc với chưa tới $6 triệu?
- Tác động môi trường được cải thiện
- Tác động môi trường trở nên tệ hơn
- Năm 2024, năm của "Slop"
- Hiệu quả đáng kinh ngạc của dữ liệu huấn luyện tổng hợp
- Năm 2024, việc sử dụng LLM trở nên khó khăn hơn
- Sự phân bố tri thức không đồng đều
- Cần có những phê bình tốt hơn về LLM
# Hoàn toàn vượt qua giới hạn của GPT-4
- Tình hình năm 2023: GPT-4 được đánh giá là mô hình ngôn ngữ tốt nhất, và các phòng thí nghiệm AI khác chưa thể vượt qua nó. Những bí mật kỹ thuật mà OpenAI nắm giữ đã thu hút nhiều chú ý.
- Thay đổi trong năm 2024: 18 tổ chức đã công bố các mô hình vượt qua GPT-4. Hiện tại, bảng xếp hạng Chatbot Arena có 70 mô hình vượt qua GPT-4-0314 (ra mắt tháng 3 năm 2023).
- Các mô hình chính và tiến bộ kỹ thuật
- Google Gemini 1.5 Pro: ra mắt tháng 2 năm 2024
- Cung cấp đầu ra ở cấp độ GPT-4 cùng các tính năng mới
- Hỗ trợ độ dài ngữ cảnh đầu vào 1 triệu token (sau đó là 2 triệu)
- Giới thiệu khả năng nhận đầu vào video
- Có thể xử lý đầu vào rất dài để giải quyết bài toán lập trình và phân tích cả một cuốn sách
- Được nhấn mạnh như một công bố quan trọng trong keynote Google I/O 2024
- Dòng Anthropic Claude 3:
- Claude 3 Opus: ra mắt tháng 3 năm 2024, được chú ý nhờ hiệu năng cao
- Claude 3.5 Sonnet: ra mắt tháng 6, bản nâng cấp công bố ngày 22 tháng 10
- Sau nâng cấp vẫn giữ số phiên bản 3.5, nhưng trong cộng đồng người hâm mộ thường được gọi là Claude 3.6
- Google Gemini 1.5 Pro: ra mắt tháng 2 năm 2024
- Mở rộng độ dài ngữ cảnh
- Năm 2023: đa số mô hình hỗ trợ 4.096~8.192 token. Claude 2.1 là ngoại lệ với 200.000 token
- Năm 2024: các mô hình chủ lực hỗ trợ hơn 100.000 token, còn dòng Google Gemini hỗ trợ tối đa 2 triệu token
- Có thể xử lý dữ liệu đầu vào dài để giải quyết nhiều loại vấn đề khác nhau
- Rất phù hợp để phân tích toàn bộ sách hoặc giải quyết vấn đề dựa trên mã ví dụ
- Các mô hình và tổ chức đã vượt GPT-4
- Theo bảng xếp hạng Chatbot Arena, các tổ chức sở hữu mô hình có hiệu năng cao hơn GPT-4-0314 gồm:
- Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI cùng 18 tổ chức khác
- Trên bảng xếp hạng, GPT-4-0314 hiện đang ở khoảng hạng 70
- Theo bảng xếp hạng Chatbot Arena, các tổ chức sở hữu mô hình có hiệu năng cao hơn GPT-4-0314 gồm:
# Một số mô hình cấp độ GPT-4 chạy được trên laptop của tôi
- Thiết bị sử dụng: M2 MacBook Pro 64GB RAM phát hành năm 2023. Đây là thiết bị đã khoảng 2 năm tuổi, cũng chính là chiếc laptop từng được dùng để chạy LLM lần đầu vào tháng 3 năm 2023.
- Thay đổi về hiệu năng: Ban đầu chỉ vừa đủ chạy các mô hình cấp độ GPT-3, nhưng hiện nay đã có thể chạy cả mô hình cấp độ GPT-4.
- Qwen2.5-Coder-32B: mô hình chuyên về lập trình, phát hành tháng 11 năm 2024, dùng giấy phép Apache 2.0.
- Meta Llama 3.3 70B: mô hình cấp độ GPT-4 phát hành tháng 12 năm 2024.
- Ý nghĩa: Thật đáng kinh ngạc khi các mô hình cấp độ GPT-4 có thể chạy trên laptop chứ không chỉ trên máy chủ datacenter gắn GPU trị giá hơn $40.000.
- Vì gần như dùng hết toàn bộ 64GB RAM nên khó làm việc khác cùng lúc.
- Điều này khả thi nhờ hiệu quả mô hình được cải thiện. Có thể xem đây là kết quả của các tối ưu hóa trong suốt một năm qua.
- Vẫn còn nhiều dư địa để tiếp tục cải thiện hiệu quả hơn nữa.
- Các mô hình Meta Llama 3.2: Dù chưa đạt cấp độ GPT-4, các mô hình 1B và 3B vẫn cho hiệu năng rất tốt dù kích thước nhỏ.
- Llama 3.2 3B: có thể chạy bằng ứng dụng miễn phí MLC Chat trên iOS.
- Kích thước dưới 2GB, có thể chạy trên iPhone với tốc độ tạo 20 token mỗi giây.
- Ví dụ: khi yêu cầu "cốt truyện phim Giáng sinh Netflix về một nhà báo dữ liệu phải lòng một thợ gốm địa phương", mô hình tạo ra câu trả lời cơ bản nhưng phù hợp.
- Tiêu đề: "Love in the Clay"
- Cốt truyện: nhân vật chính Jessica trở về quê nhà Willow Creek, điều tra lịch sử địa phương và tác động của gentrification khi câu chuyện dần mở ra.
- Kết quả còn khá bình thường, nhưng việc làm được điều này ngay trên iPhone vẫn rất thú vị.
# Giá LLM lao dốc, thay đổi do cạnh tranh và hiệu quả tạo ra
- Mức giá cuối năm 2023: Giá các mô hình chủ lực của OpenAI khi đó như sau.
- GPT-4: $30/million input tokens
- GPT-4 Turbo: $10/mTok
- GPT-3.5 Turbo: $1/mTok
- Biến động giá trong năm 2024:
- OpenAI o1: $30/mTok, là mô hình đắt nhất
- GPT-4o: $2.50/mTok (rẻ hơn GPT-4 12 lần)
- GPT-4o Mini: $0.15/mTok (rẻ hơn GPT-3.5 khoảng 7 lần nhưng hiệu năng tốt hơn)
- Anthropic Claude 3 Haiku: $0.25/mTok (ra mắt tháng 3, là mô hình rẻ nhất của Anthropic)
- Google Gemini 1.5 Flash: $0.075/mTok
- Google Gemini 1.5 Flash 8B: $0.0375/mTok (rẻ hơn GPT-3.5 Turbo 27 lần)
- Yếu tố làm giá giảm:
- Cạnh tranh gia tăng: nhiều nhà cung cấp mô hình tham gia thị trường, làm cạnh tranh về giá ngày càng khốc liệt.
- Hiệu quả được cải thiện: tối ưu hóa trong quá trình huấn luyện và suy luận giúp giảm tiêu thụ năng lượng.
- Mối lo về chi phí năng lượng cho từng prompt riêng lẻ đã giảm bớt.
- Hiệu quả và chi phí môi trường:
- Hiệu quả năng lượng tăng lên giúp giảm bớt lo ngại về môi trường.
- Tuy vậy, tác động môi trường từ việc xây dựng datacenter vẫn là một vấn đề.
- Tính toán chi phí sử dụng thực tế:
- Tính chi phí tạo mô tả cho thư viện ảnh cá nhân (68.000 ảnh) bằng Google Gemini 1.5 Flash 8B.
- Mỗi ảnh cần 260 input tokens và 100 output tokens.
- Tổng 17.680.000 input tokens * $0.0375/million = $0.66
- Tổng 6.800.000 output tokens * $0.15/million = $1.02
- Tổng chi phí: có thể xử lý 68.000 ảnh với $1.68.
- Tính chi phí tạo mô tả cho thư viện ảnh cá nhân (68.000 ảnh) bằng Google Gemini 1.5 Flash 8B.
- Ví dụ mô tả:
- Ảnh: hai con bướm đang ăn trên một khay đỏ tại California Academy of Sciences.
- Mô tả được tạo:
- Một bức ảnh chụp hai con bướm đang ăn trái cây trên khay đỏ.
- Mô tả chi tiết cả màu sắc và hoa văn của bướm.
- Chi phí: khoảng 0,0024 cent, chưa tới 1/400 cent.
- Một trong những thay đổi lớn nhất của năm 2024:
- Giá giảm và chi phí năng lượng hạ thấp đang tối đa hóa tính hữu dụng của LLM.
# Thị giác đa phương thức lan rộng, âm thanh và video mới xuất hiện
- Xu hướng chính của năm 2024: LLM đa phương thức (xử lý nhiều loại đầu vào ngoài văn bản như hình ảnh, âm thanh, video) đã trở nên phổ biến.
- Các trường hợp năm 2023:
- OpenAI GPT-4 Vision: ra mắt tại DevDay vào tháng 11 năm 2023.
- Google Gemini 1.0: công bố ngày 7 tháng 12 năm 2023.
- Các bản phát hành lớn trong năm 2024:
- Dòng Anthropic Claude 3: ra mắt tháng 3.
- Google Gemini 1.5 Pro: ra mắt tháng 4 (hỗ trợ xử lý hình ảnh, âm thanh, video).
- Qwen2-VL: ra mắt tháng 9.
- Mistral Pixtral 12B: ra mắt tháng 9.
- Meta Llama 3.2: ra mắt tháng 9 (mô hình thị giác 11B và 90B).
- OpenAI bổ sung tính năng đầu vào/đầu ra âm thanh: tháng 10.
- Hugging Face SmolVLM: ra mắt tháng 11.
- Các mô hình hình ảnh và video Amazon Nova: ra mắt tháng 12.
- Các trường hợp năm 2023:
- Công cụ và hỗ trợ đa phương thức:
- Vào tháng 10 năm 2024, công cụ LLM CLI mà tác giả dùng cá nhân đã được nâng cấp để hỗ trợ các mô hình đa phương thức.
- Đã thêm plugin có thể xử lý tệp đính kèm như hình ảnh, âm thanh và video.
- Tầm quan trọng của mô hình đa phương thức:
- Những chỉ trích cho rằng việc cải thiện LLM đã chậm lại dường như đã bỏ qua tiến bộ của các mô hình đa phương thức.
- Việc chạy prompt bằng hình ảnh, âm thanh và video là một bước tiến thú vị, mở ra những khả năng ứng dụng mới.
# Chế độ giọng nói và camera trực tiếp, khoa học viễn tưởng đã thành hiện thực
- Sự xuất hiện của chế độ giọng nói ban đầu:
- Tháng 9 năm 2023, ứng dụng ChatGPT trên di động đã thêm tính năng hội thoại bằng giọng nói.
- Sử dụng các mô hình Whisper (Speech-to-Text) và tts-1 (Text-to-Speech), nhưng bản thân mô hình thực tế chỉ xử lý văn bản.
- Chế độ giọng nói GPT-4o:
- Trong chế độ giọng nói mới được công bố ngày 13 tháng 5 năm 2024, mô hình GPT-4o là đa phương thức thực thụ, hỗ trợ đầu vào âm thanh và đầu ra giọng nói tự nhiên.
- Bản demo dùng một giọng nói giống Scarlett Johansson, nhưng sau tranh cãi thì giọng đó không được đưa vào sản phẩm thương mại.
- Việc trì hoãn phát hành chế độ giọng nói đã gây ra nhầm lẫn, nhưng tính năng này đã được triển khai dần dưới dạng ChatGPT Advanced Voice trong khoảng tháng 8~9.
- Trải nghiệm sử dụng: trò chuyện bằng chế độ giọng nói khi đi dạo đã giúp chất lượng nội dung cải thiện đáng kể.
- Các thử nghiệm dùng OpenAI Audio API đã xác nhận nhiều tính năng giọng nói đa dạng.
- Đặc điểm của chế độ giọng nói:
- Advanced Voice có thể thể hiện nhiều kiểu ngữ điệu khác nhau.
- Ví dụ: yêu cầu nó nói chuyện bằng tiếng Tây Ban Nha với giọng Nga đậm như một con bồ nông nâu California.
- Các mô hình giọng nói đa phương thức của công ty khác:
- Google Gemini: hỗ trợ đầu vào âm thanh, có thể hội thoại bằng giọng nói tương tự ChatGPT.
- Amazon Nova: đã công bố trước chế độ giọng nói (dự kiến ra mắt trong Q1 2025).
- Google NotebookLM (ra mắt tháng 9 năm 2024): tạo ra cuộc hội thoại giữa hai “người dẫn podcast” dựa trên nội dung đầu vào. Cũng hỗ trợ lệnh tùy chỉnh của người dùng.
- Sự xuất hiện của chế độ video trực tiếp:
- Tháng 12 năm 2024, ChatGPT đã thêm tính năng chia sẻ luồng camera trong chế độ giọng nói.
- Có thể trò chuyện về luồng camera theo thời gian thực.
- Google Gemini cũng cung cấp bản preview của tính năng tương tự trong cùng thời điểm.
- Khả năng truy cập API:
- Cả OpenAI và Google đều cung cấp API cho các tính năng này.
- Tháng 12, OpenAI công bố WebRTC API để đơn giản hóa việc phát triển ứng dụng web dựa trên giọng nói.
# Tạo ứng dụng bằng prompt, công nghệ đã trở thành chuyện thường ngày
- Khả năng của GPT-4 trong năm 2023:
- Có thể dùng GPT-4 để tạo ra ứng dụng tương tác hoàn chỉnh bằng HTML, CSS và JavaScript.
- Các công cụ như React cũng có thể được tích hợp thông qua cơ chế build bổ sung.
- Claude Artifacts được giới thiệu trong năm 2024:
- Một tính năng mới được giới thiệu vào giữa đợt công bố Claude 3.5 Sonnet của Anthropic.
- Cho phép người dùng tạo ứng dụng theo yêu cầu có thể chạy trực tiếp ngay trong giao diện Claude.
- Ví dụ: một công cụ trích xuất URL được tạo bằng Claude.
- Chỉ cần nhập URL là danh sách được trích xuất sẽ hiện ra ngay.
- Tác giả chia sẻ trải nghiệm dùng Claude Artifacts để tạo 14 công cụ nhỏ trong một tuần.
- Đối thủ cũng đưa ra tính năng tương tự:
- GitHub Spark: công bố tháng 10 năm 2024.
- Mistral Chat Canvas: được bổ sung tháng 11 năm 2024.
- Steve Krause của Val Town: dùng mô hình Cerebras để hiện thực hóa việc chỉnh sửa ứng dụng theo thời gian thực với tốc độ xử lý 2.000 token mỗi giây.
- Nhóm Chatbot Arena: tháng 12 giới thiệu leaderboard mới, nơi hai mô hình tạo cùng một ứng dụng rồi để người dùng bỏ phiếu.
- Dự án của riêng tác giả:
- Trong dự án Datasette, tác giả đang phát triển tính năng dùng prompt để tạo widget tùy chỉnh và trực quan hóa dữ liệu, đồng thời cho phép lặp lại quy trình này.
- Cũng hiện thực một mẫu tương tự để viết chương trình Python đơn lẻ bằng
uv.
- Triển vọng năm 2025:
- Sau khi vấn đề sandboxing trên trình duyệt được giải quyết, rất có thể tính năng này sẽ được tích hợp mặc định vào nhiều sản phẩm khác nhau.
# Truy cập miễn phí các mô hình tốt nhất, kết thúc chỉ sau vài tháng
- Giai đoạn miễn phí đầu năm 2024:
- GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro — ba mô hình tốt nhất thời điểm đó đã được cung cấp miễn phí cho phần lớn người dùng.
- OpenAI đã mở GPT-4o miễn phí vào tháng 5 năm 2024.
- Claude 3.5 Sonnet có thể dùng miễn phí ngay khi ra mắt vào tháng 6.
- Trước đó, người dùng miễn phí chủ yếu chỉ tiếp cận được các mô hình ở mức GPT-3.5, nhưng trong giai đoạn này họ đã có cơ hội trải nghiệm năng lực thực sự của các LLM hiệu năng cao.
- Kết thúc truy cập miễn phí:
- OpenAI đã chấm dứt truy cập miễn phí khi ra mắt ChatGPT Pro.
- ChatGPT Pro yêu cầu phí đăng ký 200 USD/tháng và cho phép truy cập o1 Pro, mô hình mạnh nhất của hãng.
- Triển vọng tương lai:
- Đặc điểm chính của dòng o1 là tận dụng nhiều tài nguyên tính toán hơn để cho kết quả tốt hơn.
- Với cấu trúc chi phí như vậy, khả năng thời kỳ truy cập miễn phí vào các mô hình tốt nhất quay trở lại là rất thấp.
# “Agent”, một khái niệm vẫn chưa thành hiện thực
- Sự mơ hồ của thuật ngữ:
- Thuật ngữ “agent” thiếu một định nghĩa đơn nhất và rõ ràng, và mỗi người lại hiểu theo một cách khác nhau.
- Nói chung nó được chia thành hai nhóm:
- Những agent kiểu mô hình đại lý du lịch, thực hiện công việc thay cho người dùng.
- Những agent dựa trên LLM có quyền truy cập công cụ, thực hiện tác vụ lặp và giải quyết vấn đề.
- Thuật ngữ “autonomy” cũng thường được dùng, nhưng càng làm tăng sự lẫn lộn do thiếu định nghĩa rõ ràng.
- Giới hạn về mặt khái niệm:
- “Agent” vẫn chỉ là một khái niệm dường như luôn ở trạng thái “sắp xuất hiện”.
- Dù đã thu thập 211 định nghĩa (khảo sát trên Twitter) và tóm tắt bằng mô hình Gemini-exp-1206, vẫn chưa đạt được đồng thuận rõ ràng.
- Sự hoài nghi về tính hữu ích:
- Tính thực tiễn của agent bị hạn chế bởi vấn đề bắt nguồn từ xu hướng “dễ bị lừa” của LLM.
- Nếu không thể phân biệt thật giả, thì đại lý du lịch, trợ lý số hay công cụ nghiên cứu đều khó đưa ra quyết định có ý nghĩa.
- Ví dụ: Google Search từng tóm tắt sai về bộ phim không tồn tại “Encanto 2” từ một wiki fan fiction giả tưởng.
- Prompt injection:
- Đây là vấn đề bắt nguồn từ xu hướng dễ bị lừa, đã được thảo luận từ tháng 9 năm 2022 nhưng đến năm 2024 vẫn chưa có nhiều tiến triển.
- Kết luận:
- Ý tưởng phổ biến về agent trên thực tế dường như phụ thuộc vào chính AGI (trí tuệ nhân tạo tổng quát).
- Việc phát triển các mô hình có độ tin cậy cao vẫn là một bài toán cực kỳ khó khăn.
# Tầm quan trọng của đánh giá (Evals)
- Đánh giá nổi lên như một kỹ năng cốt lõi:
- Trong năm 2024, việc viết các đánh giá tự động tốt (Evals) cho các hệ thống dựa trên LLM đã trở thành kỹ năng quan trọng nhất.
- Với bộ công cụ đánh giá mạnh, có thể nhanh chóng áp dụng mô hình mới, lặp lại hiệu quả hơn và phát triển tính năng đáng tin cậy.
- Cách tiếp cận của Anthropic:
- Amanda Askell: bí quyết của một system prompt tốt là phát triển dựa trên kiểm thử.
- "Không phải viết system prompt rồi đi tìm bài test, mà là viết bài test trước rồi tìm system prompt có thể vượt qua chúng."
- Cách tiếp cận này đóng vai trò then chốt trong quá trình phát triển Claude.
- Amanda Askell: bí quyết của một system prompt tốt là phát triển dựa trên kiểm thử.
- Trường hợp của Vercel:
- Malte Ubl: ban đầu đã dùng các phương pháp tiền xử lý và hậu xử lý phức tạp để bảo vệ prompt.
- Sau đó nhận ra rằng sự đơn giản của prompt, đánh giá, mô hình và UX mới là điều quan trọng hơn, nên đã đổi hướng.
- "Một prompt không có đánh giá cũng giống như một cỗ máy hỏng mà không có sách hướng dẫn."
- Malte Ubl: ban đầu đã dùng các phương pháp tiền xử lý và hậu xử lý phức tạp để bảo vệ prompt.
- Khám phá cá nhân:
- Đang nghiên cứu để tìm ra mẫu tối ưu nhằm triển khai các đánh giá hiệu quả.
- Cho đến nay, dù tầm quan trọng của đánh giá được nhấn mạnh nhiều, vẫn thiếu các hướng dẫn thật sự tốt về cách triển khai cụ thể.
- Cá nhân tôi từng dùng benchmark "bồ nông SVG đi xe đạp", nhưng nó không phải là sự thay thế cho một công cụ đánh giá đúng nghĩa.
# Apple Intelligence gây thất vọng, nhưng thư viện MLX thì xuất sắc
- Cải thiện trải nghiệm dùng ML trên Mac:
- Mac với 64GB RAM về lý thuyết rất phù hợp để chạy mô hình vì CPU và GPU có thể chia sẻ bộ nhớ.
- Tuy nhiên, do các mô hình và thư viện ưu tiên NVIDIA CUDA, người dùng Mac đã gặp nhiều hạn chế.
- Đổi mới của thư viện MLX:
- MLX của Apple (framework mảng dành cho Apple Silicon) cho phép chạy nhiều mô hình tương thích MLX với hiệu năng rất tốt trên Mac.
mlx-lmPython: hỗ trợ các mô hình tương thích MLX và có hiệu năng tốt.mlx-communitycủa Hugging Face: cung cấp hơn 1.000 mô hình đã được chuyển đổi sang đúng định dạng cần thiết.- Dự án
mlx-vlmcủa Prince Canuma: cho phép chạy vision LLM trên Apple Silicon.- Gần đây đã được dùng để chạy Qwen QvQ.
- Sự thất vọng với Apple Intelligence:
- Khi được công bố vào tháng 6 năm 2024, nó tạo được kỳ vọng nhờ tập trung vào các ứng dụng LLM coi trọng quyền riêng tư người dùng.
- Nhưng các tính năng thực tế được phát hành còn yếu và thua xa năng lực của các LLM tiên tiến nhất.
- Ví dụ:
- Tóm tắt thông báo tóm tắt sai các tiêu đề tin tức.
- Công cụ hỗ trợ viết không mấy hữu ích.
- Tuy vậy, Genmoji được xem là một tính năng khá vui.
- Ví dụ:
- Lập trường thay đổi của người dùng Mac:
- Nhờ các công cụ như MLX, mức độ hài lòng khi chọn nền tảng Mac đã tăng lên đáng kể.
- Đặc biệt là môi trường chạy LLM trên Apple Silicon đã được cải thiện.
# Sự trỗi dậy của các mô hình suy luận mở rộng quy mô "Reasoning"
- Sự xuất hiện của một dạng LLM mới:
- Trong quý 4 năm 2024, mô hình o1 của OpenAI (
o1-preview,o1-mini) lần đầu được công bố vào ngày 12 tháng 9. - Đây là dạng phát triển xa hơn của kỹ thuật chain-of-thought, được thiết kế để mô hình "nghĩ" trong khi giải bài toán.
- Trong quý 4 năm 2024, mô hình o1 của OpenAI (
- Đặc điểm của mô hình o1:
- Mô hình dùng "reasoning tokens" để suy luận vấn đề; người dùng không trực tiếp thấy quá trình này, nhưng có thể xem bản tóm tắt trong giao diện ChatGPT.
- Không chỉ tăng năng lực tính toán ở thời điểm huấn luyện, mà còn có thể cải thiện hiệu năng bằng cách dùng nhiều tính toán hơn trong lúc suy luận.
- Khả năng mở rộng của mô hình:
- Sử dụng thêm tài nguyên tính toán ở thời điểm suy luận để xử lý các bài toán khó hơn.
- Đây là một cách mới để mở rộng kiến trúc mô hình LLM hiện có.
- Mô hình tiếp theo o3:
- Được công bố ngày 20 tháng 12 năm 2024, ghi nhận kết quả ấn tượng trên benchmark ARC-AGI.
- Có thể đã tiêu tốn hơn $1,000,000 chi phí tính toán.
- Dự kiến phát hành vào tháng 1 năm 2025. Do chi phí tính toán cực cao, khả năng ứng dụng thực tế có lẽ sẽ bị hạn chế.
- Các công bố mô hình lớn khác:
- Google: ngày 19 tháng 12, phát hành
gemini-2.0-flash-thinking-exp. - Alibaba: ngày 28 tháng 11, công bố mô hình QwQ (giấy phép Apache 2.0), có thể chạy cục bộ.
- Ngày 24 tháng 12, công bố mô hình suy luận thị giác QvQ, cũng chạy được cục bộ.
- DeepSeek: ngày 20 tháng 11, cung cấp mô hình
DeepSeek-R1-Lite-Previewqua giao diện chat.
- Google: ngày 19 tháng 12, phát hành
- Nghiên cứu liên quan và dự đoán:
- Anthropic và Meta vẫn chưa công bố mô hình chính thức, nhưng nhiều khả năng đang phát triển các mô hình mở rộng suy luận tương tự.
- Meta đã công bố vào tháng 12 bài báo liên quan có tiêu đề "Training Large Language Models to Reason in a Continuous Latent Space".
- Thông tin thêm: khuyến nghị đọc Is AI progress slowing down? của Arvind Narayanan và Sayash Kapoor.
# LLM tốt nhất hiện nay được huấn luyện ở Trung Quốc với chi phí dưới 6 triệu USD?
- Tin tức chính:
- Vào dịp Giáng sinh 2024, DeepSeek v3 được công bố trên Hugging Face (đăng lên không có tệp README, rồi hôm sau mới bổ sung tài liệu và bài báo).
- Đây là mô hình khổng lồ 685B tham số, lớn hơn nhiều so với Llama 3.1 405B của Meta.
- Là mô hình quy mô lớn nhất được cung cấp theo giấy phép mở.
- Hiệu năng:
- Có hiệu năng benchmark tương đương Claude 3.5 Sonnet.
- Đứng thứ 7 trên Chatbot Arena, ngay sau Gemini 2.0 và các mô hình 4o/o1 của OpenAI.
- Là mô hình giấy phép mở có thứ hạng cao nhất.
- Chi phí huấn luyện:
- DeepSeek v3: khoảng $5,576,000 với 2,788,000 giờ GPU H800.
- Meta Llama 3.1 405B: dùng 30,840,000 giờ GPU, tốn gấp 11 lần DeepSeek v3, nhưng hiệu năng benchmark lại thấp hơn đôi chút.
- Ảnh hưởng của kiểm soát xuất khẩu GPU sang Trung Quốc:
- Có vẻ các biện pháp kiểm soát xuất khẩu GPU của Mỹ đã kích thích mạnh việc tối ưu hóa huấn luyện.
- Việc huấn luyện tiết kiệm chi phí của DeepSeek v3 được xem là kết quả của những tối ưu hóa đó.
# Tác động môi trường được cải thiện
- Hiệu quả tăng giúp giảm tiêu thụ năng lượng:
- Khi hiệu quả mô hình tăng mạnh, lượng năng lượng dùng để chạy prompt và tác động môi trường đã giảm sâu trong vài năm gần đây.
- OpenAI đã giảm chi phí mỗi prompt xuống 100 lần so với thời GPT-3.
- Các nhà cung cấp mô hình chi phí thấp như Google Gemini và Amazon Nova cũng có thể vận hành prompt mà không lỗ.
- Từ góc nhìn người dùng cá nhân:
- Mức tiêu thụ năng lượng do phần lớn các lần chạy prompt tạo ra trên thực tế là rất nhỏ.
- Nó có thể gây tác động môi trường thấp hơn cả việc lái xe một quãng ngắn hoặc xem một video YouTube.
- Chi phí huấn luyện giảm:
- Chi phí huấn luyện dưới 6 triệu USD của DeepSeek v3 cho thấy chi phí huấn luyện có khả năng sẽ tiếp tục giảm.
- Việc huấn luyện hiệu quả với ít tài nguyên hơn đang trở nên khả thi.
- So sánh với các mô hình kém hiệu quả:
- Chi phí năng lượng để huấn luyện mô hình lớn nhất của Llama 3 tương đương với chi phí năng lượng của vài chuyến bay thương mại chở kín hành khách từ New York đến London.
- Nhưng sau khi huấn luyện xong, hàng triệu người có thể sử dụng mà không phát sinh thêm chi phí huấn luyện, nên về dài hạn vẫn hiệu quả.
# Tác động môi trường trở nên tồi tệ hơn
- Cuộc đua xây dựng trung tâm dữ liệu quy mô lớn:
- Các công ty lớn như Google, Meta, Microsoft và Amazon đang đầu tư hàng tỷ USD để xây dựng các trung tâm dữ liệu nhằm đáp ứng nhu cầu của các mô hình trong tương lai.
- Việc mở rộng hạ tầng này gây tác động lớn đến lưới điện và môi trường.
- Cũng có những thảo luận về việc xây dựng các nhà máy điện hạt nhân mới, nhưng việc này có thể mất hàng chục năm.
- Tranh cãi về nhu cầu hạ tầng:
- Chi phí huấn luyện 6 triệu USD của DeepSeek v3 và việc giá LLM giảm cho thấy sự mở rộng này có thể không nhất thiết là cần thiết.
- Tuy nhiên, hầu như không có nhà điều hành nào sẵn sàng chấp nhận rủi ro rằng “không xây dựng hạ tầng rồi sau này bị chứng minh là một quyết định sai lầm”.
- Tương đồng lịch sử:
- Có thể so sánh với giai đoạn mạng lưới đường sắt được xây dựng trên toàn thế giới vào những năm 1800.
- Khi đó cũng đi kèm đầu tư khổng lồ và tác động môi trường, với nhiều tuyến đường bị chồng chéo, dẫn đến các kết quả không cần thiết.
- Kết quả là đã gây ra nhiều cuộc khủng hoảng tài chính:
- Hoảng loạn năm 1873, Hoảng loạn năm 1893, Hoảng loạn năm 1901, và Railway Mania ở Anh.
- Hạ tầng thì còn lại, nhưng cũng kéo theo các vụ phá sản quy mô lớn và thiệt hại môi trường.
- Bài học cho hiện tại:
- Cuộc đua trung tâm dữ liệu có thể để lại hạ tầng hữu ích, nhưng cũng tiềm ẩn nguy cơ mở rộng không cần thiết và gây tổn hại môi trường.
# Năm 2024, năm của “Slop”
- Định nghĩa của “Slop”:
- Đây đã trở thành một thuật ngữ dùng để chỉ nội dung do AI tạo ra nhưng không mong muốn và không được rà soát.
- Cũng như “spam” trở thành từ chỉ email không mong muốn, “slop” cũng được dùng rộng rãi đến mức được đưa vào từ điển.
- Nguồn gốc của thuật ngữ:
- Cuộc thảo luận bắt đầu từ một tweet của @deepfates:
- “Chúng ta đang chứng kiến ‘slop’ trở thành một thuật ngữ theo thời gian thực.”
- Vào tháng 5/2024, khái niệm này được mở rộng và định nghĩa là “nội dung do AI tạo ra mà không được yêu cầu và không được rà soát”.
- Cuộc thảo luận bắt đầu từ một tweet của @deepfates:
- Phản ứng của truyền thông:
- NY Times và Guardian đã trích dẫn phỏng vấn liên quan đến “slop”:
- “Chúng ta cần một thuật ngữ ngắn gọn để nói về AI hiện đại. ‘Bỏ qua email đó đi, đó là spam.’ và ‘Bỏ qua bài báo đó đi, đó là slop.’ đều là những bài học hữu ích.”
- NY Times và Guardian đã trích dẫn phỏng vấn liên quan đến “slop”:
- Tầm quan trọng của slop:
- Hữu ích trong việc diễn đạt ngắn gọn những cách dùng sai AI tạo sinh.
- Góp phần giúp AI được sử dụng hiệu quả và có trách nhiệm hơn.
- Ảnh hưởng văn hóa trong năm 2024:
- “Slop” đã vào danh sách đề cử Từ của năm của Oxford, nhưng không được chọn vì thua “brain rot”.
# Tác động đáng ngạc nhiên của dữ liệu huấn luyện tổng hợp
- Khái niệm “model collapse”:
- Được nhắc đến lần đầu trong bài báo The Curse of Recursion vào tháng 5/2023, và được chú ý nhiều hơn trên Nature vào tháng 7/2024.
- Lập luận là: nếu nội dung do AI tạo ra tràn ngập internet, các mô hình sẽ lặp đi lặp lại việc học từ chính đầu ra của mình và bị suy giảm hiệu năng.
- Thực tế: sự sụp đổ này đã không xảy ra; thay vào đó, việc huấn luyện mô hình bằng dữ liệu tổng hợp đang ngày càng trở nên phổ biến.
- Ưu điểm của dữ liệu tổng hợp:
- Được giải thích trong Phi-4 technical report:
- Dữ liệu tổng hợp không phải là vật thay thế cho dữ liệu hữu cơ, mà mang lại các lợi ích trực tiếp như sau:
- Học có cấu trúc và theo từng bước:
- Dữ liệu hữu cơ có quan hệ giữa các token phức tạp và gián tiếp, nên khó học hơn.
- Trong khi đó, dữ liệu tổng hợp được mô hình ngôn ngữ tạo ra dựa trên các token trước đó, nên các mẫu suy luận có thể được học dễ hơn.
- Quá trình học tập cũng có tính hệ thống và dễ dự đoán hơn.
- Học có cấu trúc và theo từng bước:
- Dữ liệu tổng hợp không phải là vật thay thế cho dữ liệu hữu cơ, mà mang lại các lợi ích trực tiếp như sau:
- Được giải thích trong Phi-4 technical report:
- Trường hợp mô hình lớn giúp mô hình nhỏ:
- Các mô hình quy mô lớn tạo dữ liệu tổng hợp cho các mô hình nhỏ hơn:
- DeepSeek v3: sử dụng dữ liệu “reasoning” do DeepSeek-R1 tạo ra.
- Meta Llama 3.3 70B: được fine-tune bằng hơn 25 triệu ví dụ tổng hợp.
- Các mô hình quy mô lớn tạo dữ liệu tổng hợp cho các mô hình nhỏ hơn:
- Tầm quan trọng của thiết kế dữ liệu:
- Thiết kế dữ liệu đang nổi lên như yếu tố quan trọng nhất trong huấn luyện LLM.
- Cách làm cũ là cào toàn bộ dữ liệu trên internet rồi huấn luyện một cách bừa bãi hiện nay không còn được sử dụng nữa.
# Năm 2024, việc sử dụng LLM trở nên khó hơn
- LLM là công cụ phức tạp:
- Bề ngoài có vẻ đơn giản, nhưng trên thực tế là một “công cụ cho power user” đòi hỏi hiểu biết sâu và kinh nghiệm.
- Có thể mô tả bằng phép so sánh rằng nó “được ngụy trang để trông như dao bếp, trong khi thực chất là công cụ phức tạp như cưa máy”.
- Vấn đề trầm trọng hơn trong năm 2024:
- Các mô hình đã mạnh hơn, nhưng vẫn giữ nguyên những giới hạn và ràng buộc cũ.
- Nhiều hệ thống khác nhau được đưa vào, mỗi hệ thống hỗ trợ các công cụ khác nhau như Python, JavaScript, tìm kiếm web, tạo ảnh, v.v.
- Người dùng phải hiểu khả năng và giới hạn của từng công cụ thì mới có thể sử dụng hiệu quả.
- Sự gia tăng phức tạp giữa các hệ thống:
- Ví dụ: trong ChatGPT, có thể chạy Python theo hai cách khác nhau.
- Để tạo Claude Artifact giao tiếp với API bên ngoài, cần hiểu các HTTP header CSP và CORS.
- OpenAI o1 chạy với chức năng hạn chế, trong khi GPT-4o hỗ trợ tìm kiếm web và code interpreter.
- Ngay trong cùng một giao diện ChatGPT, người dùng phải hiểu sự khác biệt về tính năng giữa hai mô hình này.
- Giới hạn của trải nghiệm người dùng:
- Giao diện chat LLM mặc định mang lại trải nghiệm giống như thả người mới bắt đầu vào một terminal Linux.
- Nhiều người dùng hình thành mô hình nhận thức sai lệch về cách LLM hoạt động và những gì nó có thể làm.
- Ví dụ: ngày càng có nhiều trường hợp phi lý dùng ảnh chụp màn hình ChatGPT làm bằng chứng trong tranh cãi.
- Vấn đề hai mặt:
- Lạm dụng: người dùng hiểu lầm LLM là công cụ vạn năng dù nó còn nhiều thiếu sót.
- Né tránh: ngay cả những người hiểu rõ cũng từ bỏ hoàn toàn việc dùng LLM vì các khiếm khuyết của nó.
- Để tận dụng LLM hiệu quả, điều cốt yếu là phải biết hợp tác với một công nghệ vừa không hoàn hảo vừa mạnh mẽ.
- Nhu cầu về nội dung giáo dục:
- Giáo dục người dùng là rất quan trọng, nhưng hiện vẫn còn thiếu.
- Thay vì dựa vào các chuỗi tweet thổi phồng về AI, cần phát triển những tài liệu đào tạo đáng tin cậy hơn.
# Sự phân bố không đồng đều của tri thức
- Những gì đã biết và chưa biết:
- Hầu hết mọi người đều biết ChatGPT, nhưng rất ít người từng nghe về Claude.
- Khoảng cách tri thức giữa những người theo dõi lĩnh vực này một cách chủ động và 99% còn lại là rất lớn.
- Tốc độ thay đổi nhanh:
- Tốc độ thay đổi công nghệ càng làm khoảng cách tri thức trở nên sâu sắc hơn.
- Chỉ trong tháng gần đây, các giao diện live đã được giới thiệu:
- Có thể vừa nói chuyện bằng giọng nói vừa chĩa camera điện thoại vào một vật thể nào đó.
- Thậm chí còn có thể chọn chức năng bắt chước vai ông già Noel.
- Ngay cả những người tự nhận là đam mê công nghệ đôi khi cũng chưa thử các tính năng này.
- Tác động xã hội và nhu cầu:
- Khi xét đến tác động mà công nghệ này sẽ có với xã hội hiện tại và tương lai, quy mô của khoảng cách tri thức như vậy là không lành mạnh.
- Cần có nhiều nỗ lực hơn để cải thiện điều này.
# Cần những phê bình tốt hơn về LLM
- Phản cảm với công nghệ:
- Trong một số cộng đồng như Mastodon, Bluesky, Lobste.rs, Hacker News, chỉ riêng ý kiến "LLM hữu ích" cũng có thể gây ra tranh cãi.
- Lý do có sự phản cảm với công nghệ:
- Tác động môi trường.
- Các vấn đề đạo đức của dữ liệu huấn luyện.
- Thiếu độ tin cậy.
- Các trường hợp sử dụng tiêu cực.
- Tác động tiềm tàng đến việc làm.
- Sự cần thiết của phê phán:
- LLM xứng đáng bị phê phán, và điều quan trọng là phải thảo luận về các vấn đề, tìm giải pháp, đồng thời giáo dục về cách sử dụng có trách nhiệm.
- Mục tiêu là giúp những cách sử dụng tích cực vượt trội hơn các tác động tiêu cực.
- Giá trị của góc nhìn hoài nghi:
- Sự cường điệu quá mức (hype) đã làm vấn đề tệ hơn trong 2 năm qua:
- Thông tin sai lệch và kỳ vọng bị thổi phồng đã lan tràn.
- Các quyết định sai lầm thường xuyên được đưa ra.
- Tư duy phản biện là yếu tố thiết yếu để hiểu và sử dụng đúng công nghệ này.
- Sự cường điệu quá mức (hype) đã làm vấn đề tệ hơn trong 2 năm qua:
- Đối thoại với người ra quyết định:
- Cần công nhận các trường hợp sử dụng tốt của công cụ, đồng thời giải thích cách tránh những cạm bẫy không trực quan.
- Việc khẳng định rằng không tồn tại trường hợp sử dụng tốt là bỏ qua giá trị tiềm năng của công nghệ.
- Truyền tải đúng thông điệp:
- Kiểu phê phán phiến diện như "cỗ máy đạo văn phá hoại môi trường và lúc nào cũng nói dối" không giúp giải quyết vấn đề.
- Để khám phá và hiện thực hóa giá trị thực sự của LLM, cần có hướng dẫn và đào tạo không mang tính trực quan.
- Vai trò có trách nhiệm:
- Những người hiểu công nghệ này có trách nhiệm giúp người khác có thể sử dụng nó đúng cách.
1 bình luận
Ý kiến trên Hacker News
Nhiều người có xu hướng cho rằng LLMs vô dụng sau khi dùng ChatGPT 4. Tuy nhiên, Claude Sonnet 3.5 vẫn có thể hữu ích
Thuật ngữ "agent" không có ý nghĩa rõ ràng nên gây ra nhầm lẫn
Có lo ngại về việc giá LLM giảm xuống
Khái niệm "agent" vẫn chưa được định nghĩa rõ ràng
Không đồng ý với nhận định rằng việc sử dụng LLMs đã trở nên khó hơn
Việc đánh giá cái gì là "tốt" đã trở nên khó khăn hơn
Có những người đã từ bỏ việc sử dụng LLMs vì các khiếm khuyết của chúng
Một số mô hình GPT-4 có thể chạy ngay trên laptop
Không hiểu vì sao việc Apple dùng 64GB DRAM lại là điều đặc biệt
Có sự bối rối về cấu trúc chi phí của Google Gemini và Amazon Nova
Có ý kiến cho rằng LLMs không hữu ích cho các công việc thường ngày
Đã nhận ra rằng tiêu chuẩn đạo đức và tiêu chuẩn xuất sắc của ngành này rất thấp
Có câu hỏi về tình trạng hiện tại khi "suy luận" bị đẩy vào không gian tiềm ẩn/thần kinh