Sự trở lại của fine-tuning

(welovesota.com)

13 điểm bởi GN⁺ 2025-10-21 | 2 bình luận | Chia sẻ qua WhatsApp

Fine-tuning đang một lần nữa nổi lên như trung tâm của phương pháp phát triển AI, được thúc đẩy bởi việc Thinking Machines Labs công bố Tinker và sự chuyển dịch mô hình sang triển khai LLM mã nguồn mở tự quản lý
Fine-tuning, từng giảm xuống còn dưới 10% khối lượng công việc suy luận AI, nay снова được chú ý nhờ các nền tảng GPU-as-a-service, hệ sinh thái mô hình đã ổn định hơn và sự lan rộng của các mô hình open-weight
Công nghệ LoRA (Low-Rank Adaptation) cắt giảm mạnh chi phí bằng cách chỉ thêm các ma trận hạng thấp nhỏ thay vì huấn luyện lại hàng tỷ tham số, trong khi vẫn giữ nguyên hoặc cải thiện hiệu năng
Tinker cung cấp kiến trúc học liên tục thông qua học tăng cường trực tuyến, gợi mở tương lai của fine-tuning bằng cách đánh giá và cải thiện phản hồi do chính mô hình tạo ra thay vì bắt chước các câu trả lời được viết sẵn
Fine-tuning đang tiến hóa vượt khỏi một bước kỹ thuật đơn thuần để trở thành lớp chiến lược cho quyền sở hữu, sự căn chỉnh và cải tiến liên tục, và được kỳ vọng sẽ là động lực cốt lõi cho máy tính AI cá nhân và vận hành các agent chuyên biệt

Bối cảnh lịch sử của fine-tuning

Thinking Machines Labs đã công bố Tinker, làm nóng lại thảo luận về fine-tuning-as-a-platform
- Startup do cựu CTO của OpenAI là Mira Murati thành lập này được định giá 12 tỷ USD chỉ sau 6 tháng thành lập
- Công ty định vị nền tảng fine-tuning như cơ sở cho hợp tác nghiên cứu với các trường đại học
Clément Delangue của Hugging Face nhận thấy một sự chuyển dịch mô hình sang triển khai LLM chuyên biệt, mã nguồn mở và tự quản lý
- Phần cứng chuyên dụng như DGX Spark của NVIDIA đang hỗ trợ xu hướng này
- Personal AI Workstation của a16z là một ví dụ marketing cho xu hướng đó
Fine-tuning từng được chú ý trong làn sóng đầu tiên của mô hình ngôn ngữ lớn, nhưng rồi nhanh chóng mờ nhạt và hiện chỉ chiếm dưới 10% khối lượng công việc suy luận AI

Thời kỳ trước Transformer

Trước cuộc cách mạng Transformer, NLP phụ thuộc vào các mô hình chuyên biệt
- Các kiến trúc tuần hoàn như RNN và LSTM đã tạo ra những bước tiến ban đầu
- Lần đầu tiên, chúng học trực tiếp từ chuỗi từ thay vì dựa vào các đặc trưng ngôn ngữ được thiết kế thủ công
- Mỗi ứng dụng đều phải bắt đầu từ đầu với dữ liệu theo từng tác vụ

Sự xuất hiện của Transformer và việc xác lập phương pháp fine-tuning

Năm 2017, bài báo Attention Is All You Need của Google đã giới thiệu kiến trúc Transformer
- Nó thay thế hồi tiếp và tích chập chỉ bằng self-attention
Bảy tháng sau, ULMFiT chứng minh rằng mô hình ngôn ngữ đã tiền huấn luyện (khi đó vẫn dựa trên LSTM) có thể được fine-tuning cho nhiều tác vụ khác nhau
- Điều này đặt nền móng về mặt phương pháp luận để Transformer trở nên thực tiễn
Một năm sau, BERT và GPT-1 đã hiện thực hóa thiết kế này
- BERT tận dụng phía encoder với attention hai chiều để phục vụ hiểu ngôn ngữ
- GPT sử dụng phía decoder với attention một chiều để phục vụ sinh nội dung
BERT đặc biệt đã định hình lại văn hóa NLP
- Thay vì xây dựng mọi mô hình từ đầu, các nhà nghiên cứu fine-tune Transformer đã tiền huấn luyện để đạt được những kết quả vốn trước đây cần hàng tháng trời feature engineering thủ công

Giới hạn của Full Fine-Tuning và sự xuất hiện của LoRA

Khi số tham số tăng vọt từ hàng triệu lên hàng trăm tỷ, fine-tuning không còn là lựa chọn khôn ngoan như trước
- Full Fine-Tuning (FFT) nghĩa là huấn luyện lại toàn bộ các lớp và trọng số
- Nó mang lại độ chính xác nhưng đi kèm chi phí khổng lồ
- Việc từng chỉ cần vài giờ GPU đã biến thành một công việc công nghiệp quy mô lớn
Năm 2021, Microsoft Research giới thiệu LoRA (Low-Rank Adaptation of Large Language Models)
- Thay vì huấn luyện lại hàng tỷ tham số, LoRA đóng băng trọng số gốc và thêm các ma trận hạng thấp nhỏ vào những lớp được chọn
- Chỉ những thành phần này được huấn luyện, giúp giảm chi phí xuống mức một chữ số mà vẫn duy trì hoặc cải thiện hiệu năng so với FFT
- LoRA đã trở thành cách làm mặc định
- Tới năm 2024, nhờ thư viện PEFT của Hugging Face, nó có thể được triển khai bằng một dòng lệnh

Độ phức tạp của tinh chỉnh siêu tham số

Fine-tuning không chỉ là một gói để triển khai và duy trì
- Bản thân việc tinh chỉnh mới là nơi phép màu thực sự xảy ra, và không bao giờ có một cấu hình duy nhất phù hợp cho mọi thứ
Tinh chỉnh siêu tham số tự nó quyết định thành bại của mô hình
- Cân bằng rank, learning rate và tỷ lệ alpha gần với giả kim hơn là khoa học
- Cần tránh việc adapter bị overfit hoặc mô hình quên mất những gì nó đã biết (catastrophic forgetting)
Khi cuối cùng có được thứ hoạt động, việc đánh giá đôi khi giống bói toán hơn là xác minh
Trong khi đó, LLM tiếp tục cải thiện ở gần như mọi tác vụ và tiến gần trạng thái gần như toàn năng
- Tới năm 2023, phần lớn các nhóm nhận ra rằng nhờ context window lớn hơn, họ có thể đạt khoảng 90% hiệu năng của fine-tuning chỉ bằng prompt engineering
- RAG (Retrieval-Augmented Generation) cũng cho phép mô hình truy cập các kho tri thức bên ngoài
- Cả hai cách tiếp cận này đều không cần huấn luyện lại và cho kết quả đủ tốt với gánh nặng vận hành thấp hơn nhiều

Vì sao fine-tuning lại được chú ý trở lại

Những yếu tố từng khiến fine-tuning trở nên kém liên quan hoặc thiếu hiệu quả nay đang được giải quyết từng cái một
- Các nền tảng GPU-as-a-service như Together.ai cho phép khởi động pipeline fine-tuning LoRA với ma sát tối thiểu
- Các mô hình mới vẫn ra mắt nhanh, nhưng thay đổi giờ đây mang tính tiến hóa hơn là cách mạng
- Hệ sinh thái open-weight như Mistral, Llama, Falcon, Yi và Gemma mang lại nhiều lựa chọn để tổ chức có thể sở hữu, kiểm tra và duy trì các biến thể đã fine-tune mà không bị khóa vào nhà cung cấp
- Các doanh nghiệp có thể đã chạm tới giới hạn của những gì chỉ prompting có thể đạt được
Fine-tuning đang dần được nhìn nhận trở lại không phải như một tính năng thời thượng mà như đòn bẩy chiến lược cho khả năng kiểm soát, khác biệt hóa và trí tuệ tích hợp sẵn

Tinker của Thinking Machines Lab và những cải tiến cho LoRA

Tinker của Thinking Machines Lab tập trung vào chứng minh định lý, suy luận hóa học, học tăng cường đa tác tử và an toàn AI
Trong bài blog LoRA Without Regret, họ chia sẻ cách fine-tune hiệu quả hơn
- Họ khuyến nghị áp dụng LoRA cho mọi mô-đun tuyến tính, không chỉ các lớp attention như trong bài báo gốc
- Họ nhấn mạnh tầm quan trọng của LoRA rank, một siêu tham số thường bị bỏ qua
- Họ khuyến nghị learning rate cao hơn (ít nhất gấp 10 lần) và batch size nhỏ hơn, trái với thông lệ phổ biến
- Họ khuyên nên định nghĩa tường minh hàm thưởng bằng xác minh toán học hoặc logic
- Tất cả các khuyến nghị đều được mô tả rõ ràng và có thể tái lập trong TRL của Hugging Face

Tính mô-đun của pipeline fine-tuning hiện đại

Pipeline fine-tuning hiện đại hoàn toàn khác so với 5 năm trước
- Nó mang tính mô-đun, serverless và được điều phối
Một triển khai đơn lẻ có thể chạy hàng chục adapter LoRA cùng với mô hình nền
- Mỗi adapter đại diện cho một tông giọng, chức năng hoặc miền cụ thể
Trong lúc suy luận, hệ thống định tuyến truy vấn tới tổ hợp adapter phù hợp thay vì phụ thuộc vào một file mô hình tĩnh
Tính mô-đun này cũng tạo ra những thách thức riêng
- Các nền tảng all-in-one như Together.ai xử lý phần lớn công việc nặng, nhưng thường thiếu cấu hình chi tiết và khả năng quan sát mà nhiều nhóm cần
- Chi phí ở quy mô lớn có thể tăng nhanh chóng

Cách tiếp cận độc đáo của Tinker

Tinker dường như mang lại điều tốt nhất từ cả hai phía
- Nó kết hợp sự tiện lợi của một stack fine-tuning hiện đại, được quản lý hoàn toàn, với khả năng kiểm soát chi tiết dành cho nhà nghiên cứu
- Nó cung cấp truy cập API trực tiếp tới các primitive huấn luyện cấp thấp để người dùng có thể điều phối workflow học tập và thuật toán tùy chỉnh ở mức sâu nhất
- Đồng thời, nó vẫn xử lý những phần việc khó nhằn
Hiện tại Tinker mới chỉ được dành riêng cho mục đích nghiên cứu, nhưng được kỳ vọng sẽ truyền cảm hứng cho các nền tảng khác
Vấn đề hạ tầng đang dần trở thành chuyện của quá khứ, nhưng bài toán đánh giá vẫn là nút thắt lớn

Khó khăn trong đánh giá mô hình và học tăng cường trực tuyến

Mô hình cực kỳ khó đánh giá
- Đánh giá bởi con người thiếu nhất quán, chậm và trên hết là rất tốn kém
- Benchmark nhanh chóng lỗi thời và mất tính liên quan do ô nhiễm dữ liệu
- Ngay cả các cách tiếp cận tự động như G-Eval hay Chatbot Arena cũng gây ra vấn đề riêng, thường khuếch đại thiên lệch và tạo ra điểm số thiếu ổn định
Benjamin Anderson cho rằng Tinker có thể nắm giữ một phần lời giải
- Tinker trao cho người dùng khả năng thực hiện học tăng cường trực tuyến
- Nó lấy các completion từ trọng số hiện tại của mô hình, chấm điểm các completion đó, rồi cập nhật mô hình tùy theo việc completion tốt hay xấu
- Nếu supervised fine-tuning dạy mô hình bắt chước các phản hồi viết sẵn, thì online RL cải thiện mô hình bằng cách chấm điểm chính phản hồi do nó tạo ra
Với kiến trúc này, tương lai của fine-tuning có thể sẽ không còn trông giống fine-tuning nữa
- Nó bắt đầu giống học liên tục

Sự tiến hóa chiến lược của fine-tuning

Robert Hommes của Moyai.ai nói rằng
- "Về lý thuyết, fine-tuning lúc nào cũng là một lựa chọn hợp lý. Nhưng tốc độ mà các phòng lab closed-source mở rộng trí tuệ mô hình đã khiến nó trở thành một lựa chọn tệ trong thực tế"
- "Giờ đây, với compute, dữ liệu và framework tốt hơn, xu hướng đang nghiêng trở lại về chuyên biệt hóa"
Sự chuyển dịch sang self-hosting có thể đến gần hơn dự đoán
- Constant Razel của Exxa nói rằng "máy tính AI cá nhân không còn là một ý tưởng xa vời"
- Công nghệ đang được cải thiện và trở nên dễ tiếp cận hơn
- Bảo mật và chi phí có thể là động lực dẫn dắt làn sóng chấp nhận ban đầu
- Fine-tuning sẽ cho phép các agent chuyên biệt, hiệu năng cao chạy trên đó
Fine-tuning đang chuyển mình từ cuộc theo đuổi brute-force cho độ chính xác biên sang một framework cho quyền sở hữu, sự căn chỉnh và cải tiến liên tục dựa trên tính gần gũi và khả năng kiểm soát
Nó có thể không còn chỉ là một bước kỹ thuật đơn thuần nữa mà là lớp chiến lược cho cách trí tuệ được xây dựng và sở hữu

2 bình luận

m00nlygreat 2025-10-22

Con người rốt cuộc lại trở thành vật cản đối với sự phát triển của AI nhỉ. Đây đúng là một tình thế tiến thoái lưỡng nan khá thú vị đấy. haha

GN⁺ 2025-10-21

Ý kiến Hacker News

Chỉ mới 1 năm trước thôi tôi còn khá lạc quan. Đã từng có ít nhất một trường hợp fine-tuning dựa trên RL tỏ ra có ý nghĩa. Nhưng khi cố áp dụng nó vào công việc thực tế, có rất nhiều va chạm với các công nghệ sẵn có trong ngành. Nhìn các kỹ sư ML quanh tôi, đặc biệt là những người được tuyển sau khi LLM xuất hiện, nhiều người thực sự thiếu kiến thức ML nền tảng. Về thực chất họ là nhà phát triển AI hoặc AI DevOps. Bản thân ML cũng đang dần biến thành một nghề dùng các công cụ nền tảng, giống như data engineering hay analytics. Thực tế, nhìn qua thì có những sản phẩm AI trên nền tảng cloud thậm chí còn không cung cấp cả chỉ số đánh giá, khiến việc phát triển một giải pháp ML đúng nghĩa là bất khả thi. Cũng hầu như chẳng mấy ai coi đây là vấn đề lớn. Fine-tuning bằng RL đòi hỏi vô số chi tiết, điểm cần giám sát và refinement dữ liệu. Ngay cả các mô hình ML đơn giản giờ cũng ít người học bài bản, nên khoảng cách kỹ năng với RL fine-tuning còn lớn hơn nhiều. Vì ví dụ thành công trong thực tế quá ít nên ở nơi làm việc cũng khó học từ người đi trước. Xu hướng hiện nay còn là cắt giảm cả chi phí gán chuyên gia lẫn labeling dữ liệu. Tôi khá hoài nghi việc công ty sẽ duy trì hỗ trợ kỹ thuật kiểu này được bao lâu, và sau khi tôi rời đi thì còn ai có thể thay nhau đảm trách. AutoML cũng đã không thể phổ cập, và tôi nghĩ RL có lẽ cũng không dễ được platform hóa. Thực tế là phần lớn công ty chẳng ngại trả nhiều tiền hơn cho những sản phẩm kém hơn nhưng có khả năng mở rộng lớn. “Kinh nghiệm” trong ngành rốt cuộc lại là kinh nghiệm với các nền tảng độc quyền. Thỉnh thoảng stack công nghệ có ghi yêu cầu pytorch, nhưng gần như chẳng có nhân viên nào thực sự dùng được. Mà kể cả có thì cũng khó dùng vì gánh nặng vận hành
- Labeling thực sự là thứ thiết yếu để kiểm chứng hệ thống nhanh và khách quan, kể cả khi không trực tiếp huấn luyện mô hình. Nhưng việc có được nhãn thì lúc nào cũng đầy khó khăn. Thỉnh thoảng dù có huy động được nguồn lực SME, việc giao tiếp để họ áp dụng tiêu chí nhất quán một cách nghiêm ngặt vẫn rất khó, và nhãn cuối cùng tạo ra thường khó dùng. Kết cục là tôi thường tự nguyện đi labeling một mình. Dù không hiểu sâu lĩnh vực chuyên môn, tôi lại đại khái biết “mạng nơ-ron thích gì”, nên có thể giảm rất nhiều thời gian chờ. Việc tinh chỉnh các mô hình lớn đến giờ vẫn khó biện minh. Thường chỉ cần chờ 6 tháng là đã có base model tốt hơn xuất hiện. Nhưng nếu mô hình lớn quá đắt và rơi vào vùng kém hiệu quả, thì fine-tuning một mô hình nhỏ cho đúng mục tiêu chắc chắn rất đáng giá
- Tôi cảm thấy “engineering” đúng nghĩa, tức kỹ năng chuyển lý thuyết phức tạp thành hệ thống hoạt động thực tế, đã suy yếu đi rất nhiều. Giờ đây xu hướng là dựa vào các dịch vụ engineering dựng sẵn thay vì đầu tư nhiều thời gian để nâng cao tay nghề engineering của chính mình. Nếu nhìn theo tinh thần hacker, việc tự mình huấn luyện mô hình trên một GPU mơ hồ nào đó đâu nhất thiết phải có ROI. Đó là vì các kỹ sư cá nhân luôn khao khát tiếp thu tri thức
- Cuối cùng rồi cũng sẽ có ai đó tạo ra kết quả tử tế bằng cách đo lường hiệu quả thực sự, rồi Michael Lewis sẽ viết sách về chủ đề này và một chu kỳ mới lại bắt đầu
- Tôi cũng đã thấy nhiều đội kỳ vọng fine-tuning sẽ tạo ra tác động lớn, nhưng trên thực tế chỉ nhận được cải thiện dần dần hoặc rất nhỏ. Cuối cùng họ còn sản phẩm hóa nó rồi lại hối hận vì không theo kịp các cập nhật SOTA mới nhất. Tôi đang cố tình tránh fine-tuning. Vì bản thân mô hình đang cải thiện quá nhanh, đến mức tốc độ phát triển sản phẩm của các doanh nghiệp lớn cũng không theo kịp
Gần đây tôi có khảo sát trên Twitter về các trường hợp tạo ra giá trị kinh tế bằng fine-tuning LLM. Tôi đặt câu hỏi này khoảng mỗi 6 tháng một lần và kết quả đa phần luôn gây thất vọng. Lần này thì có tập hợp được câu trả lời đáng tin hơn trước một chút. Các trường hợp chính tôi đã tổng hợp trong thread trên Twitter, và để dành cho người không dùng Twitter thì cũng chia sẻ cả liên kết trình xem thread. Một ví dụ ấn tượng là Datadog đạt độ trễ dưới 500ms cho tính năng truy vấn tìm kiếm bằng ngôn ngữ tự nhiên tweet liên quan, xem thêm tài liệu chính thức. Vercel đang vận hành mô hình fine-tuning tùy chỉnh cho tính năng tự động tạo Next.js, cũng có blog. Shopify thì đang dùng Vision LLM đã fine-tuning để phân tích ảnh sản phẩm, tham khảo bài viết
- Với các tác vụ hồi quy (regression), fine-tuning gần như là bắt buộc. Với phân loại (classification) cũng hữu ích vì có thể dùng trực tiếp giá trị xác suất để điều chỉnh ngưỡng có/không
- Với đa số công ty, tôi nghĩ phần thưởng so với rủi ro của fine-tuning sẽ tệ hơn kỳ vọng. Nếu chỉ cần nhét thêm dữ liệu vào prompt là giải quyết được thì làm thế còn dễ hơn
- Nếu bạn có ý tưởng về một trường hợp mà fine-tuning có thể tạo ra thay đổi lớn nhưng không có thời gian hay nguồn lực để tự thử nghiệm, tôi rất hoan nghênh việc chia sẻ các ý tưởng như vậy. Hiện tôi đang thu thập các trường hợp kiểu này, nhưng lúc này mới chỉ có 3 trường hợp thực tế/đã xác minh
- Rất nhiều người cố fine-tuning kiến thức miền cho LLM thường mắc sai lầm, ví dụ cắt nhỏ sách tâm lý học rồi chỉ đưa phần văn bản vào. Cách đó không dạy được “hành vi áp dụng tâm lý học”, mà chỉ khiến mô hình học cách “viết bài giới thiệu” về nó. Thiết kế dataset sai là nguyên nhân của nhiều thất bại trong fine-tuning. Ngược lại, nếu cấu trúc dataset tốt thì mô hình 7B có thể đạt hiệu quả vượt mô hình 180B
Tôi đồng ý với OP dựa trên vài trường hợp gần đây tôi thấy. PaddleOCR với 0.9B tham số đạt độ chính xác gần mức SOTA cho văn bản, bảng biểu, công thức, biểu đồ và cả chữ viết tay paper. Ngoài ra, các mô hình 3B/8B đạt độ chính xác ngang GPT-5 trong tác vụ trích HTML sang JSON, với chi phí rẻ hơn 40~80 lần và tốc độ suy luận nhanh hơn Reddit. Nếu muốn tăng hiệu quả cho một tác vụ cụ thể, fine-tuning có ý nghĩa
- Tôi tò mò không biết bạn đã trực tiếp dùng PaddleOCR chưa. Tôi thấy lạ khi họ tuyên bố là SOTA mà không so với Amazon Textract hay Azure Document Intelligence (dựa trên LayoutLM v3). Khi tôi thử nghiệm nhận dạng tài liệu thì hai cái đó mới là hàng đầu
- Cuộc thảo luận này lại quay về bài toán SLM và LLM, tức là kích thước mô hình. SLM có thể được tối ưu cho một công việc cụ thể và trong bài toán đó có thể thắng LLM. Tuy nhiên, nếu 1. độ chính xác cực kỳ quan trọng hoặc 2. lưu lượng không quá lớn, thì giá trị thu được so với thời gian/công sức bỏ ra sẽ không cao
Với tư cách người từng sáng lập startup fine-tuning LLM tên là Lamini, tôi không đồng ý với OP. Giả thuyết của chúng tôi là fine-tuning sẽ dễ dùng hơn nhiều so với việc học deep learning từ đầu. Vì đã bắt đầu từ những LLM vốn rất mạnh nên chúng tôi nghĩ nó sẽ dễ hơn. Nhưng sau khi làm hơn 20 dự án thực tế, chúng tôi nhận ra fine-tuning khó và có rào cản gia nhập cao chẳng kém deep learning. Trong cấu trúc thị trường hiện nay, nếu là kỹ sư ML giỏi fine-tuning dựa trên deep learning thì bạn có thể dễ dàng khởi nghiệp hoặc gia nhập Anthropic, OpenAI v.v. Chính những đội đang xây giải pháp LLM lại không thực sự trân trọng các kỹ sư giỏi. Kết quả là các đội chuyên môn làm ra Claude, GPT, Qwen v.v. có năng lực cạnh tranh tốt hơn nhiều so với các nỗ lực fine-tuning riêng lẻ của từng người dùng. Hiện tại, RAG, prompt engineering, reasoning, AI agent, memory, SLM v.v. đều là những giải pháp dễ hơn và mạnh hơn rất nhiều
- Tôi tò mò không biết Anthropic hay OpenAI có thực sự tuyển bất kỳ ai biết fine-tuning LLM không
- Tôi tò mò không biết khi đó bạn fine-tuning loại mô hình nào, liệu đó có phải mô hình đã phát triển đủ để fine-tune tốt chưa, và có gặp vấn đề catastrophic forgetting (mất nhớ nghiêm trọng) hay không. Giờ đây cũng đã có nhiều mô hình mã nguồn mở tốt hơn. Nếu thiết kế kiến trúc có tính đến fine-tuning ngay từ đầu, tôi nghĩ vẫn có thể khắc phục nhược điểm của các thế hệ trước. Doanh nghiệp muốn sở hữu mô hình của mình hơn là đi thuê mô hình của người khác
Fine-tuning là một kỹ thuật tốt, rất nên có trong hộp công cụ. Nhưng trong thực tế, phạm vi ứng dụng của nó hẹp hơn tưởng tượng. Một mặt, nhiều bài toán NLP đã đạt độ chính xác khá cao chỉ với năng lực mặc định của LLM nên không cần fine-tuning. Mặt khác, các bài toán thực sự phức tạp thì fine-tuning rất khó, mà thu thập dữ liệu cũng rất đắt. Rốt cuộc, fine-tuning là giải pháp phù hợp cho những tác vụ ở khoảng giữa: độ khó vừa đủ và việc thu thập dữ liệu cũng còn khả thi
- Tôi nghĩ có đến hàng trăm nghìn use case phù hợp
- Tôi tò mò những ví dụ nào thuộc nhóm tác vụ “ở khoảng giữa” đó
Trang web này tải cực nhanh ngay cả khi truy cập từ châu Âu. Nội dung được tải động theo cuộn trang, ảnh thì nén mạnh mà chất lượng vẫn tốt. Cách tổ chức site thực sự rất ấn tượng
- Chắc là nhờ phép màu của CDN, và có lẽ còn vì họ dùng JS ở mức tối thiểu nữa (tôi vẫn chưa xem source)
Gần đây tôi có viết một bài blog về chủ đề tương tự blog. Tôi đã bàn về “LoRA Land”, một nghiên cứu thực nghiệm quy mô lớn trong đó mô hình 7B fine-tuning đã vượt GPT-4, cùng với việc xu hướng fine-tuning đã thay đổi ra sao trong 6 tháng gần đây
Tôi tự hỏi liệu với LoRA adapter có thể đưa vào bên trong mô hình các yếu tố ngữ cảnh như chuẩn tác vụ vốn phải luôn nhét vào prompt, sở thích style đặt tên, tài liệu tham chiếu, định nghĩa MCP v.v. hay không. Dữ liệu có thể tạo khá tiện bằng cách trước tiên nhét vào càng nhiều ngữ cảnh sẵn có càng tốt, thử nhiều prompt khác nhau, rồi xem phản hồi khác baseline như thế nào. Kết quả đó cũng có thể đưa vào fine-tuning theo dạng input=refactor {base model output}, output={full-context model output}. LoRA vốn được thiết kế để dùng theo kiểu kết hợp, nên có lẽ MCP cũng có thể phân phối dưới dạng adapter để bật/tắt. Tôi còn nghĩ cách này có thể ngăn cả context poisoning
Tôi là nhà phát triển của inference.net và schematron. Khi doanh nghiệp đưa LLM vào sản phẩm thực tế, họ ngày càng chú trọng hiệu quả. Từ góc nhìn developer, dù có thể tính phí với những mô hình đắt như GPT-5-Super-AGI-Thinking-Max, nhưng doanh nghiệp thực sự vẫn phải cân hiệu quả. Nếu có thể fine-tuning một mô hình Llama 8 tỷ tham số trong vòng 48 giờ dựa trên dữ liệu GPT-5 để tiết kiệm 100.000 USD mỗi tháng, thì dĩ nhiên ai cũng muốn nắm lấy cơ hội đó
Có vẻ hiện nay phần lớn doanh nghiệp đã chạm tới giới hạn của những gì chỉ prompt đơn giản có thể đạt được. Họ cần một mô hình hiểu chính xác từ vựng, giọng điệu, hệ phân loại và quy định tuân thủ riêng của công ty. Tốc độ và chi phí đúng là quan trọng, và đó là lý do chính của fine-tuning. Nhưng các kỹ thuật quản lý ngữ cảnh giờ cũng đã cho phép phối hợp tốt hơn. Khi kích thước ngữ cảnh tăng lên thì RAG đã thay thế fine-tuning, và gần đây chỉ riêng thiết kế prompt tốt hơn cũng đã nâng đáng kể khả năng ứng dụng. Giống như tranh luận FPGA với CPU/GPU, vì chi phí phát triển và rủi ro tiến độ để đạt hiệu năng tối đa, nên phần lớn mọi người không tận dụng được lợi ích của fine-tuning cao cấp