4 điểm bởi GN⁺ 2025-08-15 | 3 bình luận | Chia sẻ qua WhatsApp
  • Gemma 3 270M là mô hình nhẹ với 270 triệu tham số, sở hữu khả năng tuân theo chỉ dẫn mạnh mẽ và khả năng cấu trúc hóa văn bản
  • Nhờ bộ từ vựng quy mô lớn 256k token, mô hình xử lý tốt các token hiếm, đồng thời được thiết kế như một mô hình nền tảng để fine-tune theo từng miền và ngôn ngữ cụ thể
  • Trên SoC của Pixel 9 Pro, mô hình lượng tử hóa INT4 chỉ tiêu tốn 0,75% pin cho 25 lượt hội thoại, cho thấy hiệu quả năng lượng vượt trội
  • Thay vì dùng một mô hình đa dụng cỡ lớn, có thể vận hành nhiều mô hình nhỏ chuyên biệt để đồng thời đạt được tốc độ, chi phí và độ chính xác
  • Được tối ưu cho các tác vụ cố định cần chạy on-device, thử nghiệm lặp nhanh và vận hành chi phí thấp, từ đó có thể xây dựng nhiều ứng dụng AI đa dạng

Tổng quan về Gemma 3 270M

  • Đây là mô hình nhỏ chuyên cho fine-tune mới được Google công bố, tiếp nối Gemma 3 và Gemma 3 QAT
  • Trong 270M tham số, có 170 triệu dành cho embedding và 100 triệu dành cho các khối transformer
  • Sở hữu 256k token trong bộ từ vựng lớn để xử lý token hiếm và đặc biệt
  • Cung cấp cả phiên bản pretrained và instruction-tuned

Các đặc điểm chính

  • Cấu trúc nhỏ gọn nhưng mạnh mẽ: lý tưởng để fine-tune theo miền/ngôn ngữ cụ thể
  • Hiệu quả năng lượng cực cao: trên SoC Pixel 9 Pro, mô hình INT4 chỉ dùng 0,75% pin cho 25 lượt hội thoại
  • Khả năng làm theo chỉ dẫn: được tối ưu cho tác vụ hơn là hội thoại đa dụng, và vẫn có thể thực hiện chỉ dẫn ngay cả ở trạng thái cơ bản
  • Hỗ trợ lượng tử hóa (QAT): giảm thiểu suy giảm hiệu năng ở độ chính xác INT4, phù hợp với môi trường hạn chế tài nguyên

Triết lý “đúng mô hình cho đúng việc”

  • Nhấn mạnh cách tiếp cận lấy hiệu quả làm trung tâm trong thiết kế AI
  • Mô hình nhỏ cho phép phản hồi nhanh và vận hành với chi phí thấp
  • Khi chuyên biệt hóa cho các tác vụ rõ ràng như phân loại văn bản hay trích xuất dữ liệu, mô hình có thể đạt hiệu năng cao
Quảng cáo

Các trường hợp ứng dụng thực tế

  • Adaptive ML đã fine-tune mô hình Gemma 3 4B cho bài toán kiểm duyệt nội dung đa ngôn ngữ của SK Telecom và đạt hiệu năng vượt qua các mô hình độc quyền quy mô lớn
  • Mô hình 270M mở rộng cách tiếp cận này xuống quy mô nhỏ hơn, cho phép tạo hàng loạt “mô hình chuyên gia” cho từng nhóm tác vụ chuyên biệt
  • Ứng dụng Bedtime Story Generator trên nền web của Hugging Face sử dụng Gemma 3 270M để tạo nội dung thời gian thực ở chế độ offline hoặc ngay trong trình duyệt web

Kịch bản sử dụng phù hợp

  • Xử lý tác vụ rõ ràng với khối lượng lớn: lý tưởng cho các tác vụ chuyên biệt như phân tích cảm xúc, trích xuất thực thể, định tuyến truy vấn, chuyển đổi văn bản, sáng tạo nội dung và kiểm tra tuân thủ
  • Tối ưu nhất về kinh tế và tốc độ: có thể vận hành với chi phí rất thấp trên hạ tầng nhẹ hoặc on-device, đồng thời cung cấp phản hồi tức thì
  • Phát triển và triển khai nhanh: do kích thước mô hình nhỏ, quá trình thử nghiệm fine-tune cũng như tối ưu hóa/kiểm thử có thể hoàn thành trong vài giờ
  • Bảo vệ quyền riêng tư: có thể xử lý trực tiếp trên thiết bị mà không cần gửi dữ liệu lên đám mây, thuận lợi cho việc bảo vệ thông tin nhạy cảm
  • Vận hành mô hình tùy biến chuyên biệt: có thể đồng thời xây dựng và triển khai nhiều mô hình cho các mục đích khác nhau mà không tạo gánh nặng ngân sách

Fine-tune và triển khai

  • Có thể tải mô hình từ Hugging Face, Ollama, Kaggle, LM Studio, Docker và các nền tảng khác
  • Hỗ trợ nhiều công cụ suy luận như Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras, MLX
  • Cung cấp hướng dẫn fine-tune toàn phần dựa trên Hugging Face, UnSloth và JAX
  • Có thể triển khai linh hoạt từ môi trường cục bộ đến Google Cloud Run

Kết luận

  • Gemma 3 270M là mô hình nền tảng nhỏ nhưng mạnh mẽ, giúp tăng tốc việc xây dựng các giải pháp AI tối ưu cho từng tác vụ cụ thể
  • Đây là lựa chọn lý tưởng cho các nhà phát triển muốn đồng thời theo đuổi chi phí thấp, hiệu quả cao và triển khai nhanh

3 bình luận

 
kaydash 2025-08-16

Nếu có thể làm thành file .task thì tôi sẽ thoải mái dùng thử trên điện thoại thông minh Android..

 
kaydash 2025-08-17

Có sẵn một file .task (không phải web) do ai đó tạo nên tôi thử trên di động, và nó trả lời tốt, ngắn gọn, nhanh chóng.

Tuy vậy, có vẻ qwen3:0.6b làm tốt hơn (tất nhiên cái này có lẽ nặng hơn).

 
GN⁺ 2025-08-15
Ý kiến trên Hacker News
  • Tôi đã cùng một đội ngũ tuyệt vời tạo ra các mô hình này, và chúng có thể được tải xuống rộng rãi trong toàn bộ hệ sinh thái mô hình mở nên tôi khuyên mọi người hãy thử dùng. Chúng tôi thiết kế với mục tiêu mang lại hiệu năng mạnh so với kích thước mô hình, đồng thời để bất kỳ ai cũng có thể dễ dàng fine-tune theo trường hợp sử dụng của mình. Nhờ kích thước nhỏ, chúng có thể chạy trên nhiều loại phần cứng và chi phí fine-tune cũng rất rẻ. Bạn thậm chí có thể tự thử fine-tune miễn phí trên Colab trong vòng chưa đến 5 phút. Nếu cần hướng dẫn chọn kích cỡ Gemma, có thể xem video tôi tự ghi giới thiệu các bản từ 1b ~ 27b và bản 270m mới được bổ sung gần đây liên kết YouTube. Tôi làm nghiên cứu tại Google, nhưng mọi ý kiến ở đây đều là quan điểm cá nhân. Tôi sẽ cố gắng chia sẻ nhiều nhất có thể, tập trung vào các câu hỏi kỹ thuật

    • Tôi nghĩ các mô hình Gemma 3 thực sự rất ấn tượng. Khả năng tạo tiếng Na Uy cũng ổn và việc làm theo chỉ dẫn trong đa số trường hợp là khá tốt. Nhưng có vẻ có một vấn đề liên quan đến kiểm duyệt, đặc biệt với các chủ đề nghiêm túc thì mô hình hành xử quá thận trọng so với chỉ dẫn. Ví dụ, khi yêu cầu nó phân loại xem tin nhắn hội thoại trong một trò chơi nơi người chơi có thể giết nhau là đe dọa thật hay là đe dọa trong game, thì nó hoạt động không tốt. Ngay cả khi được bảo rằng nếu không rõ thì hãy phân loại là liên quan đến game, nó vẫn có xu hướng thiên về an toàn. Thậm chí có lúc còn đưa ra cả số điện thoại hỗ trợ. Có lẽ đây là ảnh hưởng từ quá trình huấn luyện để mô hình hành xử an toàn, nhưng tôi tò mò không biết có ai biết lý do không

    • Tôi nhớ đến một kỹ sư Google rất tuyệt mà tôi đã gặp ở BSidesSF. Anh ấy trả lời câu hỏi rất tận tâm, và khi tôi bấm vào video thì hóa ra chính là bạn! Đó là một khoảnh khắc truyền cảm hứng mạnh mẽ, cảm ơn bạn

    • Tôi tự hỏi liệu bạn có thể chia sẻ ví dụ thực tế nào về các bản đã được fine-tune không. Chỉ mô tả thôi cũng được, nhưng nếu có demo hoặc thậm chí tải được model weights nữa thì càng tuyệt, nhất là ở định dạng GGUF

    • Đây thực sự là một thành quả rất tuyệt. Hiếm khi thấy một mô hình cỡ 270M tham số lại hiệu quả đến vậy. Các lựa chọn kiến trúc cũng mới mẻ và thú vị. Tôi muốn hỏi liệu bạn có thể chia sẻ thêm thông tin huấn luyện chi tiết hơn không. Vì tham số embedding là 170M, tôi tò mò các bạn đã giữ ma trận embedding ổn định như thế nào trong quá trình huấn luyện mà không bị sụp đổ embedding. Tôi cũng muốn biết liệu có tài liệu nào nói thêm về các thí nghiệm nội bộ hoặc đánh đổi hiệu năng liên quan đến việc chia tham số (170m/100m) không. Cảm ơn vì toàn bộ dòng mô hình này

    • Thật sự là một công trình rất ấn tượng. Mô hình này cho cảm giác rất tốt trong các tác vụ một lần như tóm tắt hoặc tự động hoàn thành. Việc phát hành cả phiên bản quantized aware training ngay từ ngày ra mắt cũng rất hay, nhờ đó mô hình còn nhỏ hơn nữa

  • Cuộc trò chuyện của tôi với mô hình 270M-F16 thật ấn tượng. Tôi hỏi “Ngọn núi cao thứ hai trên Trái Đất là gì?” thì nó cứ trả lời “Everest”. Tôi hỏi “Thế ngọn thứ nhất là gì?” thì cũng “Everest”. “Thứ ba?” “Thứ tư?” thì tất cả đều là “Everest”. Khi tôi nói “Chính bạn đã bảo Everest là ngọn cao nhất rồi mà” thì nó phản ứng “Đúng vậy, vui mừng”. Tôi tiếp tục hỏi ngọn núi cao thứ hai mà nó vẫn chỉ lặp lại “Everest”. Cuối cùng chỉ đến khi tôi yêu cầu “liệt kê các ngọn núi hạng 1~5” thì nó mới đổi câu trả lời thành 1. Everest, 2. K2, 3. Sahel, 4. Fuji, 5. McKinley. Nhưng kể cả khi tôi hỏi “Vậy ngọn cao thứ hai là K2 đúng không?” thì nó vẫn tiếp tục trả lời “Everest”. Những mô hình nhỏ thế này thật tuyệt, nhưng đúng là có cảm giác như đang nói chuyện với trẻ con

    • Mô hình này chỉ có khoảng 270M tham số, tức khoảng 1/3 của 1B. Về bản chất thì nó chỉ đang thực hiện một ít phép nhân ma trận, nên không thể kỳ vọng nhiều kiến thức, ngữ pháp hay tính nhất quán. Các mô hình dưới 1B như thế này là những mô hình chuyên biệt được tối ưu cho mục đích cụ thể. Ví dụ, chúng phù hợp để trích xuất thông tin từ đánh giá khách hàng thành đối tượng JSON để chương trình có thể sử dụng văn bản đầu vào theo cách có ý nghĩa. Những mô hình này cần được fine-tune rất mạnh trên loại dữ liệu mong đợi thì mới cho kết quả tốt. Cuối cùng, nếu một mô hình 270MB có thể cho ra kết quả bạn muốn sau khi fine-tune, thì chẳng cần phải dùng một mô hình đa dụng 32GB làm gì

    • Bổ sung thêm, ngay từ đầu chúng tôi không nhắm tới khả năng bám sát sự thật hoàn hảo. Bất kể kích cỡ mô hình thế nào, các trọng số này đã bị cố định rồi. Điều tôi muốn khuyến nghị là kết nối nó với hệ thống RAG để dựa vào tri thức bên ngoài, hoặc tự fine-tune để chỉ chứa những sự thật bạn muốn. Nó cũng tiếp thu tri thức mới rất nhanh

    • Dùng mô hình 270M để kiểm tra tri thức kiểu bách khoa chẳng khác nào nhìn vào một file JPG bị nén quá mạnh rồi nhận xét “chất lượng ảnh vỡ quá”

    • Nhìn vào prompt thì có vẻ bạn đang muốn đánh giá tri thức, nhưng mô hình này không phù hợp cho mục đích đó. Như đã nói trong bài blog, nó “cho hiệu năng vượt trội về độ chính xác, tốc độ và chi phí trong các tác vụ như phân loại văn bản hoặc trích xuất dữ liệu”

    • Với yêu cầu “hãy lên lịch trình 2 ngày ở Paris”, câu trả lời của nó đưa ra một kế hoạch du lịch rất cụ thể theo từng khung giờ, gồm các điểm tham quan, landmark, khám phá bảo tàng nghệ thuật, trải nghiệm nhiều món ăn, đi dạo ở khu Marais và khu Latin, ghé thăm Musée d'Orsay, v.v. Nó cũng cung cấp mẹo chuẩn bị chuyến đi khá kỹ lưỡng

  • Mô hình này thật sự rất vui. Nó cực nhỏ, khoảng 241MB, cực nhanh, nhưng cũng bịa ra gần như mọi thứ một cách rất tự do. Ví dụ, khi yêu cầu “hãy tạo SVG của một con bồ nông đi xe đạp”, mô hình lại viết thơ cho tôi (ví dụ: 'Đây là một con mèo, đôi cánh to và chiếc đuôi hạnh phúc', 'Ánh đèn xe đạp tỏa sáng rực rỡ', 'Sẵn sàng cho cuộc phiêu lưu', v.v.). Tôi đã đăng kết quả của nhiều lần thử lên Gist. Tôi hy vọng rồi sẽ có các mô hình đã được fine-tune để tạo ra đầu ra hữu ích có thể dùng cho những tác vụ được chọn

    • Tôi đã cười lớn ở lần thử này. Nó tạo ra thứ gì đó như thơ hay bài hát, rồi giải thích từng dòng sẽ được phản ánh vào SVG như thế nào, và kết lại bằng câu “Mã SVG này truyền tải khung cảnh một cách rõ ràng và trực quan”

    • Tôi thấy bạn đang dùng ggufs của ollama. Mặc định bạn sẽ nhận mô hình lượng tử hóa Q4_0, nhưng có thể có kết quả tốt hơn với gemma3:270m-it-bf16, hoặc ggufs của unsloth tại hf.co/unsloth/gemma-3-270m-it-GGUF:16

    • Nó đôi khi tạo ra rất nhiều token vô nghĩa, nhưng đúng là tuôn ra một lượng token khổng lồ

    • Tải xuống 241MB nghĩa là cần hơn 170 đĩa mềm

    • Với câu hỏi “Julius Caesar sinh khi nào?”, nó trả lời “Julius Caesar sinh ra ở Rome”. Thật đẹp đẽ :D (không phải để chê bai, mà ý là sẽ cần nhiều công sức hơn để uốn nắn nó)

  • Tôi nghĩ Apple cũng nên làm các mô hình kiểu này. Nếu mục tiêu không phải là thay hợp đồng tìm kiếm bằng hợp đồng AI, thì việc Apple hiện diện mờ nhạt như thế này thật quá kỳ lạ. Tim Cook từng nói đây là “cơ hội mà chúng ta phải nắm lấy”, nhưng nhìn vào những bước đi gần đây thì có cảm giác họ đang mất phương hướng. Cố lên Google

    • Đây là điều xuất hiện trong mọi thread về LLM trên HN: mọi người nói LLM vẫn ngu ngốc và vô dụng. Tôi không đồng ý với điều đó, nhưng đúng là cho đến nay chưa có công ty nào tìm ra cách ứng dụng AI đã được chứng minh đầy đủ là xứng đáng đầu tư về dài hạn. Apple vốn luôn vào thị trường muộn (ví dụ MP3, smartphone, smartwatch) nhưng lại từng áp đảo bằng các sản phẩm mang tính cách mạng

    • Các mô hình ở mức GPT2 đã được dùng trong tự động hoàn thành của Apple rồi liên kết chi tiết

    • Nếu “kiểu này” là SLM (mô hình ngôn ngữ nhỏ), thì đúng là Apple đã nghiên cứu lĩnh vực này từ lâu

    • Apple cũng đang làm. Có cả tài liệu chính thức Foundation Models Doc. Nếu cài bản beta mới nhất thì bạn có thể gọi API trực tiếp. Ngoài ra, Apple còn chính thức hỗ trợ fine-tune cho mô hình áp dụng trên gần như mọi thiết bị tài liệu liên quan

    • Apple sẽ không phát hành các mô hình kiểu này. Như có thể thấy từ các bình luận khác, ở thời điểm hiện tại hiệu năng vẫn chưa đủ. Rất khó để tìm được mô hình vừa sinh token ở tốc độ chấp nhận được trong sử dụng thực tế, vừa không làm thiết bị quá nóng, vừa không nói nhảm lung tung (tôi đã tự thử khá nhiều). Apple luôn không thích các sản phẩm chưa hoàn thiện hoặc hoàn thiện kém, thà trì hoãn phát hành còn hơn

  • Tôi đang dùng DistilBERT để phân loại bài viết WordPress. Dữ liệu có hơn 100 nghìn mẫu, và sau khi fine-tune thì có thể làm báo cáo khá đầy đủ. Dù phân phối không đồng đều thì vẫn có thể xử lý phần nào bằng mẹo. Tôi định thay bằng mô hình này trong tương lai và so sánh hiệu năng, rồi sẽ chia sẻ nếu có thay đổi

  • Tôi tò mò liệu có trường hợp thực tế nào người dùng đã thực sự fine-tune những mô hình nhỏ thế này rồi đưa vào production hay chưa

    • Tôi từng có trải nghiệm tạo reranker cho hệ thống RAG bằng mô hình nhỏ. Sau bước tạo ứng viên (vector search + BM25), business logic và bộ lọc ACL, mô hình tiny sẽ quyết định liệu các text chunk còn lại có thực sự liên quan đến truy vấn hay không rồi lọc tiếp. Nó đã thực sự vào production, nhưng về sau khi kích thước context của các mô hình tăng lên thì mô-đun đó bị loại bỏ vì vấn đề giá và chất lượng. Dù vậy, đúng là nó đã từng vận hành trong thực tế một thời gian

    • Công ty chúng tôi đang mở rộng theo cách dùng mô hình nhỏ để sàng lọc, rồi nếu độ tin cậy cao thì xác nhận bằng ChatGPT. Chúng tôi cũng định áp dụng cách này cho nhận diện ngôn ngữ. Các mô hình ML mã nguồn mở hiện có thường yếu ở ngôn ngữ pha trộn/độ dài câu/lĩnh vực cụ thể (ví dụ chỉ được huấn luyện trên bản dịch Kinh Thánh)

    • Khó nói sẽ dùng ở đâu, nhưng có lẽ khá ổn cho việc sinh tag. Các encoder cỡ này đôi khi lại vượt trội hẳn trong những tác vụ cụ thể khác

    • Nếu tôi nhớ không nhầm, Android (đặc biệt là Pixel) đang dùng các mô hình Gemma đã fine-tune cho trợ lý on-device và những thứ tương tự

    • Dùng cho phần bình luận của 9gag.com

  • Dạo này cuộc đua tối ưu hóa mô hình rất khốc liệt, nên tôi từng tự hỏi nếu loại bỏ các thông tin ngôn ngữ/lĩnh vực không cần thiết thì có thể giảm số tham số được bao nhiêu. Ví dụ nếu chỉ hỗ trợ tiếng Anh, liệu có thể bỏ tiếng Trung hay các ngôn ngữ châu Âu đi để làm được nhiều tác vụ hơn trong cùng số tham số hay không

    • Đây chính là điều chúng tôi trăn trở nhiều nhất khi tạo ra mô hình này. Sẽ có đánh đổi tùy theo “bạn muốn nó làm tốt bao nhiêu tác vụ và ở mức nào”. Cần chọn dữ liệu khác, chiến lược huấn luyện khác rồi đo hiệu năng. Thực sự tôi khuyên mọi người hãy tự huấn luyện mô hình trên tập tác vụ của mình để đánh giá các đánh đổi hiệu năng. Qua những thử nghiệm như vậy, bạn có thể trực tiếp cảm nhận sự thay đổi năng lực của LLM

    • Thực tế không đơn giản như vậy đâu. Bạn có thể tham khảo transfer learning

  • Tôi thật sự không ngờ rằng vào năm 2025 mình sẽ chạy được một LLM công bố trong năm đó trên iPhone, ở độ chính xác đầy đủ BF16. Trên iPhone 16 Pro nó chạy khoảng 80 token mỗi giây

    • Tôi tò mò không biết bạn đã thực sự chạy mô hình này trên iPhone bằng cách nào
  • Xin bổ sung cho bài viết: điểm IFEval chính xác của Gemma 3 270M là 51.2. Qwen 3 nằm ở tọa độ (0.6, 59.2) trên biểu đồ phân tán

  • Xin lưu ý rằng việc chọn prompt ảnh hưởng cực lớn đến hiệu năng của mô hình này. NER hay gán nhãn POS thì hơi đáng thất vọng. Nhưng dịch các ngôn ngữ không thuộc hệ Ấn-Âu (ví dụ tiếng Thái, tiếng Indonesia sang tiếng Anh) lại hoạt động tốt đến mức đáng ngạc nhiên