Công bố Gemini CLI GitHub Actions
(blog.google)- Google ra mắt Gemini CLI GitHub Actions dựa trên Gemini CLI để hỗ trợ cộng tác nhóm trên kho GitHub.
- Gemini CLI là tác nhân AI mã nguồn mở cho phép tận dụng khả năng AI ngay trong terminal
- Phiên bản GitHub Actions này được thiết kế cho môi trường làm việc theo nhóm và có thể xem như một đồng nghiệp AI hoạt động ngay trong repo
- Công cụ này được phát hành miễn phí, mã nguồn mở và hiện có sẵn toàn cầu ở giai đoạn beta
- Công cụ tự động chạy không đồng bộ dựa trên các sự kiện xảy ra trong kho GitHub (ví dụ: issue mới, tạo PR), đồng thời tự động xử lý công việc bằng cách hiểu toàn bộ ngữ cảnh của dự án
- Cung cấp 3 workflow mã nguồn mở mạnh mẽ
- Phân loại issue thông minh (Intelligent issue triage)
- Phân tích issue mới để tự động gắn nhãn và xếp hạng ưu tiên
- Giúp nhà phát triển tập trung vào các tác vụ quan trọng
- Review PR nhanh hơn (Accelerated pull request reviews)
- Cung cấp phản hồi nhanh và sâu cho các thay đổi mã nguồn
- Rà soát chất lượng, phong cách và độ chính xác của mã để giảm gánh nặng cho người review
- Hợp tác theo yêu cầu (On-demand collaboration)
- Có thể giao nhiệm vụ bằng cách nhắc đến
@gemini-clitrong issue hoặc PR - Ví dụ: "Viết thử nghiệm cho lỗi này", "Triển khai đề xuất trên", "Động não phương án thay thế", "Sửa lỗi đã được xác định rõ"
- Có thể giao nhiệm vụ bằng cách nhắc đến
- Phân loại issue thông minh (Intelligent issue triage)
- Hãy xem các workflow này như một bệ phóng; vì là mã nguồn mở nên bạn có thể tự xây dựng workflow riêng của mình
- Tự động hóa các công việc lặp lại và tốn nhiều thời gian để nâng cao năng suất phát triển, tăng hiệu quả quản lý review code và issue, và cải thiện tốc độ cộng tác của nhóm
1 bình luận
Ý kiến Hacker News
Đây là tình huống mơ hồ, không biết đây là CLI, GitHub Action hay GitHub Application. Jules vốn đã được gọi là "coding agent", nhưng giờ không rõ có phải một công cụ khác đang thay thế vai trò đó, hay đây là trường hợp tự ăn mòn của Google. Mình cảm giác đây là lúc công ty cần một ban lãnh đạo có tầm nhìn rõ ràng hơn. Mình từng viết code Android 13 năm, hợp tác với Google, từng giữ vai trò lãnh đạo trong cộng đồng/ hội nghị nhà phát triển của Google, giao tiếp với nhiều GDE, và còn dùng Gemini API trong sản phẩm của mình, mà vẫn không hiểu được nó là cái gì. Với người dùng thông thường thì chắc chắn sẽ rất khó hiểu. Có tới 2 SDK cho kết nối Gemini API, tài liệu thì tản mạn khắp nơi; muốn làm một tính năng cụ thể phải vừa Google vừa lục tung repo mã nguồn. Hầu hết các tính năng mong muốn đều bị giới hạn tần suất (rate limit) hoặc chỉ mở cho tester kín. Có tới 3 coding agent. Dù đã có quyền truy cập tài khoản Google và điện thoại, ứng dụng Gemini thì không làm được gì. Ngay cả thao tác cơ bản như thêm service account trong Google Cloud cũng khó vì UX gây bối rối. Điều dùng được duy nhất là AI Studio. Có thể thử nghiệm nhiều model, và trải nghiệm cấp Gemini API key đã khá hơn. Nói thật, việc ra mắt lần này khó để tán dương; nó chỉ là mức một sản phẩm mới “trung bình”.
Mình nghĩ cần có ranh giới rõ ràng giữa văn hóa nghiên cứu và văn hóa phần mềm. Trong môi trường nghiên cứu, sự hỗn loạn khi nhiều đội cùng thử nghiệm nhiều hướng đồng thời đôi khi lại có tác dụng tích cực, nhưng phần mềm và sản phẩm người dùng trực tiếp sử dụng cần cách tiếp cận khác.
Google dường như tạo ra nhiều “incubating” space, và khi một số trong số đó thành công thì không hòa hợp trọn vẹn với các sản phẩm hiện có, làm người dùng bối rối. Cũng có ví dụ như NotebookLLM. Nhưng cá nhân mình nghĩ cách làm này vẫn hơn. Nhóm NotebookLLM cũng cho thấy họ có không khí làm việc khá tự chủ.
Điểm buồn cười nhất là đã có quyền truy cập tài khoản Google và thông tin điện thoại, nhưng Gemini app vẫn làm được không có gì. Mở app thì nó chào “Hello, Vasco”, nhưng khi hỏi “Tên mình là gì?”, nó lại trả lời “Không thể lấy thông tin người dùng.” Mình biết tại sao mà, nhưng tình huống này thật buồn cười.
Jules chạy không đồng bộ trong VM, trên một checkout code riêng. Gemini CLI thì hoạt động đồng bộ cục bộ với người dùng (ngoại trừ chế độ YOLO). Hai cách này hoàn toàn khác nhau.
Với Google Workspace lại khác hẳn. Kích hoạt Gemini CLI cho toàn tổ chức là hoạt động vừa vui vừa buồn. Xem giải thích chi tiết
Mình hiểu Google có nhu cầu cạnh tranh trong lĩnh vực coding AI, nhưng có nhiều điểm đáng chú ý.
Gemini vẫn chưa làm được các việc cơ bản như đặt lịch họp.
Với Google Docs không chỉnh sửa cộng tác được, chỉ chèn được.
Docs hay Sheets cũng không có điểm kiểm soát trung tâm (MCP) để quản lý.
Trợ giúp công thức trong Sheets còn tệ hơn cả Google Search. Thật đáng tiếc là Gemini vẫn chưa nổi bật được dù có rất nhiều khu vực riêng như vậy. Hồi trước, khi search chính xác từ "remarkable" trên Gmail thì kết quả lại kèm cả từ liên quan như "amazing". Việc tìm kiếm trong mọi sản phẩm đang đi xuống, nên cảm giác khá bức bối lúc này.
Thực tế, trên điện thoại Android của mình có email đặt lịch giao hàng, nhấn giữ nút nguồn thì Gemini pop-up. Lấy được context màn hình và nói "Đưa cái này vào lịch của mình" là lịch sẽ được thêm. Nó không hoạt động hoàn hảo (ví dụ như kéo dài qua nhiều ngày hoặc vị trí bất thường có thể bị rơi), nhưng đang dần tốt hơn. Nếu là khách hàng Google Workspace thì còn hỗ trợ tích hợp giữa ứng dụng web Gemini với Calendar và Drive. Nhiều việc khác cũng làm được như tóm tắt tài liệu. Nên nhận định "không thể tạo lịch" thì về thực chất không đúng.
Mình nghĩ việc Google chưa mở rộng Gemini cho Docs giống với lý do Apple không mở AI cho iPhone. Độ tin cậy vẫn chưa đủ tuyệt đối nên chưa thể đưa ra cho 99,99% số đông. Nó phù hợp cho tech early adopter, và đây không phải hệ thống mình muốn gợi ý cho người dùng phổ thông.
Có rất nhiều cách dùng nhỏ nhưng hữu ích, chỉ tiếc phần marketing yếu. Chẳng hạn chụp ảnh danh sách mua sắm rồi nhờ Gemini đổi sang định dạng có thể copy-paste, nó chỉ chuyển nguyên xi sang Google Keep và không phân loại danh mục. Nếu team ưu tiên và tinh chỉnh thêm một chút sẽ hữu dụng hơn hẳn. OpenAI đang marketing nhiều chức năng trên TikTok, và đa phần người dưới 30 ở lớp trẻ còn không biết Gemini là gì. Mình thực sự thấy Gemini thực dụng hơn ChatGPT, nhưng marketing lại rất thiếu.
Việc hỗ trợ Google Docs quá hạn chế khiến mình không có kỳ vọng.
Mình nhận ra rằng việc chuyển sang tìm kiếm dựa trên embedding thuần túy thì không hoạt động đúng. Trên thực tế cần tìm kiếm hybrid kết hợp embedding, text matching, chất lượng vector, v.v.; việc mở rộng nhanh cho hệ thống như vậy không phải dễ. Nếu có hệ thống nào như vậy thì nhớ cho mình biết.
Muốn nắm đúng sản phẩm thực sự là gì thì tốn rất nhiều thời gian. Phải bỏ qua quảng cáo và mô tả lan man, loại bớt thuật ngữ không cần thiết mới thấy bản chất. Theo mình, đây là GitHub Action. Nó là một wrapper để đặt vào file YAML của GitHub workflow, chạy Gemini CLI, truyền prompt, context repo, dữ liệu sự kiện như issue hoặc PR diff để trả lời/ thực hiện công việc. Dùng token hoặc app có thể đọc/ghi dữ liệu repo qua GitHub API (thêm nhãn, comment, đề xuất code, v.v.). Gọi theo chuẩn tới endpoint HTTPS API của Gemini LLM.
Boris Cherny và Catherine Wu có video trong podcast Latent Space nói về semantic linting của AI CLI. Phỏng vấn trên YouTube liên quan Mình chưa từng dùng AI CLI tích cực trong CI/CD, nhưng các công việc pass/fail theo ngữ nghĩa thì cực kỳ thú vị.
Trong tài liệu ghi "dùng trong giao diện chat", nên mình thắc mắc interface chat là gì.
Gemini plans (ví dụ Google One, Workspace, v.v.) chỉ áp dụng cho sản phẩm web, còn API-based (ví dụ Gemini CLI) thì không. Nếu trả một gói đăng ký dev hàng tháng để dùng được cả CLI, github action, Gemini chat, Jules... thì sẽ thật sự là một bước đột phá. Mình mong mỏi một cấu trúc subscribe kiểu đơn giản như Claude.
Để hiểu cấu trúc subscription thì riêng bản thân đã cần AI.
Free tier của Gemini rất rối. Đã thử với nhiều agent nhưng chỉ 5-6 request là bị rate limit. Trong khi đó, web app thì cảm giác dùng không giới hạn. Họ nói có "quota miễn phí hào phóng", nhưng thực tế lại dừng rất nhanh trong thời gian ngắn. Thích hợp cho test đơn giản, chưa đủ cho công việc thực tế.
Trong text ảnh trong slide marketing, việc nói rằng chỉ cần giao việc bằng tag
@mini-clilà có thể làm hàng loạt việc từ viết bug đến sửa nó khiến người ta bật cười.Ngạc nhiên là câu này vẫn chưa được sửa. Có thể đó là lời nói rất thành thật.
Mình băn khoăn liệu có thực sự đúng khi gọi đây là "gemini cli" không. Khi đa số dùng qua GitHub thì nó còn là CLI nữa không. Có lẽ một tên trực quan hơn như "gemini github action" hay "run gemini" giống kiểu Claude Code sẽ tốt hơn.
Có lẽ Gemini CLI team là người phát triển, và vì muốn đội này được ghi nhận công lao hoặc áp lực nội bộ để không trông quá giống sản phẩm công cộng, nên chọn tên này.
Thực tế, trong github action VM cài gemini-cli rồi truyền comment của issue/PR cho gemini-cli dưới dạng prompt.
Mình cũng từng tự băn khoăn về tên gọi này. Đây đúng là phần khiến mình thất vọng nhất.
Nó là dạng add-on cho Gemini-CLI chạy hoàn toàn local.
Năm ngoái mình đã phát triển nền tảng bounty cho GitHub PR. Vì incentive nên PR chất lượng thấp đổ vào rất nhiều, và AI có thể viết draft khá dễ nên concept này gần như trở nên vô nghĩa. Mình thấy bài toán cốt lõi trong quản lý open source đã chuyển sang 'nguồn lực có hạn của reviewer/maintainer'. Vì vậy mình đang thử một framework để tự động sinh PR từ các agent chính, tối ưu hóa quy trình review và chấp thuận/chỉnh sửa. Mình đang tổng hợp một case study liên quan ở đây
Cần khá nhiều cấu hình, nên so với GitHub Copilot Agent mà ai cũng dùng dễ thì sức thuyết phục của nó giảm đi rất nhiều. Gemini assistant phải vượt trội hơn các tool hiện có thì mới có cơ hội thu hút dù chỉ chút ít người dùng.
Chỗ khiến mình càng nghi ngờ đây là sản phẩm thật sự miễn phí là: dữ liệu học có thể được dùng làm khoản đền bù. Mà không có chọn chọn opt-out, nên với repo cá nhân/internal thì mình nghĩ cần thận trọng.
Mình đạt được nhiều kết quả tốt với Copilot Agent. Thỉnh thoảng vẫn phải đóng PR và chỉnh issue hoặc làm local bằng cursor, nhưng bản thân việc bắt đầu công việc đã nhanh nên tổng thể mình rất hài lòng.