Cách phát triển bằng AI miễn phí hoặc chi phí thấp

(wuu73.org)

34 điểm bởi GN⁺ 2025-08-10 | 1 bình luận | Chia sẻ qua WhatsApp

Kết hợp nhiều mô hình AI web miễn phí để tách riêng việc giải quyết vấn đề và sinh mã, áp dụng chiến lược lai tận dụng thế mạnh của từng mô hình
Dùng AI Code Prep GUI để chọn lọc và sắp xếp chỉ những đoạn mã cần thiết, tránh suy giảm hiệu năng do ngữ cảnh dư thừa, chỉ cung cấp ngữ cảnh cốt lõi cho AI
Với lập kế hoạch và gỡ lỗi, dùng mô hình hiệu năng cao/miễn phí (Gemini 2.5 Pro, o3, o4-mini, Claude 4, v.v.); còn thực thi/viết mã thì dùng GPT-4.1·Claude 3.5
Tận dụng chia sẻ dữ liệu OpenAI, GitHub Copilot, Poe.com, OpenRouter v.v. để có token miễn phí hoặc rẻ, từ đó giảm thiểu chi phí
Kết hợp linh hoạt nhiều công cụ agent·CLI như Claude Code, Qwen Code, Gemini CLI, Roo Code, Trae IDE theo từng tình huống để nâng cao hiệu suất làm việc

Thiết lập trình duyệt của tôi: Tiệc buffet AI miễn phí

Tôi mở nhiều tab trên trình duyệt với các phiên bản miễn phí của nhiều mô hình AI mạnh khác nhau để sử dụng
Cách làm này là không phụ thuộc vào một mô hình duy nhất mà lấy câu trả lời từ nhiều góc nhìn. Tổ hợp mô hình miễn phí tiêu biểu tôi thường dùng như sau.

GLM 4.5: Có thể dùng miễn phí trên web, và theo cảm nhận thì hiệu năng ở mức Claude 4 hoặc cao hơn. Tôi luôn mở sẵn 2~3 tab
Kimi K2: Mô hình tương tự dòng Claude hoặc Opus, dùng miễn phí trên web. Thường mở 1~2 tab, và trước khi GLM 4.5 xuất hiện thì nó đã nhiều lần giải quyết các lỗi khó trong ngày
Qwen3 Coder và các mô hình mới: Dùng để thử nghiệm nhiều mô hình chuyên cho lập trình
OpenAI Playground: Có thể dùng miễn phí nhiều mô hình như GPT-4.5, o3. Nếu cho phép trong phần cài đặt dữ liệu tài khoản rằng “OpenAI có thể dùng dữ liệu cho huấn luyện mô hình” thì sẽ được cấp token miễn phí
Google Gemini AI Studio: Có thể dùng Gemini 2.5 Pro/Flash gần như miễn phí và không giới hạn. Tôi thường mở 1~3 tab
Google Gemini 2.5 Pro: Là dịch vụ tách biệt với AI Studio, mạnh hơn về tạo ảnh và nghiên cứu chuyên sâu. Tôi dùng song song các tab cùng với AI Studio
Poe.com: Cấp tín dụng miễn phí hằng ngày cho các mô hình cao cấp như Claude 4 hay o4-mini
OpenRouter: Có thể dùng kết hợp mô hình miễn phí và trả phí. Tôi thiết lập nhiều mô hình ở các tab khác nhau
ChatGPT: Bản miễn phí vẫn hữu ích nên tôi luôn giữ ít nhất 1 tab
Perplexity AI: Mạnh ở các câu hỏi thiên về nghiên cứu
Deepseek: Cung cấp miễn phí các mô hình v3 và r1. Tuy nhiên cần lưu ý giới hạn ngữ cảnh
Grok.com: Cung cấp miễn phí không giới hạn cho nhu cầu sử dụng thông thường, nghiên cứu chuyên sâu và chỉnh sửa ảnh. Đặc biệt tính năng nghiên cứu chuyên sâu khá giống Perplexity nên rất hữu ích
Phind: Có xu hướng cung cấp thêm lưu đồ hoặc sơ đồ cùng với câu trả lời
lmarena.ai: Cung cấp miễn phí Claude Opus 4 và Sonnet 4. Việc được dùng miễn phí Opus 4 có giá trị rất lớn

Bản thân Claude.ai cũng miễn phí, nhưng vì giới hạn sử dụng xuất hiện thường xuyên nên có thể khá bất tiện; do đó tôi dùng các cách tiếp cận khác như tiện ích mở rộng Cody hoặc Copilot.

Lưu ý – khi dùng Grok
Grok cung cấp năng lực tính toán miễn phí và tạo ảnh không bị kiểm duyệt, nên có thể hữu ích khi hệ thống an toàn của các mô hình khác gây cản trở. Tuy nhiên, có báo cáo cho rằng bên vận hành có thể có ý định quảng bá tư tưởng liên quan đến Đức Quốc xã hoặc thông tin sai lệch. Đặc biệt cũng có cáo buộc rằng nó đã được chỉ dẫn để cung cấp thông tin sai về các sự kiện lịch sử như nạn diệt chủng ở châu Phi. Những méo mó này chủ yếu xuất hiện trên nền tảng X, nhưng vẫn nên chỉ dùng giới hạn cho các mục đích an toàn như lập trình, hoặc sử dụng trong trạng thái luôn ghi nhớ khả năng thiên lệch.

Quy trình làm việc thông minh hơn, rẻ hơn: Ngữ cảnh tập trung

Khi dùng giao diện trò chuyện AI trên web (AI Studio, ChatGPT, OpenRouter, v.v.), nhiều trường hợp khả năng giải quyết vấn đề hoặc đề xuất giải pháp lại tốt hơn IDE hay framework agent (Cline, Trae, Copilot, v.v.)
Nếu xử lý mọi việc bằng các công cụ như Cursor, Cline, Roo Code, bạn sẽ gửi cho AI một lượng lớn văn bản không liên quan trực tiếp đến vấn đề như cách dùng máy chủ MCP hay quy trình chỉnh sửa tệp, khiến AI bị rối và hiệu năng giảm
Vì vậy, ngay cả khi dùng mô hình đắt tiền nhất, bạn vẫn không vượt qua được “hiệu ứng làm chậm” do thông tin thừa gây ra

Vì thế, tôi chọn cách tự tạo chính xác ngữ cảnh cần cho việc giải quyết vấn đề, dán vào chat AI trên web để đặt câu hỏi hoặc yêu cầu review mã
Khi đã có lời giải, tôi viết lại nội dung đó thành prompt cho agent như Cline và chỉ giao phần chỉnh sửa tệp
Làm như vậy, có thể tận dụng GPT-4.1 (dùng không giới hạn) để giải quyết vấn đề và lập kế hoạch với chi phí thấp, mà không cần phải tiêu tốn credit Claude
Với các bài toán khó thì dùng Claude, còn phần thực thi thì kết hợp AI chat trên web để tăng hiệu quả

AI Code Prep hỗ trợ như thế nào (ví dụ cấu trúc prompt)

Prompt ví dụ:
```
Can you help me figure out why my program does x instead of y?  
```
- AI Code Prep GUI quét đệ quy thư mục dự án, duyệt toàn bộ thư mục con và tệp, rồi sắp xếp mã và câu hỏi theo định dạng dễ đọc cho AI
- Ví dụ ngữ cảnh được tạo ra:
```
Can you help me figure out why my program does x instead of y?  

fileName.js: <code>  
... nội dung tệp ... </code>  

nextFile.py: <code>  
import example  
... nội dung khác ... </code>  

Can you help me figure out why my program does x instead of y?  
```
- Lặp lại câu hỏi hai lần (có thể chọn trên/dưới/hai phía) để giúp AI giữ được trọng tâm
- Trên Windows, trong thư mục dự án nhấp chuột phải → chạy “AI Code Prep GUI” → công cụ sẽ tự động chọn các tệp mã, đồng thời tự loại trừ các thư mục không cần thiết như node_modules, .git
- Dù việc chọn chưa hoàn hảo, bạn vẫn có thể điều chỉnh dễ dàng bằng các ô checkbox
- Khi dự án lớn vượt quá giới hạn ngữ cảnh của AI, có thể chọn riêng chỉ những tệp thực sự cần thiết để cung cấp
Vì sao cách này quan trọng?
- Nhiều agent mã như Cline, GitHub Copilot, Cursor, Windsurf gửi ngữ cảnh quá nhiều hoặc quá ít, nên kém hiệu quả
- Nếu tự chọn tệp, bạn có thể chỉ cung cấp cho AI thông tin cần thiết mà không kèm dữ liệu dư thừa
- Vì là giao diện GUI nên vượt trội hơn các công cụ tạo ngữ cảnh khác yêu cầu CLI hoặc liên kết GitHub công khai về cả bảo mật mã riêng tư lẫn sự tiện lợi
- Xem các cập nhật tính năng mới nhất tại wuu73.org/aicp

Chiến lược mô hình: Chọn đúng bộ não cho đúng việc

Nhiều mô hình AI mạnh hiện được cung cấp miễn phí qua giao diện web (Gemini in AI Studio, Grok, Deepseek, v.v.), nên ưu tiên tận dụng chúng trước
Poe.com cung cấp hạn mức credit miễn phí hằng ngày cho các mô hình hàng đầu như Claude và dòng o4 mới

Gemini 2.5 Pro (có trên AI Studio) rất xuất sắc trong gỡ lỗi, lập kế hoạch và công việc tổng quát, hiện được đánh giá là mô hình đa dụng nhất
Với các vấn đề khó nhằn, hãy thử o4-mini (dùng được trên OpenRouter hoặc Poe)
- Khi dùng qua API, chi phí rẻ hơn rất nhiều so với các mô hình hàng đầu trước đây (Claude 3.5/3.7/4)
- Đã có trải nghiệm giải ngay lập tức những lỗi từng rất khó xử lý
Claude 3.7 hoặc 4 có thể truy cập qua Poe, API (OpenRouter), GitHub Copilot Chat, v.v.
- Có cung cấp một phần hạn mức miễn phí, nhưng nếu dùng thường xuyên thì chi phí khá nặng
- 3.7/4 tạo ra đầu ra sáng tạo và bùng nổ (theo phong cách “Hunter S. Thompson”), nhưng để viết code thực tế thì giao cho Claude 3.5 điềm tĩnh hơn có thể hiệu quả hơn

Cách tận dụng token miễn phí trong OpenAI Playground
- Nếu bật cài đặt chia sẻ dữ liệu trong tài khoản OpenAI, bạn có thể dùng một lượng lớn token miễn phí mỗi ngày
- Vào OpenAI Playground → biểu tượng cài đặt ở góc trên bên phải → Data Controls trong menu bên trái → Sharing → bật "Share inputs and outputs with OpenAI", bạn sẽ nhận được các quyền lợi sau:
- Tối đa 250.000 token/ngày: gpt-5, gpt-4.1, gpt-4o, o1, o3
- Tối đa 2.500.000 token/ngày: gpt-4.1-mini, gpt-4.1-nano, gpt-4o-mini, o1-mini, o3-mini, o4-mini, codex-mini-latest
- Tận dụng cài đặt này, bạn có thể dùng miễn phí với số lượng lớn các mô hình hàng đầu như o3 và GPT-4.5
- Trong OpenAI Playground, bạn có thể chạy song song o3 và o4-mini để so sánh, từ đó hiểu rõ điểm mạnh và mục đích sử dụng của từng mô hình.
Chiến lược sử dụng khuyến nghị theo từng mô hình
- Gemini 2.5 Pro: ưu tiên số một cho gỡ lỗi, lập kế hoạch và công việc lập trình tổng quát
- o4-mini: xử lý lỗi khó, hiệu quả chi phí tốt
- Claude 4 / 3.7: tối ưu để giải quyết các vấn đề khẩn cấp và khó, nhưng bị giới hạn về khả năng tiếp cận và chi phí
- Claude 3.5: phù hợp để tinh chỉnh đầu ra sáng tạo từ 3.7/4 hoặc viết code thực tế
- o3, GPT-4.5, Qwen3 Coder 480b, GLM 4.5: rất mạnh trong giải quyết vấn đề phức tạp, và có thể dùng với khối lượng lớn nếu tận dụng cài đặt token miễn phí

Cách tiếp cận kết hợp: Lập kế hoạch cao cấp + triển khai tiết kiệm

Sau khi thử nghiệm nhiều mô hình khác nhau, đã xây dựng được một chiến lược hybrid giúp tối đa hóa cả chất lượng lẫn hiệu quả chi phí
Insight cốt lõi là mỗi mô hình có điểm mạnh ở những giai đoạn cụ thể khác nhau trong quy trình phát triển

Lý thuyết "Smart Juice" – Vì sao AI trở nên ngớ ngẩn
‘Năng lượng trí tuệ’ mà mô hình có thể nhận được là hữu hạn.
Nếu gửi prompt ngắn gọn và tập trung, gần như 100% năng lượng đó sẽ được dùng để giải quyết vấn đề.
Nhưng nếu gửi đầu vào phức tạp không cần thiết (hướng dẫn dài dòng về cách dùng công cụ, ngữ cảnh không liên quan đến vấn đề, vài trang code, v.v.), một phần đáng kể sẽ bị tiêu tốn để xử lý những thứ đó, làm giảm lượng ‘trí tuệ’ còn lại cho bài toán thực sự.

Ví dụ: các agent tích hợp IDE như Cursor hay Cline gửi rất nhiều chỉ dẫn và ngữ cảnh trước khi đặt câu hỏi, nên mức độ tập trung của mô hình bị giảm.
Vì vậy, giảm bớt ngữ cảnh không cần thiết và chỉ gửi những gì cốt lõi cho việc giải quyết vấn đề là cách để đạt kết quả tối ưu.

Quy trình khi bắt đầu dự án mới
- 1. Plan & Brainstorm
  - Dùng các mô hình web thông minh và miễn phí (Gemini 2.5, o4-mini, Claude 3.7/4, o3, v.v.) để thiết kế cách tiếp cận, lập kế hoạch theo từng bước và xác định thư viện cần thiết.
- 2. Generate Agent Prompt
  - Yêu cầu một trong các mô hình trên:
    "Write a detailed-enough prompt for [Cline](https://cline.bot/), my AI coding agent, to complete the following tasks: [mô tả công việc]"
  - Sau đó tinh chỉnh lại prompt đã tạo thêm một lần nữa bằng AI miễn phí giỏi viết lại như ChatGPT.
- 3. Execute with Cline
  - Dán prompt đã tinh chỉnh vào Cline và chạy bằng GPT 4.1 hoặc Claude 3.5 (nếu tác vụ phức tạp thì dùng Claude 4).
  - Dòng GPT 4.1 được huấn luyện tốt về việc tuân thủ chỉ dẫn.
- 4. Fallback
  - Nếu GPT 4.1 thất bại, chuyển sang Claude 3.5 qua API.
  - Deepseek v3 hoặc R1 cũng rất mạnh trong việc làm theo chỉ dẫn.
Quảng cáo
Chiến lược cốt lõi
- Dùng mô hình đắt nhưng thông minh (hoặc Gemini 2.5 Pro nếu dùng miễn phí được) cho giai đoạn chiến lược và thiết kế.
- Dán kế hoạch vào 2~3 mô hình miễn phí khác nhau (Deepseek R1, Claude trên Poe, v.v.) để kiểm chứng:
  "Is this good? Can you improve it or find flaws?"
- Ở giai đoạn viết code và thực thi, dùng các mô hình ổn định và hiệu quả (GPT 4.1, Claude 3.5) trong Cline.
Mẹo tận dụng theo từng mô hình
- o4-mini
  - Mạnh về chiến lược triển khai cấp cao như diễn giải logic code phức tạp, lựa chọn framework và thư viện.
- Brainstorm ý tưởng
  - Có thể dùng Gemini 2.5, o4-mini, GPT 4.1, ChatGPT, o3-mini (thường miễn phí trên duck.ai), Phind, v.v.
- Khi không thể giải quyết
  - Nếu các mô hình miễn phí/giá rẻ không giải quyết được, hãy escalatation sang mô hình cao cấp, trả phí qua API.

Các agent & thiết lập thay thế

Trae.ai (Bytedance, công ty tạo ra TikTok)
- IDE tương thích với VS Code, cung cấp sử dụng AI miễn phí: gồm Claude 4, Claude 3.7, Claude 3.5, GPT 4.1.
- Hiệu năng agent tích hợp kém hơn Cline (nói thật thì Cline là mạnh nhất).
- Vì là bản clone của VS Code nên có vẻ có thể cài extension Cline.
- Tuy nhiên máy chủ quá tải nên chậm → hiệu quả thực tế của việc dùng miễn phí không cao.
- Dù vậy vẫn đáng nhắc đến vì có khả năng truy cập model miễn phí.
2 cấu hình được khuyên dùng
- 1. VS Code + Cline + Copilot
  - Đăng ký Copilot $10/tháng → có thể dùng API model mạnh trong Cline với chi phí thấp.
  - Gói miễn phí cũng dùng được một số tính năng cơ bản.
- 2. Trae.ai + Cline
  - Thử nghiệm xem có thể kết hợp quyền truy cập model miễn phí của Trae với việc dùng API key của Cline hay không.
Mẹo: Có trường hợp agent mặc định của Copilot giải được vấn đề mà Cline xử lý không tốt, và ngược lại.
Cline có thể gửi prompt quá dài khiến hiệu năng giảm → trong một số trường hợp Copilot sẽ có lợi thế hơn.
Roo Code: bản clone của Cline
- Roo Code gần như giống hệt Cline nhưng cung cấp một số tính năng khác.
- Tùy dự án hoặc phong cách lập trình mà Roo Code có thể phù hợp hơn.
- Bản thân Cline là miễn phí nhưng phát sinh phí gọi API.
- Cách tiết kiệm nhất: thiết lập VS Code LM API + đăng ký Copilot $10/tháng → dùng model mạnh gần như không giới hạn.
Công cụ CLI mới: Claude Code, Qwen Code, Gemini CLI
- Gần đây mức độ quan tâm tới các công cụ lập trình dựa trên CLI tăng mạnh.
- Claude Code: hỗ trợ subagent → chỉ thực hiện một tác vụ, không dùng thêm công cụ khác.
  - Có thể tái hiện workflow tập trung kiểu “smart juice” được mô tả trong hướng dẫn này.
  - Loại bỏ chỉ dẫn agent dư thừa (bloat), vẫn giữ được hiệu quả.
- Qwen Code và Gemini CLI cũng có ưu điểm riêng.
- Có hướng dẫn thiết lập để dùng Claude Code với GLM 4.5 trên trang z.ai.
- Mỗi công cụ CLI có điểm mạnh khác nhau, nên tham khảo hướng dẫn và mẹo từ cộng đồng để thử nghiệm.
Quảng cáo

TL;DR: Hướng dẫn bắt đầu nhanh

Model & Vai trò
- Lập kế hoạch & Brainstorming
  Khuyên dùng GLM 4.5, Kimi K2, dòng Qwen3 Coder & 2507 mới nhất, Gemini 2.5 Pro (AI Studio), o4-mini (OpenRouter), Claude 3.7/4 (Poe), và 250k token miễn phí mỗi ngày trên OpenAI Playground (o3, GPT-5)
- Giải quyết vấn đề & Debugging
  GPT-5 (token miễn phí trên Playground), GLM-4.5 (hiệu năng ngang Claude 4), Claude 4 (token miễn phí hằng ngày trên Poe)
- Lập trình thực tế
  GPT-4.1 (Cline), nếu thất bại thì thay bằng Claude 3.5, hoặc dùng Qwen3 Coder, Instruct, 2507, GLM 4.5, Kimi K2
Công cụ chính
- VS Code
- AI Code Prep GUI – quét và chọn chỉ những file cần thiết trên máy cục bộ, tối ưu ngữ cảnh cho AI
- Cline (agent cho VS Code) – chạy mã theo từng bước
- Chat web miễn phí – Poe.com, ChatGPT, Grok, Deepseek, Perplexity, OpenAI Playground, AI Studio (Gemini 2.5 Pro), OpenRouter, duck.ai
Quy trình nhanh
1. Dùng AI Code Prep GUI để gom nhóm các file liên quan đến dự án
2. Dán ngữ cảnh đó vào model chat web bạn thích để lập kế hoạch và debug
3. Yêu cầu một model viết prompt Cline chi tiết cho tác vụ này, rồi tinh chỉnh lại bằng ChatGPT hoặc công cụ tương tự
4. Dán prompt hoàn chỉnh vào Cline đã đặt model là GPT-4.1 để tạo/sửa mã
  → nếu thất bại thì chuyển sang Claude 3.5
Mẹo tiết kiệm chi phí
- Bật “chia sẻ dữ liệu” trong OpenAI Playground → 250k token miễn phí/ngày (GPT-4.5, o3) + 2.5M token miễn phí/ngày (o4-mini, o3-mini)
- Đăng ký GitHub Copilot $10/tháng → có thể dùng giới hạn các model Claude trong Cline
- OpenRouter trả phí theo mức dùng → dùng rẻ các model mới như o4-mini, Claude 3.7

Một vài suy nghĩ

AI là công cụ khuếch đại năng suất đáng kinh ngạc, nhưng không phải đũa thần.
Điều kỳ diệu thật sự xảy ra khi sự tò mò, sự bền bỉ và ý chí thử nghiệm của bạn kết hợp với những công cụ mạnh mẽ này.
Đừng nản lòng vì bug hay vấn đề phát sinh — mỗi thử thách đều là cơ hội để học điều mới.

Hãy kết hợp nhiều model, thử những ý tưởng táo bạo, và đừng ngại phá đi rồi làm lại.
Nhà phát triển giỏi nhất không phải là người không bao giờ bị kẹt, mà là người vẫn tiếp tục tiến lên và tận dụng mọi công cụ, kỹ thuật ngay cả khi bị mắc lại.

Hãy đón nhận sự hỗn loạn, tận hưởng quá trình, và để sự sáng tạo của bạn dẫn đường!

Cập nhật model mới nhất (tháng 8/2025)

💰 Tiết kiệm ngân sách: tối đa hóa giá trị

GPT 4.5
- Trạng thái: Đã ngừng cung cấp
o3
- Năng lực: Hiệu năng sánh ngang Claude 4, xuất sắc trong việc giải quyết vấn đề khó, ở mức thiên tài
- Mẹo sử dụng: Có thể đưa toàn bộ codebase vào để phân tích bằng AI Code Prep GUI
- Token miễn phí: Bật chia sẻ dữ liệu trong Data Controls/Sharing settings để nhận 250k token/ngày
o4-mini
- Năng lực: Yếu hơn o3 một chút nhưng vẫn rất xuất sắc, giống như model em trai của o3
- Token miễn phí: Bật chia sẻ dữ liệu để nhận 2.5M token/ngày
Gemini 2.5 Pro
- Sử dụng: Miễn phí trên AI Studio
- Chuyên về: Debug phức tạp, thiết kế kiến trúc và lập kế hoạch
Deepseek R1 0528
- Năng lực: Model rất thông minh với khả năng suy luận được cải thiện
- Sử dụng: Có thể dùng miễn phí trên giao diện web của Deepseek
Quảng cáo

🚀 Cao cấp: xử lý vấn đề NGAY LẬP TỨC

Claude 4 Sonnet
- Năng lực: Nếu được cung cấp đủ ngữ cảnh, có thể giải quyết hầu hết vấn đề ngay trong một lần
- Chuyên về: Hiệu năng hàng đầu toàn diện, từ viết lách đến giải quyết vấn đề
- Cách dùng: Khi bạn nhất định phải giải quyết hoàn hảo ngay từ lần thử đầu tiên
Claude 4 Opus
- Giá: $75 / 1M token
- Hiệu năng: Được biết đến như mức hiệu năng “magic sauce”, còn mạnh hơn Sonnet
- Cách dùng: Khi cần khả năng giải quyết vấn đề tối thượng

Các model làm việc ổn định

Các mô hình sau tuân theo chỉ dẫn tốt và thực hiện công việc một cách ổn định:

GPT 4.1
- Được dùng như mô hình thông minh cấp cao để thiết kế và giải quyết vấn đề trước, sau đó dùng cho việc chỉnh sửa mã thực tế
- Có thể dán nguyên đầu ra nhận được từ bất kỳ đâu vào Cline để chạy
Claude Sonnet 3.5
- Mạnh về lập trình và biên tập
- Hơi chậm hơn 4.1 một chút nhưng rất ổn định
Deepseek v3
- Phù hợp để viết mã, sửa mã và làm việc theo kiểu agent
- Hiệu năng trên giá thành rất tốt
OpenRouter Free Models
- Trên OpenRouter, đặt bộ lọc giá thành $0 để tìm các mô hình miễn phí
- Khi có mô hình mới xuất hiện thì rất đáng để thử nghiệm

Claude 4 miễn phí: lmarena.ai, và hơn thế nữa

Claude Opus 4 and Sonnet 4

Trên lmarena.ai, Claude Opus 4, Sonnet 4 và các mô hình khác được cung cấp miễn phí
Mẹo: Hãy обязательно lưu lại, ghi nhớ và tận dụng các cơ hội dùng miễn phí những mô hình thuộc hệ Anthropic
Cách dùng: Khi mọi cách đều thất bại, hoặc khi cần hoàn thành công việc ngay lập tức một cách hoàn hảo, hãy chọn Claude 4 Sonnet hoặc Opus

MỚI!! Các mô hình Trung Quốc cực chất + GPT 5

GLM 4.5
- Hiệu năng: Tương đương Claude 4 Opus hoặc Sonnet
- Đặc điểm: Thực hiện gần như hoàn hảo các quy tắc agent và việc sử dụng công cụ
- Cách dùng: Rất mạnh trong sửa lỗi cực khó và xử lý các tác vụ phức tạp đòi hỏi nhiều ngữ cảnh
Qwen3 Coder 480B
- Đánh giá: Mô hình mạnh và rẻ nên được ưa chuộng
- Cách dùng: Công việc lập trình trong môi trường cần hiệu năng cao với chi phí thấp
Qwen3 Instruct & Thinking 2507
- Hiệu năng: Độ ổn định và sức mạnh tương tự Qwen3 Coder
- Ưu điểm: Đáng tin cậy và hiệu quả chi phí
Kimi K2 (Moonshot)
- Đặc điểm: Có vẻ mang tính chất được huấn luyện trên dữ liệu tổng hợp dựa trên Anthropic hoặc tương tự Claude
- Đánh giá: Hiệu năng rất xuất sắc, là mô hình được dùng thường xuyên
Quảng cáo
GPT 5
- Hạn chế: Không có nhiều thế mạnh khi dùng công cụ tùy chỉnh như MCP, Cline, v.v.
- Cách dùng được khuyến nghị:
  1. Dùng những mô hình tốt nhất như GPT 5, GLM 4.5 để lập kế hoạch và giải quyết vấn đề
  2. Sau đó viết prompt để các mô hình agent đơn giản hơn thực hiện việc chỉnh sửa và dùng công cụ thực tế
- So sánh:
  - GPT 4.1 vẫn có giá trị rất tốt so với chi phí
  - Các mô hình Trung Quốc mới có thế mạnh khi dùng công cụ tùy chỉnh/Cline
- Tổng kết: Dù vẫn chưa thử nghiệm đầy đủ, mỗi mô hình đều có lĩnh vực riêng mà nó làm tốt; ở thời điểm hiện tại, các mô hình Trung Quốc rất hấp dẫn về giá và độ ổn định

Quy trình lập trình hiện tại (2025)

Với dự án mới:
- 1. Giai đoạn lập kế hoạch:
  - Ghi lại toàn bộ chi tiết dự án (ngôn ngữ, thư viện, máy chủ, v.v.) vào notepad
- 2. Tham vấn nhiều mô hình:
  - Dán cùng một nội dung vào nhiều mô hình để lấy “ý kiến bác sĩ đa khoa”:
    - Gemini 2.5 Pro (miễn phí)
    - GPT 4.1
    - o4-mini
    - Claude 4 (tận dụng credit miễn phí hằng ngày của Poe)
- 3. Tinh chỉnh:
  - Tinh chỉnh chi tiết thông qua đối thoại lặp lại với mô hình
- 4. Tạo tác vụ:
  - Yêu cầu mô hình viết danh sách công việc từng bước cho AI coding agent của Cline
- 5. Thực thi:
  - Trong Cline (hoặc Roo Code), đặt GPT 4.1 ở chế độ act để chạy công việc
Để giải quyết vấn đề:
- Phân tích codebase phức tạp: dùng GPT 4.5 + AI Code Prep
- Yêu cầu GPT 4.5: “Hãy viết một prompt để Cline hoàn thành tác vụ này”
- Chọn mô hình theo độ phức tạp của vấn đề
- Tận dụng nhiều mô hình để tìm kiếm phương án giải quyết từ nhiều góc độ
Danh sách tác vụ & Phát triển hướng kiểm thử (Sắp ra mắt)
Phát triển hướng kiểm thử & danh sách tác vụ:
- Yêu cầu AI viết danh sách công việc chi tiết để chạy trên Cline, Roo Code, Trae agent
- Có thể chỉ thị cho Cline hoặc Roo Code ghi lại tiến độ công việc trong tệp markdown và đánh dấu khi hoàn thành
- Nhờ đó có thể dễ dàng theo dõi tiến độ và tránh bỏ sót
- Hiện tại có thể thử bằng cách để mô hình tạo checklist markdown, rồi để Cline hoặc Roo Code cập nhật tệp đó
Mẹo tiết kiệm tiền
- GPT 4.5 & o3: Nếu bật chia sẻ dữ liệu huấn luyện mô hình, mỗi ngày được miễn phí 250.000 token
- Mô hình giá rẻ: Có thể dùng 2,5 triệu token mỗi ngày trên o4-mini, 4.1-mini/nano
- GitHub Copilot: Với $10/tháng có thể dùng các mô hình Claude mới (có giới hạn tốc độ)
- Trae IDE: Hiện đang cho dùng miễn phí Claude 4 và GPT 4.1 (không cần đăng ký, có vẻ không có giới hạn)
- Poe.com: Cung cấp credit miễn phí hằng ngày cho mọi mô hình
- Giao diện web: Tận dụng các giao diện chat web miễn phí để lập kế hoạch và tham vấn
Sắp ra mắt: Dữ liệu Reddit trực tiếp & insight
Thu thập dữ liệu Reddit trực tiếp & insight hằng ngày:
- Dự kiến sẽ scrape dữ liệu Reddit theo thời gian thực để cung cấp các trường hợp sử dụng mô hình AI được cập nhật mỗi ngày
- Bao gồm phân tích chi tiết về cách sử dụng, trực quan hóa dữ liệu, cùng những insight mới về quy trình lập trình thực tế và xu hướng

1 bình luận

GN⁺ 2025-08-10

Ý kiến trên Hacker News

Nói để những ai có thể bị nhầm: bài gốc còn thêm 2, 3 trang nữa, có thể truy cập bằng biểu tượng mũi tên ở phía dưới
Tôi là tác giả bài viết đây, xin lỗi về vấn đề phông chữ. Nội dung hơi cũ một chút, nhưng mảng AI thay đổi quá nhanh nên tôi dự định sẽ cập nhật để thêm các model mới nhất. Dạo này model mới ra cực kỳ thường xuyên, và gần đây model tôi thích nhất là GLM-4.5. Kimi K2 cũng ổn, còn Qwen3-Coder 480b hay 2507 instruct cũng rất tốt. Những model này hoạt động cực ổn trong các môi trường agentic hoặc công cụ agent Tôi cũng làm một ứng dụng helper context của riêng mình(https://wuu73.org/aicp), có thể truy cập ở link này. Nó rất tiện khi tôi phải qua lại giữa rất nhiều tab chat AI và IDE mà tôi thường dùng (gần như lúc nào cũng miễn phí, lại cho kết quả tốt nhất). Tôi cố gắng loại bỏ tối đa mọi phiền toái và bất tiện khi dùng giao diện chat web. Nó miễn phí và đã nhận được phản hồi rất tốt, tôi cũng hoan nghênh cả các ý kiến phê bình Việc chuyển qua lại giữa IDE <----> tab chat web trở nên cực kỳ thuận tiện. Ban đầu tôi làm nó chỉ để tiết kiệm thời gian cho bản thân, và vì UI dùng PySide6 nên chạy nhẹ hơn nhiều so với webview. Văn bản hay dùng có thể thêm ngay bằng nút preset, và nó cũng nhớ trạng thái context như kích thước cửa sổ hay các file đã dùng theo từng dự án. Lần sau mở lên thì mọi thứ giữ nguyên như cũ Nó tự động quét các file mã nguồn để suy ra những file hữu ích. Trong ô prompt, bạn cũng có thể chèn thêm văn bản phía trên và dưới đoạn mã (làm vậy thường cho đầu ra tốt hơn). Một nút tôi hay dùng được thiết lập là: "hãy viết prompt cho Cline (coding agent), bọc toàn bộ prompt trong một thẻ code để dễ copy/paste, chia nhỏ toàn bộ công việc thành các bước chi tiết và giải thích cả lý do để Cline có thể làm theo, thêm các khối search and replace bằng ngôn ngữ đơn giản để chỉ rõ vị trí cần sửa" Cách tôi thường dùng để giải quyết vấn đề hay tìm bug là: trong VS Code, tôi thường gõ aicp trong terminal để mở ứng dụng, nhập file fine-tuning, phần giải thích hoặc chỗ cần sửa, rồi bấm nút Cline và Generate Context! sau đó dán vào GLM-4.5. Nếu là vấn đề khó, tôi thử thêm 2~3 model như o3, o4-mini, GPT-5, Gemini 2.5 Pro. Tôi chọn câu trả lời hợp lý nhất rồi dán vào Cline (VS Code, GPT 4.1 bản không giới hạn/miễn phí). 4.1 không quá thông minh, nhưng làm theo lệnh rất chính xác. Nó cũng tự sửa những lỗi vặt đặc trưng của các model lớn. Các model lớn viết phần giải thích chi tiết và danh sách công việc rất đẹp, còn 4.1 thì thực thi chúng trong agent mode Làm như vậy thì có thể code với AI rất thông minh hoàn toàn miễn phí không giới hạn. Nếu gắn MCP (tool v.v.) vào model thì hiệu năng lại còn giảm, còn dùng API như Claude 4 thì chỉ tốn rất nhiều tiền
- Tốc độ cuộn trang web chậm (trên Firefox Android thì dưới 1 fps), và phần call-out liên quan đến grok thì không cuộn được. Ở phía trên còn hiện một nút màu xanh lá rất to, khá đáng ngờ, ghi là CSS loaded
- Sơ đồ ở [https://wuu73.org/aicp] khá hữu ích, nhưng bấm vào cũng không hiển thị ở độ phân giải đầy đủ nên bị mờ. Firefox và Chrome đều như vậy. Trong repo GitHub thì rõ nét, nên có lẽ là vấn đề ở thư viện render JS
- Tôi đọc bài rất hay, cảm ơn vì đã cập nhật. Nếu có thể nói sâu hơn về sự khác biệt trong trải nghiệm dùng Roo Code và Cline thì tôi rất quan tâm. Đến giờ tôi mới chỉ dùng Roo Code, thấy thú vị nhưng kết quả hơi thất thường
- Không biết bạn đã thử Microsoft Copilot chưa. Về cơ bản nó là model OpenAI miễn phí
- Bạn nói có thể code miễn phí, nhưng chỉ miễn phí nếu trong phần cài đặt dữ liệu của OpenAI bạn cho phép dữ liệu của mình được dùng để huấn luyện model. Tức là không hẳn là "miễn phí" thật sự
Trải nghiệm của tôi cũng trùng với nội dung bài viết. Tính năng agentic thực sự chỉ hoạt động đúng với các model lớn (mà "hoạt động" ở đây là... ví dụ OpenAI Codex với o4-mini phải gửi 200 request chỉ để sửa 3 dòng) Với các chỉnh sửa đơn giản thì model nhỏ lại tốt hơn nhiều vì nhanh hơn. Vì vậy tôi tập trung không phải vào model "tốt nhất", mà là "thứ ngu nhất nhưng vẫn dùng được" Nếu đẩy điều đó xa hơn và bỏ hẳn cách làm agentic, thì ngay cả model rất nhỏ cũng có thể làm các tác vụ cực kỳ chính xác. Chỉ cần nói thật rõ bạn muốn gì là nó trả về diff ngay Cách lục lọi file system là không hiệu quả ở quy mô của tôi. Tôi gần như có thể đưa toàn bộ codebase vào context, nên cứ ném cả src/ vào prompt. Với project của người khác thì boilerplate nhiều hơn, nên tôi đang thử tìm kiếm mã bằng các model siêu rẻ như gpt-oss-20b; với mục đích đó thì model nhỏ hơn nữa cũng dùng được. Patent pending đấy
- Tôi cũng nghĩ vậy. Haiku cũng đủ để quản lý luồng hội thoại, còn việc phức tạp hơn thì giao cho các model lớn như Gemini 2.5 Pro hay GPT-5. Gần đây tôi đang thử dùng Codex qua MCP(${codex mcp}) trong Gemini CLI, và nó hoạt động rất tốt. Gemini CLI chủ yếu chạy trên Flash, nhưng như vậy là đủ cho việc định nghĩa vấn đề và đánh giá lại câu trả lời. Dùng Gemini 2.5 Pro qua Claude Code MCP cũng tương tự. Dùng Claude Code như chính MCP thì lại không ổn lắm. Ý tưởng nền tảng của cách này tất nhiên đến từ Aider, tức là khái niệm dùng đồng thời model chính, model phụ và model biên tập
- Aider, với vai trò là công cụ coding không agentic, cân bằng khá tốt cả hiệu suất lẫn hiệu quả. Nó dùng tree-sitter để tạo repo map nên đỡ phải lục file system hơn nhiều. Không có MCP, nhưng lại có shell command nên tôi có thể dùng các utility quen thuộc. Kết hợp với nhà cung cấp như Cerebras thì tốc độ xử lý prompt gần như tức thì. Không cần chờ tool call nhiều lần mà vẫn có thể tiếp tục can thiệp. Với project nhỏ thì đúng là tốt nhất
- Tôi cũng ngày càng nghĩ giống vậy. Tôi muốn công cụ nhanh và đáng tin cậy. Với tôi, vào được flow state là rất quan trọng, mà cứ ngồi chờ các công cụ coding agentic thì dòng chảy đó bị đứt hẳn. Vì vậy tôi ngày càng quan tâm tới model nhỏ, hoặc nhà cung cấp như Cerebras. Khi thu hẹp phạm vi vấn đề thì độ tin cậy cũng cao hơn. Cá nhân tôi cũng muốn nghe thêm về các công cụ "surgical" mà bạn đang dùng. Nhờ chủ đề này mà gần đây tôi cũng hệ thống hóa được nhiều suy nghĩ trong bài blog của mình
- Trong Codex CLI giờ không còn đổi xuống model thấp hơn GPT-5 được nữa (nếu không có API key), vì họ nói là không khuyến nghị. Nếu chạy với tùy chọn thinking=high thì nó tốt hơn o4-mini rất nhiều, còn o4-mini thực chất giống kiểu gpt-5-thinking-mini. Trong codex thì không có thiết lập đó, còn gpt-5-thinking-high thì gần với o1 hoặc o3-pro
- "(thực ra là có hoạt động)"... bạn nói OpenAI Codex với o4-mini phải mất 200 request để đổi 3 dòng code, thì để tham khảo, theo kinh nghiệm của tôi tôi còn từng mất nhiều ngày cho những tác vụ thực tế cũng chỉ cỡ 3 dòng
Tôi nghĩ một stack hoàn toàn local, không cần cloud kiểu Cursor, có huge potential. Ví dụ như: • Cursor CLI cho tác vụ agentic/dev(https://x.com/cursor_ai/status/1953559384531050724) • tầng memory local tương thích CLI - LEANN(97% chỉ mục nhỏ hơn, chi phí cloud bằng 0, riêng tư hoàn toàn, https://github.com/yichuan-w/LEANN) hoặc Milvus (nhưng cái này đôi khi lại dùng theo kiểu cloud/token) • ví dụ inference engine thì có Ollama, rất tuyệt để chạy các model GPT OSS trên máy local Theo cách này có thể tạo ra một môi trường dev+AI cá nhân hoàn toàn offline, riêng tư và rất nhanh. Dự án LEANN được thiết kế đúng cho mục đích đó: footprint rất nhỏ, semantic search trên toàn bộ môi trường local, tương thích Claude Code/Cursor ngay khi cài, còn phần generation có thể dùng ollama. Không tốn một đồng nào và hoàn toàn không cần API. Tất nhiên thiết lập sẽ cần chút công sức. Nhưng tôi rất mong ai đó làm nó thật dễ dùng dưới dạng mã nguồn mở hoàn chỉnh
- Tôi thấy đây đúng là một bản tóm tắt rất gần với hình thái cuối cùng của local AI stack. Ở các công cụ như Cursor hay aider, tôi luôn cảm thấy thiếu một memory layer vừa mạnh vừa riêng tư. Sự kết hợp giữa chỉ mục riêng tư nhỏ gọn như LEANN và local inference bằng Ollama nghe thực sự rất mạnh. Tôi thích ý tưởng dùng tổ hợp này cho lập trình, và nếu có một trải nghiệm thực sự riêng tư kiểu "Cursor-like" thì workflow AI có lẽ sẽ thay đổi hoàn toàn
Nếu đang tìm API miễn phí, thì trong Google Gemini bạn có thể dùng miễn phí Gemini, đặc biệt là gemini-2.5-pro với tính năng thinking được bật. Giới hạn khá cao, tôi đang benchmark mà vẫn chưa chạm trần. Các model trọng số mở như DeepSeek R1, GPT-OSS cũng được nhiều nhà cung cấp inference hoặc hãng phần cứng cho truy cập API miễn phí
- Giới hạn miễn phí của Gemini 2.5 pro là 100 lượt mỗi ngày
  https://ai.google.dev/gemini-api/docs/rate-limits
- Tham khảo thêm: nếu tính năng này dùng cho mục đích không nhạy cảm thì có thể ổn, nhưng Google sẽ dùng các tương tác này để huấn luyện (trừ khi là gói trả phí)
Tôi khá bất ngờ vì trong bài có nhiều thông tin mới hơn tôi nghĩ. Bình thường tôi không đào sâu các lựa chọn đến vậy, nhưng lần này thấy rất đáng vì đã đọc hết cả bài. Và cảm ơn mọi người vì các bình luận HN cũng có rất nhiều thông tin thực tế hữu ích
Tôi muốn gợi ý cho OP là nhất định nên tìm hiểu Continue.dev, ollama/lmstudio, và cách chạy model local. Một số model cực mạnh cho autocomplete, còn các model như gpt-oss thì cũng làm tốt suy luận lẫn dùng tool. Với tôi đây là my goto copilot
- Tôi cũng vậy! Tôi đang dùng Continue trong VSCode, và các model lớn của Qwen hay gpt-oss-120b hoạt động khá ổn ở chế độ agentic
- Tôi cảm thấy Zed còn hơn continue.dev một bậc. Ở đó bạn cũng có thể tự dùng model mình muốn
Đúng như bài viết nói, vấn đề của coding agent là với mỗi request nó gửi toàn bộ dữ liệu của chính nó cộng với gần như cả codebase, nên chi phí rất đắt. Trong khi đó với AI chat thì chi phí gần như có thể bỏ qua. Tôi chỉ dùng OpenRouter, nên gần như truy cập được mọi model. Sonnet từng là lựa chọn yêu thích của tôi, nhưng sau khi dùng Gemini 2.5 Pro thì thấy gần như lúc nào nó cũng tốt hơn (nhược điểm là chậm). Với các câu hỏi đơn giản hoặc lúc không nhớ cú pháp, Gemini Flash siêu nhanh nên cực hợp
Có người sẽ thấy ngạc nhiên khi nhiều người sẵn sàng đưa dữ liệu của mình đến mức này chỉ để lấy free tier, nhưng thực ra để tự chạy một LLM tốt ở nhà thì tốn quá nhiều tài nguyên, nên tôi thấy đưa code của mình ra để dùng miễn phí còn tốt hơn. Đằng nào code đó cuối cùng cũng sẽ được open source thôi
- Nếu chỗ tôi làm thấy việc dùng model để code là chấp nhận được, thì với tôi đây không phải điều cần bận tâm
Tôi thực sự đồng ý với nhận định rằng "khi dùng AI trong web chat (tức giao diện web như ChatGPT, Openrouter), kết quả giải quyết vấn đề hay đề xuất giải pháp hầu như luôn tốt hơn IDE hoặc các framework agent". Dù việc copy code từ IDE rồi dán sang web chat có vẻ hơi bất tiện, nhưng theo kinh nghiệm của tôi thì kết quả vẫn tốt hơn hẳn Github Copilot hay Cursor
- Tôi có trải nghiệm hoàn toàn ngược lại. Dù là agentic hay không thì thứ quan trọng nhất vẫn là context. Việc cho agentic truy cập toàn bộ project, hoặc gắn thẳng vào GitHub, hoặc fine-tune, RAG, v.v. để tiếp cận đầy đủ context sẽ giảm ảo giác đi rất nhiều. "Hãy viết x" và "Hãy viết x theo style của tôi, với dependency y, và cả phần code xung quanh z" là khác nhau một trời một vực. Thành thật mà nói tôi không hiểu vì sao lại ủng hộ kiểu code AI bằng copy-paste. Tôi nghĩ đó là lý do cách làm agent hiện bùng nổ phổ biến như vậy

Cách phát triển bằng AI miễn phí hoặc chi phí thấp

Thiết lập trình duyệt của tôi: Tiệc buffet AI miễn phí

Quy trình làm việc thông minh hơn, rẻ hơn: Ngữ cảnh tập trung

AI Code Prep hỗ trợ như thế nào (ví dụ cấu trúc prompt)

Vì sao cách này quan trọng?

Chiến lược mô hình: Chọn đúng bộ não cho đúng việc

Cách tận dụng token miễn phí trong OpenAI Playground

Chiến lược sử dụng khuyến nghị theo từng mô hình

Cách tiếp cận kết hợp: Lập kế hoạch cao cấp + triển khai tiết kiệm

Quy trình khi bắt đầu dự án mới

Chiến lược cốt lõi

Mẹo tận dụng theo từng mô hình

Các agent & thiết lập thay thế

2 cấu hình được khuyên dùng

Roo Code: bản clone của Cline

Công cụ CLI mới: Claude Code, Qwen Code, Gemini CLI

TL;DR: Hướng dẫn bắt đầu nhanh

Một vài suy nghĩ

Cập nhật model mới nhất (tháng 8/2025)

GPT 4.5

o3

o4-mini

Gemini 2.5 Pro

Deepseek R1 0528

Claude 4 Sonnet

Claude 4 Opus

Các model làm việc ổn định

GPT 4.1

Claude Sonnet 3.5

Deepseek v3

OpenRouter Free Models

Claude 4 miễn phí: lmarena.ai, và hơn thế nữa

Claude Opus 4 and Sonnet 4

MỚI!! Các mô hình Trung Quốc cực chất + GPT 5

GLM 4.5

Qwen3 Coder 480B

Qwen3 Instruct & Thinking 2507

Kimi K2 (Moonshot)

GPT 5

Quy trình lập trình hiện tại (2025)

Với dự án mới:

Để giải quyết vấn đề:

Danh sách tác vụ & Phát triển hướng kiểm thử (Sắp ra mắt)

Mẹo tiết kiệm tiền

Sắp ra mắt: Dữ liệu Reddit trực tiếp & insight

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News