13 điểm bởi spilist2 2025-05-26 | 2 bình luận | Chia sẻ qua WhatsApp

Nhân dịp thử nghiệm các dịch vụ mới biết đến, mình đã thử vibe coding với 4 agent có thế mạnh khác nhau. (Trước đây mình từng so sánh dịch vụ AI prototyping (v0, Lovable, Replit, Bolt, Tempo, Mocha) bằng deep research + trực tiếp dùng thử từng cái, còn lần này là triển khai bằng cùng một prompt để so sánh)

  1. Lovable: Một trong những dịch vụ AI prototyping hàng đầu. Có thể nhanh chóng tạo ra UI mượt mà, đẹp mắt. Có thể public deploy ngay lập tức
  2. Gemini App Build: Dùng trong Google AI Studio. Có thể tạo app gọi Gemini API miễn phí. Không giới hạn số lượt chat
  3. Rork: Dịch vụ vibe coding đầu tiên tích hợp sẵn mobile app simulator. Có thể test app trên điện thoại
  4. Flowith Neo: Super-agent chạy 24 giờ. Có thể dùng multi-agent cho nhiều tác vụ khác nhau, bao gồm cả coding

Tất cả đều được giao cùng một bài toán: mình đưa vào handout của workshop huấn luyện kỹ năng nhờ hỗ trợ mà mình và người quen đã tự phát triển rồi trực tiếp tổ chức, sau đó yêu cầu “hãy tạo một ứng dụng mô phỏng để có thể tự luyện một mình”.

Mỗi dịch vụ được đánh giá hoàn toàn theo cảm nhận chủ quan dựa trên 7 tiêu chí sau (tổng 70 điểm)

  • Quá trình triển khai
    • Hiệu quả: mức độ mình phải can thiệp ít hay nhiều để tạo ra một app chạy được
    • Tiện lợi: việc test và debug có dễ không
    • Tốc độ: tốc độ triển khai có nhanh không
    • Chi phí: chi phí để triển khai có thấp không
  • Kết quả triển khai
    • Tính năng: tính năng có đáp ứng kỳ vọng và đủ phong phú không
    • Khả dụng: UI/UX của app tạo ra có trực quan và đẹp không
    • Hiệu quả: có thực sự hữu ích cho việc huấn luyện kỹ năng nhờ hỗ trợ không

Tóm tắt kết quả đánh giá

(Hình ảnh bảng tóm tắt và màn hình thao tác chi tiết của từng dịch vụ có trên blog)

Nhìn chung:

  • Quá trình triển khai: Lovable > Gemini >> Rork >>>> Flowith
  • Kết quả triển khai: Lovable ~= Flowith > Gemini = Rork

Hoàn thành sau bao nhiêu lượt:

  • Lovable và Gemini đều hoàn thành ngay ở lượt đầu (Gemini tự sửa bug một lần rồi xong)
  • Rork hoàn thành ở lượt thứ 3 sau 2 lần sửa bug (bằng cách dán thông báo lỗi vào)
  • Flowith thì mình phải can thiệp trực tiếp nhiều lần, bản thân nó cũng cố tự sửa nhưng vẫn không hoàn thành. Dù vậy, nó liên tục hiện preview giữa chừng nên vẫn xem được kết quả tạm thời

Cảm nhận

  • Có thể hơi thiên vị một chút, nhưng nhìn chung Lovable áp đảo. Dù vậy, mỗi công cụ đều có điểm mạnh riêng rất rõ
    • Gemini: trải nghiệm test trực tiếp lời gọi LLM là một điểm rất đặc biệt
    • Rork: test mobile app ngay trên điện thoại nên có đúng “chất app” riêng
    • Flowith: làm thêm phần research khá tốt. Chỉ cần nó hoàn thiện xong nữa thì...
  • Flowith là công cụ mình kỳ vọng nhất; kết quả giữa chừng khá ấn tượng nhưng hiện tại vẫn chưa phù hợp để dùng làm công cụ vibe coding chính. Trên hết, nó không tính theo tin nhắn chat mà tính theo credit, nên chi phí quá cao
  • Tham khảo thêm: phần đánh giá quá trình triển khai không chỉ dựa trên lần này mà là tổng hợp toàn bộ trải nghiệm trước đó. Đây là lần đầu mình dùng Rork, còn Lovable thì đã dùng nhiều lần, Gemini và Flowith thì mỗi cái đã làm khoảng 3 app

Đánh giá chi tiết

🥇 Hạng 1 Lovable - 63 điểm (hoàn thành ở lượt đầu)

Quá trình triển khai

  • Hiệu quả: 9
  • Tiện lợi: 9
  • Tốc độ: 10
  • Chi phí: 7

Nói chung là làm gì cũng tốt. Bản triển khai ở lượt đầu là nhanh nhất và gọn gàng nhất. Tính năng tự sửa bug dựa trên thông báo lỗi rất tiện. Visual edit miễn phí và sửa bug miễn phí đều tốt. Việc sửa code cũng làm được: bản trả phí thì chỉnh ngay tại chỗ, bản miễn phí thì thông qua tích hợp GitHub. Khả năng public deploy ngay lập tức cũng rất hay.

Kết quả triển khai

  • Tính năng: 9
  • Khả dụng: 10
  • Hiệu quả: 9

UI đúng là đẹp và gần như không có gì để chê. Tính năng không quá phong phú, nhưng cách diễn giải handout khá sáng tạo, trực quan, và những gì cần có thì đều có đủ.

Điểm trừ là bắt buộc phải luôn đi theo đủ 3 bước của việc nhờ hỗ trợ. Phần mô phỏng cũng chỉ dựa trên luật đơn giản, nhưng vẫn phù hợp. Mình có cảm giác chỉ cần gắn thêm LLM cùng những điểm hay từ các dịch vụ khác vào đây là ổn.

🥈 Hạng 2 Gemini App Build - 56 điểm (hoàn thành ở lượt đầu sau khi tự sửa bug)

Quá trình triển khai

  • Hiệu quả: 7
  • Tiện lợi: 8
  • Tốc độ: 8
  • Chi phí: 10

Điểm mạnh nổi bật là chat miễn phí và có thể gọi Gemini miễn phí. Ngay ở lượt đầu nó đã làm khá tốt, và những bug phát sinh ngay sau khi tạo xong thì nó tự sửa được.

Tuy nhiên ở các lượt tiếp theo thì làm không tốt lắm. Nó cũng có thể tự sửa bug dựa trên thông báo lỗi, nhưng lại không sửa triệt để bug đó nên cuối cùng mình vẫn phải can thiệp thủ công. Không có visual edit, nhưng việc sửa code lại là thuận tiện nhất. Điểm trừ là muốn deploy thì cần Cloud Run.

Kết quả triển khai

  • Tính năng: 8
  • Khả dụng: 6
  • Hiệu quả: 9

UI rõ ràng là hơi cứng. Nó gợi nhớ đến các công cụ của Google, và cũng không diễn giải sáng tạo nội dung trong handout mà gần như giữ nguyên. Việc luôn phải đi đủ cả 3 bước cũng có phần bất tiện.

Tuy vậy, trải nghiệm chat trong phần mô phỏng và được AI phản hồi vẫn cực kỳ độc đáo và hiệu quả, nên được cộng thêm điểm. Cái này chỉ mình nó làm được.

🥉 Hạng 3 Rork - 46 điểm (hoàn thành ở lượt thứ 3)

Quá trình triển khai

  • Hiệu quả: 7
  • Tiện lợi: 5
  • Tốc độ: 7
  • Chi phí: 4

Điểm mạnh là có thể tạo mobile app. Mình đã cài qua app Expo Go trên cả Android lẫn iPhone và chạy tốt trên điện thoại. Có thể chọn model triển khai, bao gồm cả Claude Sonnet 4. Có tính năng tự sửa bug và thực tế là sửa bug khá tốt.

Không thể sửa code trực tiếp, không có visual edit, và quan trọng nhất là sửa bug lại tính phí. Xét cho cùng, một app lỗi do chính nó tạo ra ở lượt đầu thì ít nhất việc sửa cũng nên miễn phí chứ nhỉ?

Kết quả triển khai

  • Tính năng: 8
  • Khả dụng: 7
  • Hiệu quả: 8

Chỉ có mỗi nó là làm ra bằng tiếng Anh. UI cứng và không đẹp. Nội dung trong handout cũng được bê nguyên khá nhiều. Dù vậy, những thứ cần có thì vẫn đủ, và việc có thể chạy riêng từng trong 3 tính năng là khá tiện.

Phần mô phỏng đưa ra câu hỏi trắc nghiệm rồi đánh giá, nên mình thấy khá phù hợp cho người mới luyện tập. Chỉ là phần văn bản hơi dài quá.

Hạng 4 Flowith Neo - 35 điểm (chưa hoàn thành sau n lượt)

Quá trình triển khai

  • Hiệu quả: 1
  • Tiện lợi: 3
  • Tốc độ: 3
  • Chi phí: 1

Phần lập kế hoạch bổ sung thông qua web search khá tốt. Nhưng dù làm rất nhiều việc, trong 3 app đã thử thì nó chưa một lần hoàn thành. Sau khi tự chạy một vòng, nó lại lập kế hoạch thêm để thử sửa bug rồi vẫn không sửa được. Vì không tính phí theo từng tin nhắn mà theo credit, nó cứ tự thử–thất bại lặp đi lặp lại và tiêu tốn rất nhiều credit, điều này khá khó chịu.

Ở mỗi giai đoạn giữa chừng, nó đều deploy một phiên bản lên public URL. Nhưng nhiều khi phiên bản cũ lại tốt hơn. Nếu việc triển khai thất bại giữa chừng thì phải chạy lại thủ công. Muốn xem code thì phải tải xuống, và tất nhiên việc chỉnh sửa cũng chỉ làm được qua prompt. Không hỗ trợ visual edit.

Kết quả triển khai

  • Tính năng: 9
  • Khả dụng: 10
  • Hiệu quả: 7

Bản planning đầu tiên và các preview ở giữa thật sự rất ấn tượng. Dù cuối cùng không hoàn thành, và mỗi phiên bản lại thay đổi khác nhau, nhưng vẫn có nhiều yếu tố có thể học hỏi để mang sang các app khác. Ví dụ như đánh giá đầu vào nghiêm ngặt hơn, hoặc luyện tập với nhiều kịch bản và nhiều mức độ khó khác nhau. UI cũng đẹp, trừ một vài chỗ hơi lạ, và là công cụ chăm chút nhất.

2 bình luận

 
princox 2025-05-28

Tôi đang dùng bolt.new nên cũng muốn so sánh xem cái này thế nào.

 
spilist2 2025-05-29

Tháng 6 này chắc tôi cũng sẽ dùng Bolt khá nhiều vì hackathon Bolt (tổng giải thưởng 1 triệu USD) https://www.stdy.blog/registered-at-vibe-coding-hackathon/ . Sau đó tôi sẽ thử so sánh xem sao haha