Antigravity 2.0 dẫn đầu benchmark 3D LLM kiến trúc OpenSCAD

(modelrift.com)

3 điểm bởi GN⁺ 2026-05-23 | 2 bình luận | Chia sẻ qua WhatsApp

Benchmark OpenSCAD Pantheon kiểm tra liệu công cụ lập trình AI có thể hiện thực công trình kiến trúc thành mã CAD tham số chỉ với 2 ảnh tham chiếu và một prompt ngắn hay không
Google Antigravity 2.0 / Gemini 3.5 Flash High đạt điểm cao nhất với chất lượng 4.5/5, tái hiện cả kích thước Pantheon thực tế, dòng chữ khắc và cả họa tiết trần coffer bên trong
Codex 5.5 High có mật độ chi tiết cao nhưng bị trừ điểm vì bản xem trước PNG và STL cuối cùng không khớp nhau, còn Sonnet tạo ra mô hình gọn gàng nhất trong các lần chạy tự động trước đó
Cursor nhanh nhất nhưng chất lượng thấp nhất, còn ModelRift/Gemini Flash 3.0 đạt 3.8/5 theo cách human-in-the-loop có thêm phản hồi trực quan
Tất cả hệ thống đều thực hiện được render qua OpenSCAD CLI, nhưng nút thắt không nằm ở khả năng truy cập công cụ mà ở đánh giá hình học và kiểm chứng mesh đầu ra cuối cùng

Mục tiêu và bài toán của benchmark

ModelRift tạo mã OpenSCAD cho mọi mô hình 3D, vì vậy năng lực xử lý hình học không gian của LLM liên kết trực tiếp với chất lượng mô hình thực tế
Bài test lần này là một benchmark thực chiến quy mô nhỏ, giao cùng một bài toán cho nhiều công cụ lập trình AI: dựng Pantheon bằng OpenSCAD từ ảnh tham chiếu và prompt ngắn
Mục tiêu là xác nhận khả năng chuyển tài liệu tham chiếu kiến trúc thành mã CAD tham số, render bản xem trước PNG bằng OpenSCAD CLI và lặp cải thiện kết quả

Prompt yêu cầu phải gồm rotunda, mái vòm, portico, cột, pediment và các chi tiết mặt trước của Pantheon

see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI (available) to preview your work (by rendering openscad model to .png)  and iterate until you are happy with the result.

Vì sao chọn Pantheon và OpenSCAD

Pantheon là bài toán vượt xa việc chỉ thử cú pháp đơn giản như difference(), cube(), cylinder(), nhưng cũng không phải dạng hình học hữu cơ như điêu khắc hay nhân vật vốn khó với OpenSCAD
Cấu trúc chính gồm rotunda tròn và mái vòm, oculus trung tâm, portico dạng thẳng, các cột, nền bậc và pediment tam giác, nên phù hợp để so sánh khác biệt giữa các kết quả
Kết quả yếu vẫn có thể trông giống một tòa nhà có mái vòm, nhưng kết quả tốt cần khớp chính xác hơn mối quan hệ giữa trống tròn, portico hình chữ nhật, các vòng mái vòm và mặt đứng phía trước
OpenSCAD phù hợp làm đối tượng cho hình học do LLM sinh ra vì mô hình là mã văn bản thuần và từ vựng nhỏ
Những chỉ dẫn như “lặp 28 cột quanh bán kính” hay “trừ oculus khỏi mái vòm” có thể được biểu đạt trực tiếp trong mã nguồn
Kết quả có thể kiểm tra, tái hiện và sửa dễ dàng; lỗi khoảng cách cột có thể sửa bằng tham số hoặc vòng lặp thay vì trạng thái cảnh ẩn
Bối cảnh ModelRift được xây dựng trên OpenSCAD được tổng hợp trong Why we built ModelRift on OpenSCAD
Điểm hạn chế là OpenSCAD không phải công cụ điêu khắc, mà hợp nhất với đối tượng dạng lắp ghép, tham số và hard-surface hơn

Kết quả tổng thể

Điểm số là đánh giá tương đối trong benchmark này, không phải xếp hạng mô hình tổng quát
Điểm thời gian phản ánh thời gian triển khai quan sát được, không phải thời điểm công bố dự án
Điểm chất lượng được chấm khá bảo thủ, và ngay cả kết quả tốt nhất cũng chưa thật sự là mô hình Pantheon hoàn hảo
Kết quả theo từng công cụ và mô hình:
- Cursor 3.5 / Composer 2.5: thời gian 5/5, chất lượng 1.4/5. Nhanh nhất nhưng yếu nhất; ngoài hình khối lớn của mái vòm và portico thì thiếu tỷ lệ, kiểm soát màu sắc và chi tiết kiến trúc
- Codex 5.5 High: thời gian 4/5, chất lượng 3.0/5. Mật độ chi tiết cao đến mức thêm cả dòng chữ trên entablature, nhưng bị trừ điểm vì STL cuối cùng khác bản xem trước PNG
- Claude Code 2.1 / Opus 4.7: thời gian 2/5, chất lượng 3.0/5. Cấu trúc, portico và nền bậc rõ hơn Cursor nhưng màu quá đồng đều và kém thuyết phục hơn các kết quả mạnh
- Claude Code 2.1 / Sonnet 4.6: thời gian 1/5, chất lượng 3.4/5. Cho ấn tượng tổng thể hợp lý nhất và tỷ lệ cân đối nhất trong các lần chạy tự động trước đó, nhưng mất thời gian triển khai lâu nhất
- Google Antigravity 2.0 / Gemini 3.5 Flash High: thời gian 1/5, chất lượng 4.5/5. Dùng kích thước Pantheon thực và dòng chữ khắc thật, đồng thời là agent tự động duy nhất tái hiện được họa tiết trần coffer bên trong
- ModelRift / Gemini Flash 3.0: thời gian 1/5, chất lượng 3.8/5. Kết quả không tự động tốt nhất dùng workflow chú thích lặp của ModelRift, nhưng mất khoảng gấp đôi thời gian so với Claude Code

Quan sát về workflow

Workflow phía client quan trọng không kém bản thân mô hình
Codex Desktop hiển thị trực tiếp hình ảnh mà LLM nạp vào ngữ cảnh ngay trong cuộc hội thoại, nên dễ xác nhận việc có thực sự dùng tài liệu tham chiếu trong tác vụ CAD trực quan hay không
Cursor Agent và Claude Code CLI cũng có thể dùng ảnh, nhưng ngữ cảnh trực quan ít được thể hiện rõ hơn trong quá trình xử lý
Mọi hệ thống được test đều có thể dùng toolchain OpenSCAD cục bộ và gọi OpenSCAD trong PATH của macOS để render bản xem trước PNG
Nút thắt không phải là truy cập công cụ mà là đánh giá hình học, thiết lập camera và khả năng xuất mô hình xem trước thành mesh cuối cùng sạch sẽ
Codex đặt ảnh tham chiếu, chỉnh sửa file OpenSCAD và bản xem trước được sinh ra trong cùng một thread nên dễ theo dõi quá trình lặp hơn
Sau khi benchmark được công khai, Codex đã cố sửa lỗi export ở phần mái và entablature, nhưng phép so sánh cuối cùng vẫn dựa trên mô hình nộp ban đầu
Cursor cho vòng lặp tương tác nhanh nhất và UI song song hữu ích giữa kế hoạch và mã OpenSCAD, nhưng chất lượng đầu ra lại thua các lần chạy chậm hơn
Claude Code vận hành theo kiểu terminal-first, đọc ảnh và lặp lệnh OpenSCAD, nhưng quá trình hình thành mô hình ít trực quan hơn

Google Antigravity 2.0 / Gemini 3.5 Flash High

Explore 3D result
Lần chạy này được thêm vào ngày 22/05/2026, ngay sau khi Google ra mắt Antigravity 2.0 tại I/O 2026 và công bố Gemini 3.5 Flash vào ngày 19/05/2026
Đây là mô hình tự động hoàn toàn tốt nhất trong benchmark này, và cũng là tín hiệu ban đầu tích cực cho Flash 3.5
Antigravity 2.0 gần với một ứng dụng desktop ưu tiên agent có lập kế hoạch, thực thi tác vụ và xem trước; trong tuần ra mắt nó bị chỉ trích khá nhiều vì người dùng muốn trải nghiệm IDE cũ không có đường quay lại mượt mà ngoài hạ cấp hoặc ghim ứng dụng cũ
Flash 3.5 High không chỉ ước lượng từ ảnh tham chiếu mà còn tra cứu tham số Pantheon thực tế
Kế hoạch và mã dùng kích thước cụ thể cho rotunda, mái vòm, portico và oculus rồi chuyển chúng thành giá trị OpenSCAD tham số
```
Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD.
```

Nó cũng đề xuất chế độ cắt bổ để thể hiện cả cấu trúc bên trong của Pantheon

To showcase both the exterior (stepped rings, portico) and the interior (coffers, niches, perfect spherical proportion), I will include a toggle in the code `show_cutaway = false;`.

Chi tiết nổi bật nhất là phần trần

The Pantheon dome interior has 5 rings of 28 coffers. Subtracting these mathematically in OpenSCAD is highly detailed and looks amazing.

Antigravity là agent tự động duy nhất tái hiện được họa tiết trần coffer hình vuông lặp lại nhìn thấy qua oculus
Kết quả bên ngoài cũng bao gồm nhiều yếu tố thường bị lược bỏ ở đầu ra OpenSCAD nhanh
- chất liệu cột pha xám và đỏ
- dòng chữ khắc có thể đọc được
- các vòng mái bậc
- quan hệ tổng thể rộng giữa rotunda, khối giữa, portico và mái vòm
Điểm chất lượng là 4.5/5, điểm tốc độ là 1/5
Dù không nhanh, nó đã nâng trần mức tối đa của sinh tự động trong benchmark này và cho thấy Flash 3.5 đầy hứa hẹn cho sinh mã không gian khi kết hợp với công cụ lập kế hoạch, render, kiểm tra và sửa đổi

ModelRift / Gemini Flash 3.0

Explore 3D result
Kết quả này được tạo ra bằng quy trình human-in-the-loop với ModelRift và Gemini Flash 3.0, không phải benchmark một lượt tự động như bốn lần chạy đầu
Workflow mất khoảng 10 phút, tức khoảng gấp đôi thời gian của Claude Code, nên cũng nhận điểm tốc độ 1/5
Benchmark này được chạy ngày 21/05/2026, ngay sau khi Gemini 3.5 Flash ra mắt
Kết quả Antigravity cho thấy 3.5 Flash rất mạnh, nhưng trong lựa chọn mô hình mặc định của ModelRift vẫn phải cân nhắc cả chất lượng lẫn chi phí/độ trễ
Bảng giá Gemini API của Google nêu giá chuẩn của Gemini 3.5 Flash là 1,50 USD cho mỗi 1 triệu token đầu vào và 9,00 USD cho mỗi 1 triệu token đầu ra; Gemini 3 Flash là 0,50 USD đầu vào và 3,00 USD đầu ra
Gemini 3.5 Flash đắt hơn 3 lần so với thế hệ Flash trước, và cao hơn rất nhiều so với mặt bằng chi phí thời Gemini 1.5 Flash cũ hơn
Chất lượng đạt 3.8/5, tốt hơn các lô chạy tự động trước đó
Mô hình chưa hoàn hảo nhưng portico, bố trí cột, mái, gân mái vòm và khối tổng thể nhất quán hơn
Khác biệt cốt lõi là có thể gắn trực tiếp phản hồi trực quan lên bản render hiện tại
Workflow của ModelRift được thiết kế để lặp giữa sinh mô hình, kiểm tra trong trình duyệt, viết ghi chú trực quan trên bản render và yêu cầu AI sửa OpenSCAD
Với tác vụ CAD không gian, vòng lặp này chính xác hơn nhiều so với cách chỉ chỉ dẫn bằng văn bản

Các kết quả tự động chính

Codex 5.5 High
- Explore 3D result
- Codex 5.5 High tạo ra mô hình dày đặc chi tiết nhất
- Các yếu tố gồm rotunda, gân mái vòm, oculus, dải đá phân tầng, portico mặt trước, cột, chi tiết nền xung quanh và chữ trên entablature
- Trên entablature có dòng M AGRIPPA L F COS TERTIVM FECIT
- Trong OpenSCAD, văn bản là chi tiết khó về mặt dựng hình vì cần đặt vị trí, đùn khối, định hướng và giữ độ dày mỏng
- Trong quá trình lặp, bản render xem trước trông tốt hơn STL export cuối cùng
- Ở kết quả cuối, phần entablature và mái portico xuất hiện bề mặt giống trần có vấn đề, làm thay đổi ấn tượng của cụm lắp ráp phía trước
- Codex cho thấy suy luận không gian mạnh và tham vọng chi tiết cao, nhưng cũng bộc lộ rủi ro export khi độ chính xác của bản xem trước không tương đương độ chính xác của mesh cuối cùng
- Nếu chấm theo PNG preview tốt nhất thay vì STL công khai, nó có đủ cấu trúc và chi tiết để đứng ngay dưới Antigravity 2.0
- Điểm 3.0/5 bị ảnh hưởng lớn bởi hình phạt vì không khớp giữa export/render cuối cùng hơn là do ý đồ thiết kế của mô hình
Claude Sonnet
- Explore 3D result
- Claude Sonnet tạo ra mô hình gọn gàng nhất trong lô chạy tự động trước đây
- Nó không cố đi sâu vào vi chi tiết như Codex, nhưng silhouette sạch hơn và các thành phần kiến trúc chính ăn khớp tự nhiên hơn
- Mái vòm, trống, portico và bố trí cột được đọc như một công trình duy nhất thay vì tập hợp primitive đặt cạnh nhau
- Tỷ lệ cũng tiết chế hơn, và trước khi có Antigravity thì đây là kết quả hoàn toàn tự động mạnh nhất
- Claude Code chậm hơn Codex khoảng 2–3 lần trong benchmark này, nên Sonnet dù chất lượng tốt vẫn nhận điểm thời gian thấp nhất
- Điểm chất lượng là 3.4/5, nhưng vẫn chỉ dừng ở mức mô hình xấp xỉ chứ chưa phải phục dựng kiến trúc đạt chuẩn production
Cursor Composer
- Explore 3D result
- Tổ hợp Cursor và Composer 2.5 là lần chạy nhanh nhất nhưng kết quả yếu nhất
- Nó bắt được các nét lớn như rotunda, mái vòm, portico và cột
- Nhưng lại bỏ lỡ sự tiết chế vật liệu và sắc thái kiến trúc khiến Pantheon trở nên dễ nhận diện
- Đầu ra gần với một placeholder được đơn giản hóa hơn là mô hình hoàn thiện, và sẽ cần làm lại nhiều trước khi công bố
Claude Opus
- Explore 3D result
- Claude Opus nằm giữa Cursor và Sonnet
- Nó dựng được tòa nhà hoàn thiện hơn Cursor, với portico và nền bậc rõ ràng hơn
- Tuy vậy đầu ra quá đồng đều và kém thuyết phục hơn Sonnet
- Có cấu trúc nhưng thiếu cảm nhận về thứ bậc thị giác
- Màu sắc và trọng lượng của gần như mọi yếu tố đều giống nhau, khiến chi tiết cạnh tranh với nhau thay vì dẫn hướng ánh nhìn
- Điểm cập nhật là 3.0/5, đáng được đánh giá cao hơn phiên bản bảng đầu tiên nhưng vẫn đứng sau Sonnet và Antigravity

Bài học chính

OpenSCAD đã trụ vững với vai trò ngôn ngữ đích
- Cú pháp nhỏ, đầu ra xác định và CLI có thể render bản xem trước để kiểm tra trong vòng lặp lặp lại
- Các LLM không cần thêm cơ chế đặc biệt nào để dùng OpenSCAD
Việc dùng công cụ không phải nút thắt
- Mọi agent đều gọi OpenSCAD trong PATH của macOS và render preview PNG
- Phần khó nằm ở đánh giá hình học, không phải hạ tầng kết nối
Tốc độ không dự đoán được chất lượng
- Cursor nhanh nhất nhưng cho kết quả yếu nhất
- Sonnet mất lâu nhất trong các lần chạy tự động trước đó nhưng cho mô hình sạch nhất
- Antigravity cũng chậm, nhưng Gemini 3.5 Flash High sau khi có thời gian lập kế hoạch và lặp đã tạo ra kết quả tự động tốt nhất
- ModelRift/Gemini Flash 3.0 mất lâu hơn nhưng nhờ phản hồi trực quan đã đạt chất lượng cao hơn các lô tự động trước
Bản xem trước và export không giống nhau
- Codex trông mạnh trong vòng lặp render nhưng mesh STL cuối có vấn đề hình học quanh mái portico
- Với mô hình hướng đến in ấn, cần kiểm tra riêng mesh export chứ không chỉ preview
Chưa có đầu ra nào đủ để qua mức mô hình kiến trúc trung thực
- Dòng chữ khắc của Codex là một chi tiết tốt
- Tỷ lệ của Sonnet khá nhất quán
- Trần coffer của Antigravity là chi tiết ấn tượng nhất
- Kết quả ModelRift/Gemini Flash 3.0 cho thấy chất lượng tăng lên thế nào khi có con người tinh chỉnh trực quan
Chỉ với hai ảnh tham chiếu và một prompt ngắn, mọi hệ thống đều đạt được OpenSCAD hợp lệ và có thể render mà không cần tự tay viết mã CAD trực tiếp
Chênh lệch chất lượng giữa các công cụ là rất lớn, nhưng mặt bằng xuất phát của chúng cao hơn dự đoán
Sinh hoàn toàn tự động vẫn chưa phải workflow đúng cho loại công việc này
- Trong ModelRift, các vòng lặp vẫn dùng Annotation Mode
- Cách làm là vẽ trực tiếp mũi tên và ghi chú lên ảnh chụp màn hình mô hình 3D rồi gửi lại cho AI
- Với hình học không gian, bước human-in-the-loop vẫn quan trọng ngay cả khi dùng mô hình mạnh nhất
- Mô hình có thể dựng đúng khối lớn nhưng vẫn sai vị trí cột hoặc tỷ lệ mái vòm
- Chỉ thẳng vấn đề trên bản render nhanh và chính xác hơn việc mô tả bằng văn bản

2 bình luận

xguru 29 ngày trước

Một trong những dự án cá nhân của tôi là dùng Codex, nhưng ở GPT 5.4 thì OpenSCAD có xu hướng vẫn hơi lúng túng, nên tôi đã chờ đến khi mô hình tốt hơn, giờ chắc phải thử lại thôi.

GN⁺ 2026-05-23

Ý kiến trên Hacker News

Tuần trước tôi mua xe đạp cho vợ trên Marketplace, tình trạng khá tốt nhưng bị thiếu một nút cao su đi dây cáp bên trong
Tôi đưa cho Claude một ảnh riêng của lỗ hình viên thuốc, cùng với một ảnh khác có dùng thước cặp điện tử để đo chiều dài và chiều ngắn, thì chỉ với một prompt ngắn nó đã tạo ra một mô hình OpenSCAD với mọi kích thước đều được tham số hóa
Tôi in bằng TPU mà không cần chỉnh sửa gì, ngay lần đầu đã gần như hoàn hảo, và khi giảm phần Claude trừ ở kích thước x/y từ 0.3mm xuống 0.1mm thì nó vừa khít. Hình dạng này dễ hơn nhiều so với kiến trúc La Mã cổ đại, nhưng việc nó hoạt động dễ dàng như vậy vẫn rất ấn tượng
- CAD là ví dụ điển hình của một công nghệ mà cá nhân tôi không đụng tới vì rào cản gia nhập quá cao, nhưng giờ tôi có cảm giác mình đã có thể làm được vài việc đơn giản dù chỉ ở mức tạm ổn
  Tôi cũng có trải nghiệm tương tự khi tạo các chi tiết chức năng đơn giản cho máy in 3D bằng OpenSCAD và LLM, và tôi biết các model này chưa giỏi bằng lúc sinh code React, hơn nữa tôi hoàn toàn trái ngược với một người điều khiển thành thạo. Dù vậy, việc nó khiến tôi bắt đầu học một kỹ năng mới ở mức sở thích là rất hay
- Claude làm tốt nếu bạn cung cấp mọi kích thước, nhưng lại không giỏi đoán
  Phép màu thực sự sẽ là lúc chỉ cần đưa một kích thước hoặc một bức ảnh có thước kẻ rồi AI tự suy ra phần còn lại, nhưng ít nhất hiện tại Claude vẫn khá yếu ở chuyện phỏng đoán
- Gần đây tôi thử bắt các model tạo bánh quy may mắn 3D, Claude thì làm bằng three.js, Gemini thì bằng OpenSCAD, nhưng cả hai đều không nắm đúng khái niệm và còn chưa đến gần kết quả mong muốn. Có vẻ đây là hình dạng phức tạp hơn tưởng tượng
- Chính những bản in chức năng nhỏ như thế này mới là nơi OpenSCAD và việc sinh bằng LLM tỏa sáng
- Nó có tối ưu để không cần support không?
Câu “Antigravity là tác tử tự động duy nhất tái hiện được họa tiết trần trong tiêu biểu của Pantheon, tức trần ô vuông lõm lặp lại có thể nhìn thấy qua oculus” thật sự rất ấn tượng
Dù đã xem mô hình 3D rồi, tôi vẫn chưa từng nghĩ đến việc nhìn vào bên trong công trình cho đến khi đọc câu này
Mô hình 3D với show_cutaway bật ở đây: https://modelrift.com/models/pantheon-benchmark-antigravity-...
- Tôi không chắc việc dùng thông tin bên ngoài không được nêu rõ trong prompt để tạo mô hình là tốt hay xấu
  Nếu bạn muốn “Pantheon” thì rõ ràng đó là hành động đúng, nhưng nếu là họa viên kỹ thuật hay kỹ sư thì có lẽ khó chấp nhận kiểu đầu ra như vậy
- Tôi tình cờ nhìn vào bên trong, và ở đó lại thấy rõ trí tuệ và công sức hơn là ở bên ngoài
Tôi không biết Antigravity đã đứng đầu benchmark nào, nhưng bản Antigravity thay thế cưỡng bức Gemini CLI của tôi thì lần nào dùng cũng đòi đăng nhập trình duyệt, còn Antigravity IDE thì thậm chí không cập nhật được
Nếu có thể thì trước khi lo đứng nhất ở đâu đó, hãy đảm bảo chất lượng triển khai tối thiểu có thể chấp nhận được đã
Tiêu đề thực sự là “OpenSCAD LLM Benchmark: Building the Pantheon”
- Đồng ý. Điều khiến tôi lo nhất ở các sản phẩm Google AI là nỗi khổ UX bất tận quanh đăng nhập, thanh toán, nâng cấp và khai tử sản phẩm
  Dù vậy, bản thân các model LLM thì tốt và Antigravity 2.0 cũng không đến nỗi tệ. Nhưng nếu như nhiều người khác, bạn đã mất cấu hình và dự án của Antigravity 1.0 thì câu chuyện lại khác
- Sau khi xem Google I/O, tôi lại càng bớt tin vào năng lực thực thi của Google
  Gemini 3.5 Flash rất kỳ lạ. Mốc dữ liệu cắt quá cũ, ở vài mặt thì tốt hơn 3.1 Pro nhưng mặt khác lại kém hơn, đôi khi rẻ hơn và đôi khi lại đắt hơn 3.1 Pro
  Antigravity từng trông như bị bỏ rơi và mọi người đoán nó sẽ bị khai tử, rồi thực tế điều đó phần nào xảy ra khi họ chuyển tất cả sang Antigravity mới
  Google cho cảm giác như đem nguyên sơ đồ tổ chức ra thành sản phẩm, có quá nhiều sản phẩm AI nhưng không cái nào trông như tốt nhất phân khúc. Ví dụ, tích hợp Gemini trong Google Docs còn kém hơn Claude
  Điều tôi kỳ vọng là một model có “trí tuệ mức Opus với giá Haiku” hoặc “hiệu năng mức Sonnet với giá Gemini 3.0”. Chỉ cần một trong hai là đã có thể trở thành model chủ lực và đối thủ của Claude/Codex, nhưng cuối cùng không có cái nào
- Tôi dùng Claude Code và IntelliJ, nên không thực sự hiểu vì sao lại có nhiều người phàn nàn việc Antigravity bỏ VS Code như vậy
  Tôi muốn biết Antigravity CLI + VS Code hoặc kết hợp với IDE khác còn thiếu điều gì mà không bù được
- Việc bị nâng cấp cưỡng bức từ Gemini CLI, thứ mà tôi thích và thậm chí ở vài mặt còn đánh giá tốt hơn Claude Code, cũng đã đủ tệ rồi
  Nhưng email gửi hôm thứ Tư kiểu “cảm ơn bạn đã đăng ký Google One AI Pro, từ giờ chúng tôi thêm giới hạn vào tài khoản của bạn, chịu thôi” thì thật sự rất khó chịu. Trước đó tôi còn khen gói AI Pro là rất đáng tiền
- Lý do chính khiến tôi không nhận dùng Antigravity dù có thích nó là vì nó làm gián đoạn workflow
  Tôi vui vì Google vẫn đầu tư, nhưng càng lớn tuổi tôi lại càng giữ gìn workflow của mình hơn
Tôi đã chạy khá nhiều benchmark cho OpenSCAD với đủ loại model và cấu hình, và điều tôi rút ra là thế này
Các model rất thất thường, có thể xuất sắc ở một số kiểu mô hình 3D nhưng lại không tốt ở kiểu khác
Theo kinh nghiệm của tôi, các model Gemini là ít thất thường nhất và có khả năng hiểu hình ảnh tốt nhất
Các model Gemini cũng sáng tạo nhất, nhưng nếu bạn cần chi tiết CAD chính xác thì điều đó lại có thể không hẳn là tốt
Nhìn chung benchmark này không chứng minh được nhiều, vì một mô hình 3D và một lần thử là chưa đủ. Thông thường tôi test ít nhất 12 model, mỗi model sinh 3 lần, nhưng thật ra còn nên làm nhiều hơn nữa. Chỉ là với một dev cá nhân thì chi phí quá lớn
Dù sao cũng cảm ơn vì đã công khai, và tôi định sớm chạy thử xem Flash 3.5 thể hiện ra sao
- Tôi cho rằng OpenSCAD vô dụng vì không xử lý được đường cong. Tôi không hiểu vì sao nó cứ liên tục được chú ý như vậy
Đánh giá LLM bằng khả năng tạo ra mô hình CAD 3D hợp lệ là một benchmark thú vị
OpenSCAD đặc biệt phù hợp cho kiểu đánh giá này vì nó hoàn toàn dựa trên code
Tự mình thử thì đó là một trải nghiệm khá tệ. Ở lần đầu có thể bạn sẽ có một bản nháp tạm được, nhưng khi bắt đầu “debug” nó thì sau một phiên rất bực bội bạn sẽ nhận ra model không thể thực sự “nhìn” được kết quả
Tức là hoàn toàn không thể lặp lại để cải tiến
Phần lớn công cụ thực thi hoặc harness dường như đều giảm kích thước ảnh trước khi xử lý, và trong quá trình đó rất nhiều chi tiết bị mất đi, đặc biệt với ảnh wireframe đến mức khó mà suy luận được
Có thể là do tôi đang dùng sai, nhưng bài test này thực sự không kiểm chứng phần đó. Nó chỉ là một lần thử đơn lẻ, và kiểu đó thì sụp rất nhanh. Đặc biệt là khi bạn không có ảnh tham chiếu của thứ mình muốn tạo
Tạo một vật thể ngoài đời thật rồi tuyên bố đó là benchmark thì không phải cách đánh giá công cụ vững chắc
Nó nên giống Iron Chef, đưa ra chủ đề kiến trúc Hy Lạp rồi để một ban giám khảo chọn người thắng. Còn hiện tại thì chỉ như đang xem công cụ nào tạo ra Pantheon trông có vẻ hợp lý nhất theo cảm nhận chủ quan
- Cái này giống “tôi thích cái này!” hơn là benchmark
  Họ đang đánh giá một ví dụ đơn lẻ, không được định nghĩa rõ ràng, bằng tiêu chí chấm điểm hoàn toàn chủ quan, lại còn không có use case cuối cùng nào
Vẫn còn quá sớm để bán khống Autodesk
Để tham khảo, Autodesk đã tung ra trợ lý dạng tác tử cho Fusion vào tháng 12, và đến giờ sau 6 tháng nó vẫn khá tệ
- Tệ theo kiểu gần như buồn cười luôn
  Vài tuần gần đây tôi phải thiết kế vài chi tiết đơn giản để in 3D nên đã thử dùng, mỗi cái chỉ tầm 4 thao tác trên timeline là xong, vậy mà dù tôi đã mô tả rất chi tiết từng bước theo đúng thuật ngữ của Fusion, nó vẫn không thể tạo ra thứ gì gần với cái tôi muốn
  Giờ tôi thậm chí không chắc nó có làm nổi những khối cơ bản đơn giản hay không
- Bạn đã thử Fusion MCP ra mắt tháng trước chưa? https://aps.autodesk.com/blog/bringing-fusion-claude-creativ...
- Vẫn còn một chặng đường dài, nhưng cuối cùng tôi nghĩ rồi nó sẽ tới được
Tôi thấy không mấy thuyết phục. Pantheon là một trong những công trình lịch sử mang tính biểu tượng nhất, có rất nhiều sách viết về nó, cũng như rất nhiều ảnh và mô hình công khai có sẵn để học từ trước
Một benchmark mô hình hóa một cấu trúc vô danh chỉ dựa trên tham chiếu được cung cấp có lẽ sẽ thú vị hơn. Nó tạo cảm giác như thứ ảo thuật hời hợt khi thấy LLM làm xong một app todo trong một phát
Tôi đang làm một thiết bị công nghệ cho việc nuôi dạy con, và phần vỏ ngoài của nó hoàn toàn do AI tạo ra
Tôi hoàn toàn không biết bắt đầu từ đâu với 3D modeling, và LLM đã chỉ ra cho tôi rằng thứ này cũng giống những thứ khác: nó là code
Kỳ lạ là Opus 4.5 đã làm hoàn hảo ngay trong một lần, chuyện đó xảy ra ngay trước tranh cãi về việc giảm năng lực, còn từ sau đó thì ngay cả việc chỉnh sửa rất nhỏ cho phần vỏ cũng trở nên cực kỳ khó
Cảm giác như Opus đã biến từ một model có thể xoay hình khối trong đầu một cách chuyên nghiệp thành một model thậm chí còn không biết mình đang xử lý cái gì
- Phần vỏ của tôi cũng tương tự: https://quill.lorehex.co/feather
  Chỉ là 4.7 thì vẫn ổn cho công việc chỉnh sửa thôi