- Môi trường thực thi container của ChatGPT đã được mở rộng đáng kể, giờ đây có thể chạy lệnh Bash, cài gói pip/npm và tải tệp xuống
- Môi trường trước đây tập trung vào Python nay đã bổ sung hơn 10 ngôn ngữ như Node.js, Ruby, Go, Java, Swift, Kotlin, C, C++ để hỗ trợ thực thi mã đa ngôn ngữ
- Quyền truy cập mạng bên ngoài vẫn bị hạn chế, nhưng được cấu hình để
pip install và npm install hoạt động thông qua proxy nội bộ của OpenAI
- Công cụ mới
container.download có thể lấy tệp từ URL công khai và lưu vào bên trong container, đồng thời đi qua quy trình kiểm tra bảo mật
- Bản nâng cấp này mở rộng đáng kể khả năng chạy mã và xử lý dữ liệu của ChatGPT, đồng thời nhấn mạnh nhu cầu cần có tài liệu chính thức
Các mở rộng chính của container ChatGPT
- ChatGPT hiện có thể chạy trực tiếp lệnh Bash, trong khi trước đây chỉ chạy được mã Python
- Không còn phải thực thi gián tiếp thông qua mô-đun
subprocess của Python, mà có thể điều khiển ở cấp dòng lệnh
- Môi trường Node.js đã được bổ sung, cho phép chạy JavaScript; ngoài ra Ruby, Perl, PHP, Go, Java, Swift, Kotlin, C, C++ cũng đã được kiểm thử thành công
- Rust vẫn chưa được hỗ trợ
- Container vẫn không thể trực tiếp thực hiện các yêu cầu mạng ra bên ngoài, nhưng
pip install và npm install hoạt động qua proxy
- Có thể dùng công cụ
container.download để tải tệp trên web về đường dẫn chỉ định
- ChatGPT có thể nhận diện URL, lưu tệp đó vào môi trường sandbox rồi xử lý tiếp
Tính năng container.download
container.download là công cụ lấy tệp từ URL có thể truy cập công khai và lưu vào hệ thống tệp của container
- Tệp đã tải về có thể được giải nén, phân tích, chuyển đổi và hậu xử lý bên trong container
- Theo kết quả thử nghiệm, phần đầu yêu cầu có chứa
User-Agent: ChatGPT-User/1.0, và IP được xác nhận là Microsoft Azure Cloud (Des Moines, Iowa)
Kiểm chứng bảo mật: có khả năng rò rỉ dữ liệu hay không
- Đã tiến hành thử nghiệm xem
container.download có thể trở thành lỗ hổng rò rỉ dữ liệu hay không
- Khi gọi URL có chứa chuỗi truy vấn, xuất hiện lỗi “url not viewed in conversation before”
- Đây là cơ chế an toàn giới hạn truy cập URL, tương tự Web Fetch của Claude, chỉ cho phép truy cập các URL đã được xác nhận thông qua đầu vào người dùng hoặc kết quả tìm kiếm
- Có thể truyền một phần chuỗi truy vấn thông qua
web.run, nhưng các chuỗi dài bao gồm lịch sử hội thoại trước đó bị bộ lọc chặn lại
- Theo các thử nghiệm hiện tại, rủi ro rò rỉ dữ liệu được đánh giá là thấp, dù vẫn cần thêm nghiên cứu bảo mật
Chạy Bash và đa ngôn ngữ
- Nhờ hỗ trợ chạy Bash, ChatGPT có thể thực hiện các lệnh ở cấp hệ thống
- Ví dụ: có thể chạy lệnh
npm install và kiểm tra kết quả
- Có thể xác minh việc lệnh có thực sự được thực thi hay không qua nhật ký chạy trong bảng Activity (log console đen trắng)
- Thử nghiệm chạy “Hello World” trên nhiều ngôn ngữ đã thành công, xác nhận đây là môi trường thực thi mã đa ngôn ngữ
Cơ chế cài gói pip và npm
- Dù container bị chặn truy cập mạng bên ngoài, việc cài gói vẫn được thực hiện thông qua proxy nội bộ của OpenAI (
applied-caas-gateway1.internal.api.openai.org)
- Các biến môi trường như
PIP_INDEX_URL, NPM_CONFIG_REGISTRY đều trỏ tới proxy này
- Các trình quản lý gói chính như
pip, uv, npm đều hoạt động qua proxy nói trên
- Trong biến môi trường có nhiều đường dẫn registry với tiền tố CAAS_ARTIFACTORY_*
- Tồn tại nhiều đường dẫn kho lưu trữ nội bộ cho PyPI, npm, Go, Maven, Gradle, Cargo, Docker...
- Rust và Docker hiện vẫn chưa được cài sẵn, nhưng gợi mở khả năng mở rộng trong tương lai
Khai thác tích hợp và các bài toán tiếp theo
- ChatGPT giờ đây có thể cài gói Python và Node.js rồi áp dụng cho các tệp được tải lên hoặc tải xuống
- Từ viết mã, thực thi, xử lý dữ liệu đến nhập/xuất tệp, hệ thống đã đạt tới mức của một môi trường phát triển hoàn chỉnh
- Thiếu sót lớn nhất là chưa có tài liệu chính thức, nên cần công bố release note và các giới hạn chi tiết
- OpenAI cần đặt tên phù hợp cho nhóm tính năng này; hiện tạm được gọi là “ChatGPT Containers”
Tóm tắt toàn bộ danh sách công cụ của ChatGPT
- Danh sách các công cụ khả dụng trong môi trường GPT-5.2 đã được công bố
- Bao gồm python.exec, web.run, container.exec, container.download, image_gen.text2im...
- Mỗi công cụ đều có mô tả (description) và chữ ký (signature) rõ ràng
container.exec dùng để chạy lệnh, container.feed_chars để nhập vào phiên tương tác, container.open_image để hiển thị ảnh
- Cũng bao gồm các tính năng cá nhân hóa người dùng như
bio.update, personal_context.search, user_settings.set_setting
- Nhìn chung, ChatGPT đang tiến hóa thành một môi trường AI tích hợp, kết hợp thực thi mã, truy cập web, xử lý tệp và quản lý ngữ cảnh người dùng
1 bình luận
Ý kiến trên Hacker News
Tôi làm trong bộ phận hỗ trợ kỹ thuật, quen với Python nhưng không phải là lập trình viên
Nhưng trong vài tuần gần đây, Gemini và Claude đã hỏi tôi rằng “bạn có thể dùng máy tính không?”
Tôi hỏi lại: “Máy tính nào? Máy của tôi? Hay máy của các bạn?”
Vì đang dùng phiên bản trình duyệt miễn phí nên tôi không nghĩ chúng có thể trực tiếp dùng máy của tôi, nhưng hóa ra chúng đang chạy script Python trong môi trường riêng của chúng
Điều đó khiến tôi tò mò không biết ai là người đầu tiên nghĩ ra ý tưởng cung cấp một máy tính thực sự cho LLM để giải các bài toán tính toán
Ngoài ra, khi chạy Nano Banana bằng prompt, Gemini lại nhắc đến trình tạo ảnh ở ngôi thứ ba, tạo cảm giác như “rùa chồng lên rùa”
Theo kinh nghiệm của chúng tôi, cấp cho agent một môi trường Linux mang lại nhiều lợi ích kết hợp
Nó tự xử lý được những tình huống kỳ quặc mà công cụ thông thường khó giải quyết
Ví dụ, khi một file được đặt tên là .png nhưng thực ra là jpeg, nó sẽ đọc magic byte và xử lý đúng cách
Tôi đã thử dùng mô hình vision để kiểm tra ICC profile hay mật độ mực, nhưng nó thường nói linh tinh
Cuối cùng tôi phải cấp cho agent quyền truy cập ImageMagick để tự phân tích, và đó là cách duy nhất đáng tin cậy
Nếu không thì tôi sẽ là người phải gánh chi phí các bản in bị lỗi
Hầu hết trình xem hoặc chỉnh sửa ảnh trên Linux đều đã xác định định dạng file bằng magic byte thay vì phần mở rộng
Tôi nghĩ thiết kế phụ thuộc phần mở rộng của Microsoft là nguyên nhân tạo ra kiểu vấn đề này
Với con người thì chỉ là việc có thể làm trong vài giây bằng các công cụ Unix thông thường
ChatGPT bản cơ bản giờ cũng có thể chạy code bằng Node.js, Ruby, Perl, PHP, Go, Java, Swift, Kotlin, C, C++ và nhiều ngôn ngữ khác
Không thấy trong ghi chú phát hành chính thức, nhưng đã xác nhận là dùng được cả với tài khoản miễn phí
Liên kết chia sẻ
Tôi khá bất ngờ khi thấy các mục như “gmail (read-only)”
Ứng dụng ChatGPT trên Android nói rằng nó không có quyền như vậy, nên tôi tò mò quyền đọc Gmail khả dụng trong ngữ cảnh nào
Trên ứng dụng iPhone cũng thấy các tính năng gmail. và gcal.
Ví dụ chia sẻ
Có lẽ là tính năng được nhắc đến trong bài viết của Mashable
Có vẻ người dùng phải tự bật opt-in thì nó mới được kích hoạt
Dạo này có vẻ mọi công ty đều đang cạnh tranh để khóa tính năng tool calling vào trong nền tảng của riêng mình
Cuối cùng, nếu mô hình có thể làm gần như mọi việc trong môi trường cục bộ thì tranh luận về sandbox cũng sẽ bớt ý nghĩa
Tôi tò mò không biết đến bao giờ họ mới cung cấp môi trường phát triển ảo bền vững
và tôi vẫn nghĩ việc vận hành công cụ AI coding hay agent trong môi trường cô lập là rất có giá trị
Có lẽ phần lớn lập trình viên sẽ dùng các công cụ coding chuyên biệt như vậy thay vì giao diện web GPT thông thường
Bạn bắt đầu một phiên, làm việc rồi quay lại sau một ngày thì trạng thái hệ thống file vẫn được giữ nguyên
Có lẽ nó dùng object storage để giảm chi phí
Nhân tiện, bài viết về thiết kế của Sprites.dev trên Fly cũng rất đáng xem
Thay vì phần cứng cục bộ thì chỉ giữ lại thin client, còn workload thực tế giao cho những nơi như Microsoft
Cá nhân tôi thấy không có môi trường phát triển cục bộ thì đúng là địa ngục, nhưng có vẻ xu thế đang đi theo hướng đó
Tính năng này hoặc sẽ tiết kiệm cực nhiều thời gian, hoặc sẽ tạo ra một kiểu sự cố học tập
Khả năng phát hiện như thám tử của Simon thật tuyệt
Những kiểu “bài viết khám phá” như thế này thú vị hơn nhiều so với thông báo chính thức
Nó truyền cảm hứng hơn rất nhiều so với một thông cáo báo chí đơn thuần
Có lẽ sắp tới ChatGPT sẽ bước vào thời kỳ tự tạo ứng dụng dùng một lần ngay tại chỗ
Nó sẽ tạo ứng dụng sandbox trên đám mây trong trình duyệt để hoàn thành mục tiêu, rồi xong là bỏ ngay