1 điểm bởi GN⁺ 1 giờ trước | 2 bình luận | Chia sẻ qua WhatsApp
  • Mythos của Anthropic đã báo cáo 5 lỗ hổng trong curl, nhưng thực tế chỉ còn lại 1
  • Kết quả rà soát của nhóm bảo mật curl cho thấy 3 trường hợp là dương tính giả, 1 trường hợp được phân loại là lỗi thông thường
  • Lỗ hổng đã được xác nhận là một CVE có mức độ nghiêm trọng thấp, dự kiến công bố vào cuối tháng 6 cùng với curl 8.21.0
  • Báo cáo bao gồm khoảng 20 lỗi, và nhóm curl đang sửa các mục mà họ đồng ý
  • Daniel Stenberg cho rằng chỉ riêng kết quả trên curl chưa đủ bằng chứng để nói Mythos ở mức nguy hiểm đặc biệt

Con đường tiếp cận curl của Anthropic Mythos

  • Vào tháng 4/2026, Anthropic đã gây chú ý lớn khi kết luận rằng mô hình AI mới Mythos “giỏi đến mức nguy hiểm” trong việc tìm ra các lỗ hổng bảo mật trong mã nguồn
  • Anthropic không công bố Mythos ngay lập tức, mà chọn cách trước tiên cung cấp giới hạn cho một số công ty để họ có thời gian khắc phục các vấn đề quan trọng
  • Là một phần của project Glasswing, Anthropic cũng cung cấp quyền truy cập vào mô hình AI mới nhất cho cả các “dự án mã nguồn mở” thông qua Linux Foundation
  • Linux Foundation giao phần này cho Alpha Omega, và đề nghị đó đã được chuyển tới Daniel Stenberg, trưởng nhóm phát triển của curl
  • Dù thỏa thuận sử dụng đã được ký, việc truy cập thực tế bị trì hoãn, và cuối cùng quy trình được thực hiện theo cách một người khác có quyền truy cập Mythos quét, phân tích curl rồi chuyển báo cáo lại

Phân tích bảo mật AI cho curl đã được tiến hành từ trước

  • Ngay cả trước báo cáo của Mythos, curl đã liên tục được phân tích bằng nhiều công cụ dựa trên AI, đồng thời vẫn sử dụng các bộ phân tích mã tĩnh thông thường, các tùy chọn compiler khắt khe và fuzzing trong nhiều năm
  • Chủ yếu là AISLE, ZeropathOpenAI’s Codex Security đã dùng AI để kiểm tra mã curl
  • Phân tích từ các công cụ này đã dẫn tới 200~300 bản sửa lỗi được hợp nhất vào curl trong khoảng 8~10 tháng gần đây
  • Một số mục do công cụ AI báo cáo đã được xác nhận là lỗ hổng thực sự và được công bố dưới dạng CVE, với số lượng “có lẽ hơn 12”
  • GitHub CopilotAugment code cũng được dùng để rà soát pull request, giúp sửa các vấn đề được chỉ ra và hợp nhất mã tốt hơn
  • Rà soát bằng AI không thay thế rà soát của con người mà được dùng như một phương tiện kiểm tra bổ sung, góp phần nâng cao chất lượng khi hợp nhất
  • Các nhà nghiên cứu bảo mật cũng đang sử dụng AI rộng rãi và hiệu quả, khiến nhiều báo cáo bảo mật chất lượng cao đang đổ về
  • Trong dự án curl, bảo mật là ưu tiên hàng đầu, và nhiều hướng dẫn cũng như quy trình kỹ thuật phần mềm đang được áp dụng để giảm thiểu lỗi
  • Quét tìm lỗi chỉ là một trong nhiều bước để giữ curl an toàn, và có vẻ khó tìm được dự án nào làm bảo mật phần mềm nhiều như curl hoặc đi xa hơn thế

Kết quả phân tích đầu tiên của Mythos ngày 6/5/2026

  • Báo cáo phân tích mã nguồn đầu tiên do Mythos tạo ra đã trở thành cơ hội để xác định các khu vực cần cải thiện và các lỗi cần sửa trong curl
  • Lần quét ban đầu được thực hiện trên kho git của curl và một commit gần đây cụ thể của nhánh master
  • Phạm vi phân tích là 178 nghìn dòng mã trong các thư mục con src/lib/
  • Báo cáo trình bày chi tiết nhiều cách tiếp cận và phương pháp đã được dùng để cố gắng tìm ra các khiếm khuyết
  • Ở đầu báo cáo có đoạn giải thích rằng curl là một trong những codebase C được fuzzing và audit nhiều nhất, từng trải qua “OSS-Fuzz, Coverity, CodeQL và nhiều cuộc kiểm toán trả phí”, nên sẽ rất khó tìm ra điều gì đó trong các đường đi cốt lõi của HTTP/1, TLS và phân tích URL
  • Trên thực tế, Mythos đã không tìm thấy vấn đề nào trong các đường đi cốt lõi đó

Quy mô codebase và lịch sử bảo mật của curl

  • Nếu không tính dòng trống, curl hiện gồm 176 nghìn dòng mã C
  • Mã nguồn gồm 660 nghìn từ, tức nhiều hơn 12% so với toàn bộ tiểu thuyết War and Peace bản tiếng Anh
  • Trung bình mỗi dòng mã nguồn production trong curl đã được viết rồi viết lại 4,14 lần
  • Phần mã production cũ hiện còn lại trên git master do 573 người đóng góp riêng biệt viết ra
  • Tính đến nay, kho git của curl đã hợp nhất các thay đổi do tổng cộng 1.465 người đóng góp đề xuất
  • curl đến nay đã công bố 188 CVE
  • curl hiện được cài đặt trên hơn 20 tỷ instance
  • curl chạy trên hơn 110 hệ điều hành28 kiến trúc CPU
  • curl chạy trên smartphone, tablet, ô tô, TV, máy chơi game và server

“5 lỗ hổng đã được xác nhận” thực tế giảm còn 1

  • Báo cáo của Mythos kết luận rằng họ đã tìm thấy 5 “Confirmed security vulnerabilities”
  • Sau khi nhóm bảo mật curl xem xét chi tiết trong vài giờ, trong số 5 trường hợp chỉ còn 1 là lỗ hổng được xác nhận thực sự
  • Trong 4 trường hợp còn lại, 3 trường hợp bị đánh giá là dương tính giả vì chỉ ra các giới hạn đã được tài liệu hóa trong tài liệu API
  • Trường hợp còn lại được xem là lỗi thông thường, không phải lỗ hổng
  • Lỗ hổng duy nhất được xác nhận dự kiến sẽ trở thành một CVE mức độ nghiêm trọng thấp (severity low)
  • CVE này dự kiến được công bố vào cuối tháng 6, đồng thời với bản phát hành curl tiếp theo là 8.21.0
  • Chi tiết của lỗ hổng đó sẽ không được công khai trước thời điểm công bố
  • Báo cáo của Mythos cũng bao gồm nhiều lỗi cuối cùng được kết luận là không phải lỗ hổng, và nhóm curl đang điều tra, sửa từng mục mà họ đồng ý
  • Báo cáo trình bày khá gọn gàng khoảng 20 lỗi, và gần như không có dương tính giả
  • Nhờ báo cáo lần này, curl đang được cải thiện, nhưng nếu chỉ xét số lượng phát hiện thì các công cụ AI từng dùng trước đây đã dẫn tới nhiều bản sửa lỗi hơn
  • Điều này cũng phản ánh việc các công cụ ban đầu đã tìm ra nhiều lỗi dễ hơn trước, còn theo thời gian khi các vấn đề được sửa, việc tìm ra lỗi mới ngày càng khó hơn
  • Lỗi có thể nhỏ hoặc lớn, nên chỉ so sánh đơn thuần bằng số lượng không phải lúc nào cũng công bằng

Mythos không có vẻ ở mức “nguy hiểm” đặc biệt

  • Nếu chỉ nhìn vào kết quả phân tích curl, có thể đi đến kết luận rằng sự chú ý lớn xoay quanh Mythos chủ yếu là marketing
  • Không thấy bằng chứng nào cho thấy cấu hình Mythos tìm ra vấn đề ở mức cao hơn hay tinh vi hơn hẳn so với các công cụ trước đó
  • Có thể Mythos nhỉnh hơn đôi chút, nhưng dường như chưa đủ tốt hơn để tạo ra khác biệt đáng kể trong phân tích mã
  • Tuy vậy, đánh giá này chỉ giới hạn ở kết quả từ một kho mã nguồn duy nhất là curl
  • Không thể loại trừ khả năng Mythos làm tốt hơn rất nhiều trên các mục tiêu khác

Trình phân tích mã bằng AI vẫn cực kỳ mạnh

  • Các trình phân tích mã dựa trên AI vượt trội đáng kể so với các bộ phân tích mã truyền thống trước đây trong việc tìm ra lỗ hổng bảo mật và sai sót trong mã nguồn
  • Các mô hình AI hiện đại đều rất phù hợp với công việc này, và ai có thời gian cùng ý chí thử nghiệm đều có thể tìm ra vấn đề bảo mật
  • Sự hỗn loạn chất lượng cao thực sự đang diễn ra
  • Những dự án chưa từng quét mã nguồn bằng công cụ AI đến nay nhiều khả năng sẽ tìm được rất nhiều khiếm khuyết, lỗi và lỗ hổng tiềm ẩn nhờ thế hệ công cụ này
  • Không chỉ Mythos mà nhiều công cụ AI khác cũng có thể tạo ra kết quả như vậy
  • Nếu dự án không dùng trình phân tích mã AI, điều đó sẽ để lại thời gian và cơ hội cho kẻ tấn công cùng các tác nhân xấu tìm ra và khai thác các lỗi chưa được phát hiện

Điểm khác biệt giữa trình phân tích AI và trình phân tích truyền thống

  • Trình phân tích AI có thể phát hiện khi phần chú thích nói về mã khác với cách mã thực sự hoạt động
  • Chúng cũng có thể kiểm tra mã cho những nền tảng và cấu hình mà thông thường không thể chạy trình phân tích
  • Chúng “biết” chi tiết về thư viện bên thứ ba và API, nên có thể phát hiện việc dùng sai hoặc các giả định sai
  • Chúng “biết” các chi tiết giao thức mà curl triển khai, nên có thể nêu vấn đề ở những điểm mã có vẻ vi phạm hoặc mâu thuẫn với đặc tả giao thức
  • Chúng thường làm tốt việc tóm tắt và giải thích lỗi, điều vốn có thể nhàm chán và khó khăn với các trình phân tích cũ
  • Chúng có thể tạo và đề xuất patch cho vấn đề đã tìm thấy, dù patch đó thường không phải bản sửa hoàn chỉnh 100%

Chi tiết báo cáo của Mythos

  • Báo cáo của Mythos kết luận có 0 lỗ hổng an toàn bộ nhớ
  • Về mặt phương pháp, đợt rà soát này là một phân tích do con người dẫn dắt, sử dụng các tác tử con LLM để đọc file song song
  • Trước khi được ghi nhận, mọi phát hiện ứng viên đều được xác minh lại trong phiên chính bằng cách kiểm tra trực tiếp mã nguồn
  • Việc ánh xạ CVE và truy tìm biến thể được xây dựng từ vuln.json của chính curl
  • Không sử dụng công cụ SAST tự động
  • Kết quả này phù hợp với thực tế rằng curl là một trong những codebase C được fuzzing và audit nhiều nhất
  • Hạ tầng phòng vệ của curl đang đóng một cách có hệ thống các loại lỗi thường dễ xuất hiện ở codebase quy mô này
  • Các thành phần phòng vệ bao gồm dynbuf có giới hạn, curlx_str_number dùng giá trị tối đa tường minh cho mọi phép phân tích số, curlx_memdup0 có cơ chế chặn overflow, cưỡng chế chuỗi định dạng CURL_PRINTF, giới hạn kích thước phản hồi theo từng giao thức và giới hạn dòng 64KB của pingpong
  • Phạm vi bao phủ bao gồm mọi giao thức nhỏ, mọi bộ phân tích file, mọi đường xác minh TLS backend, HTTP/1·2·3, toàn bộ chiều sâu FTP, mprintf, x509asn1, DoH, mọi cơ chế xác thực, mã hóa nội dung, tái sử dụng kết nối, session cache, công cụ CLI, mã theo từng nền tảng, cho tới cả chuỗi cung ứng CI và build

AI đang tìm lại các loại lỗi cũ theo cách mới

  • Các công cụ AI đang tìm những loại lỗi phổ biến và đã được biết đến từ trước, chỉ là phát hiện ra các instance mới
  • Cho tới nay, AI chưa từng báo cáo một loại lỗ hổng hoàn toàn mới hay một kiểu lỗ hổng chưa từng tồn tại trước đó
  • AI không tái tạo lại riêng lĩnh vực bảo mật theo cách đó
  • Dù vậy, nó đang đào ra nhiều vấn đề hơn bất kỳ công cụ nào trước đây

Việc tìm lỗi vẫn chưa kết thúc

  • Kết quả lần này không phải lần phát hiện hay báo cáo lỗi cuối cùng
  • Ngay ở thời điểm đó, vẫn có thêm các báo cáo về vấn đề đáng ngờ từ các nhà nghiên cứu bảo mật gửi tới
  • Các công cụ AI sẽ còn tiếp tục được cải thiện, và các nhà nghiên cứu có thể tìm ra những cách prompt mới, khác để khiến AI hiện tại phát hiện thêm nhiều vấn đề hơn
  • curl kỳ vọng sẽ tiếp tục được quét lặp lại bằng Mythos và các AI khác cho tới khi thực sự không còn xuất hiện vấn đề mới nữa

2 bình luận

 
Ý kiến trên Hacker News
  • Trích dẫn: “Tôi không thể đi đến kết luận nào khác ngoài việc sự cường điệu lớn quanh mô hình này chủ yếu là marketing. Tôi chưa thấy bằng chứng nào cho thấy cấu hình này tìm ra vấn đề ở mức độ cao hơn đáng kể hay theo cách tinh vi hơn các công cụ trước Mythos. Có thể nó tốt hơn đôi chút, nhưng không có vẻ đủ tốt để tạo ra thay đổi có ý nghĩa trong phân tích mã”
    Điều này nhắc mọi người rằng cạnh tranh trong lĩnh vực này rất khốc liệt, và có rất nhiều kiểu marketing, từ lộ liễu đến tinh vi, bị trộn lẫn vào

    • Cũng chẳng có gì lạ khi Anthropic dùng marketing để thuyết phục rằng mô hình của họ tiên tiến hơn, làm tốt hơn, rằng AI là mối đe dọa nên cần quản lý, và chỉ họ mới có lời giải
      Nói nghiêm túc hơn, đến giờ tôi chưa thấy nhiều tín hiệu cho thấy Mythos vượt quá Opus được gắn thêm bộ phân tích mã tập trung vào bảo mật. Dù vậy, việc những lỗi kiểu này có thể được tìm thấy một cách tự động mới là điểm quan trọng hơn, nếu bỏ qua phần thổi phồng quảng cáo
      Tôi tò mò về tỷ lệ sai của việc phát hiện. Nếu 90% là sai và ta chỉ đang nghe các ca điển hình đủ tốt để đưa vào marketing thì cũng không có nhiều ý nghĩa
    • Đây khá đúng như dự đoán, nhưng manh mối lớn là các công cụ dựa trên LLM hiện có đã được dùng trên những codebase được kiểm toán rất rộng rãi
      Vì vậy marketing của Anthropic có thể là phóng đại, nhưng ngay từ đầu cũng không còn lại nhiều thứ để tìm, và bài viết cũng nói rõ điều đó
      Khó đánh giá đây có phải bước tiến lớn với các loại dự án khác hay không, nhưng rõ ràng là mọi người nên dùng công cụ review code bằng AI cho việc kiểm toán mã hiện có ngay từ hôm nay, trong khi thực tế không phải ai cũng đang làm vậy
    • curl không phải một điểm dữ liệu tốt. Đây là một trong những codebase bị đào xới nhiều nhất đang tồn tại, và quy trình kiểm thử bảo mật cũng rất vững
      Các nhà nghiên cứu dùng mô hình tương tự Mythos nhưng không hoàn toàn giống cũng đã có quá đủ thời gian để báo cáo lỗi. Daniel có thể đúng khi cho rằng Mythos không phải công cụ làm thay đổi cục diện với curl, nhưng gần như mọi codebase khác đều có điều kiện tiền đề khác. Marketing thật sự có khi lại là sự khiêm tốn của ông ấy về mức độ trưởng thành của curl
    • Có phải Mozilla đang làm marketing thay Anthropic không?
      Trong khuôn khổ hợp tác liên tục với Anthropic, họ đã có cơ hội áp dụng một phiên bản đầu của Claude Mythos Preview vào Firefox. Bản phát hành Firefox 150 tuần này bao gồm các bản sửa cho 271 lỗ hổng được xác định trong đợt đánh giá ban đầu này
      Khi năng lực này đến tay nhiều bên phòng thủ hơn, rất nhiều đội đang trải qua cùng cảm giác choáng váng mà chúng tôi từng có khi kết quả đầu tiên trở nên rõ ràng. Chỉ một lỗi kiểu này trong mục tiêu vốn đã được gia cố kỹ cũng đã là báo động đỏ theo chuẩn năm 2025, còn nếu xuất hiện dồn dập thế này thì thật sự phải dừng lại để tự hỏi liệu có theo kịp nổi không
      https://blog.mozilla.org/en/privacy-security/ai-security-zer...
    • Khả năng cao sự cường điệu chủ yếu là marketing
      Khả năng khác là curl đủ an toàn, nên có ít thứ để tìm hơn hẳn so với các dự án khác
  • Tôi đồng ý với câu “một sự kiện marketing thành công đến mức đáng kinh ngạc”. Anthropic đã làm rất tốt
    Nó còn chạm tới cả CISO của một tổ chức bán nhà nước nhỏ ở Hà Lan, và họ hơi hoảng trước tuyên bố về một cơn sóng thần lỗ hổng đi kèm Mythos
    Nhờ đó tôi có thêm ngân sách và được ưu tiên hơn ở hội đồng quản trị. Không nên lãng phí một nỗi sợ marketing tốt

    • Tôi không đồng ý với ý “không thấy sóng thần”. Trên Firefox đã có hơn 100 lỗi, cùng nhiều dự án mã nguồn mở khác, các lỗ hổng thực thi mã từ xa cũ của OpenBSD/Linux mà trước đây chưa thấy, và ngay trong Linux cũng đã có vài vụ leo thang đặc quyền cục bộ chỉ trong 2–3 tuần
      Trông không giống nỗi sợ marketing, mà giống sự bùng nổ công bố lỗ hổng chất lượng cao, ít dương tính giả. Cảm giác như đang lướt nhanh qua lượng báo cáo lỗi chất lượng cao của vài năm chỉ trong vài tuần
    • Anthropic đang nhanh chóng làm mất thiện cảm của khách hàng khi cứ lặp lại cùng một chiêu. Cá nhân tôi thấy đây là marketing tệ hại
      Việc một công ty nghiên cứu rủi ro an ninh mạng của các LLM nói chung hoàn toàn khác với việc lái cuộc thảo luận sang kiểu “mô hình mới của chúng tôi quá mạnh”. Nó nhớp nhúa và khó chịu
    • Ông ấy giải thích khá kỹ rằng curl đã được mài giũa về kỹ nghệ phần mềm gần như đến giới hạn. Bạn thật sự nghĩ phần lớn mã nguồn đều được đánh bóng đến mức đó sao?
  • Nếu một AI agent tìm được 0 lỗi trong một tiện ích phần mềm nào đó, tại sao lại phải hiểu rằng AI agent đó kém trong việc tìm lỗi?
    Nếu thực tế đúng là có 0 lỗi thì sao?
    Kỳ vọng kiểu “5 vấn đề khiến chúng tôi thấy như chẳng là gì, vì chúng tôi chờ một danh sách dài” có thể đã không phù hợp với thực tế. Nhưng điều đó không nhất thiết có nghĩa là năng lực của Mythos thấp hơn những gì được tuyên bố. curl có thể đơn giản là một công cụ đã được gia cố rất tốt, không còn nhiều lỗ hổng bảo mật ở trạng thái hiện tại

    • Tác giả bài viết cũng đã cân nhắc điều tương tự về các lỗi còn lại
      “Còn nhiều thứ để tìm. Đây tuyệt đối không phải những lỗi cuối cùng mà họ sẽ tìm hoặc báo cáo. Ngay trong lúc tôi viết bản nháp bài blog này, tôi vẫn nhận thêm báo cáo từ các nhà nghiên cứu bảo mật về những vấn đề khả nghi. Công cụ AI sẽ còn được cải thiện, và các nhà nghiên cứu sẽ tìm ra các cách prompt mới và khác để AI hiện tại tìm được nhiều hơn. Chúng ta vẫn chưa đến điểm cuối. Tôi hy vọng chúng ta có thể tiếp tục quét curl lặp đi lặp lại bằng Mythos và các AI khác, cho đến khi thật sự không còn tìm ra vấn đề mới nữa”
      Nghe hợp lý. Nếu cho rằng chỉ còn đúng 1 phát hiện tử tế sót lại, và đúng lúc Mythos ra mắt thì tình cờ chỉ Mythos tìm thấy nó, trong khi các dự án khác vừa trước đó đã nhanh chóng vét sạch mọi phát hiện, thì cần một sự trùng hợp khá lớn. Không phải không thể, nhưng đó không phải điểm khởi đầu an toàn nhất khi nêu nghi vấn
  • Tôi không thể không nghĩ rằng curl về bản chất là một công cụ tương đối đơn giản và có ranh giới rõ ràng. Cứ so với hệ điều hành, trình duyệt web, cơ sở dữ liệu, hay codebase của công ty trị giá hàng chục tỷ USD là thấy
    Việc Mythos/ChatGPT 5.5 làm tốt hơn nhiều ở những mức độ phức tạp không có trong curl nghe cũng khá hợp lý. curl dù có rất nhiều tính năng như một “client làm được mọi thứ”, nhưng độ phức tạp vẫn thấp hơn vài bậc so với nhiều phần mềm khác mà chúng ta phụ thuộc

    • curl phức tạp hơn nhiều so với tưởng tượng. Phần lớn mọi người chỉ biết nó như một công cụ dòng lệnh gọi endpoint HTTP(S) rồi in ra kết quả, nhưng thực tế nó hỗ trợ gần như mọi giao thức truyền tệp và là một thư viện được thiết kế cho các tiến trình chạy lâu
      Vì được xây cho các tiến trình chạy dài, nó dùng đủ mọi kỹ thuật có thể để pipeline và tái sử dụng kết nối cũng như tài nguyên. Nó còn có API bất đồng bộ để tích hợp vào event loop sẵn có
      Hỏi trình duyệt web hay cơ sở dữ liệu có phức tạp hơn không thì gần như chắc là có. Chúng giải những bài toán thật sự khổng lồ. Nhưng curl chắc chắn phức tạp hơn phần lớn mã ứng dụng sử dụng nó
    • Tôi đồng ý đây là công cụ khá cơ bản, nhưng như bài viết nói, độ dài mã của nó còn nhiều hơn Chiến tranh và Hòa bình. Với quy mô đó, vẫn hoàn toàn có đủ chỗ để xuất hiện lỗ hổng bảo mật
    • Trích từ bài viết: “curl hiện có 176.000 dòng mã C nếu bỏ qua dòng trống. Mã nguồn gồm 660.000 từ, tức nhiều hơn 12% so với toàn bộ bản tiếng Anh của tiểu thuyết Chiến tranh và Hòa bình”
      “curl được cài đặt trên hơn 20 tỷ instance. Nó chạy trên hơn 110 hệ điều hành và 28 kiến trúc CPU. Nó chạy trên mọi điện thoại thông minh, máy tính bảng, ô tô, TV, máy chơi game và máy chủ trên Trái Đất”
      Gọi thứ này là đơn giản hay có ranh giới rõ ràng thì hơi khó. Phần lớn hệ điều hành hay trình duyệt web cũng đâu chạy trên ô tô hay TV
  • Kết luận “không đặc biệt nguy hiểm” dường như không thật sự suy ra được. Như đã nói, curl đã được phân tích cực kỳ kỹ bằng mọi công cụ hiện có, còn phần lớn phần mềm thì không ở mức đó

    • Nhưng Mythos đang được marketing như một cuộc cách mạng, chứ không chỉ là công cụ làm hơi tốt hơn những gì công cụ hiện có đã làm được
    • Mythos hoặc nguy hiểm hoặc không. Ở đây “nguy hiểm” được hiểu là “tìm ra nhiều lỗ hổng hơn hẳn so với các lỗi mà có thể tìm bằng công cụ sẵn có”
      Mythos chỉ tìm thêm được đúng một lỗ hổng, và x+1 thì không lớn hơn x đến mức đáng kể, nên theo định nghĩa này có thể kết luận Mythos không nguy hiểm
    • Đúng, nhưng đây chẳng phải là phán định khi so Mythos với các mô hình khác sao?
      Nếu vậy thì kết luận vẫn giữ nguyên. “Phần lớn phần mềm” không được phân tích kỹ như curl, và cũng chưa được phân tích bằng các công cụ khác hay mô hình khác. Nếu các công cụ đó có thể cho ra kết quả gần giống Mythos, thì khó mà xem Mythos là đặc biệt nguy hiểm
    • “Không đặc biệt nguy hiểm” chẳng phải đang nói về các lỗ hổng được tìm thấy sao? Họ hẳn biết rõ thế nào được xem là mức nghiêm trọng thấp
    • curl hiện đang nhận được số lượng báo cáo lỗi/lỗ hổng chất lượng cao ở mức kỷ lục. Đó là một thay đổi khá đột ngột so với kiểu dội bom báo cáo chất lượng thấp trước đây, nên không có nghĩa là chẳng còn gì để tìm
      Nhiều hoặc hầu hết trong số này có vẻ do chuyên gia con người tìm ra với sự hỗ trợ của công cụ AI, nhưng nếu Mythos thật sự mang tính cách mạng thì nó phải tự tìm ra được những vấn đề như vậy
      https://daniel.haxx.se/blog/2026/04/22/high-quality-chaos/, được liên kết trong bài gốc
  • Đoạn “lỗ hổng duy nhất đã được xác nhận sẽ trở thành một CVE mức độ nghiêm trọng thấp, và dự kiến công bố cùng bản phát hành curl 8.21.0 tiếp theo vào cuối tháng 6” khá ấn tượng
    Tôi vẫn thấy khó mà nắm hết được mức độ chất lượng và tinh chỉnh đã đổ vào cURL. Đây là ví dụ hoàn hảo của thứ được làm quá tốt đến mức mọi người hầu như không cần nghĩ lần thứ hai về nó

    • Dễ thôi. Nó cho thấy điều gì có thể đạt được khi áp dụng tiêu chuẩn chất lượng cao cho từng dòng mã được commit, review và merge, bất kể ngôn ngữ lập trình
      Nhưng trong thời đại cuộc đua xuống đáy, gia công offshore giá rẻ, và giờ là sinh mã bằng LLM, phần lớn công ty sẽ không quan tâm đến mức chất lượng này trừ khi có trách nhiệm pháp lý đi kèm
    • Curl và SQLite là hai ví dụ tôi thích nhất về những thứ “làm gì cũng được” nhưng được chế tác tử tế về mặt kỹ thuật và kiểm thử nghiêm ngặt. Thật sự rất có tính triết học
      Yêu cầu đóng góp của các dự án này đòi hỏi sự nghiêm ngặt đó, và người bảo trì giữ vững yêu cầu ấy. Thứ làm điều đó khả thi là tài liệu không chịu tải, tức tài liệu không phải mã của dự án. Nó khiến tôi nhớ đến việc thí nghiệm tư duy của Einstein dẫn tới các dự án thực tế như GPS, hay niềm tin của Descartes rằng mọi vấn đề đều có thể giải bằng tư duy hợp lý
    • Trớ trêu là làm tốt đến vậy rồi cuối cùng người ta vẫn curl ... | bash mà chẳng thấy có vấn đề gì. Xong lại né tránh bằng những từ như “mô hình đe dọa”
      Tôi thì bỏ qua curl-bash, và dùng trình cài đặt gói có chữ ký mật mã
  • Tôi biết sự cường điệu quanh Mythos là một phần marketing của Anthropic, nhưng với một codebase đã được rà soát rất kỹ thì chẳng phải hoàn toàn có thể hiện tại không còn exploit bảo mật đáng kể nào sao?
    Việc không tìm thấy gì không nhất thiết là bằng chứng bất lợi. Đặc biệt nếu các công cụ khác trước đó đã xác định được hàng trăm lỗ hổng rồi. Có vẻ bây giờ nó đã bị đào xới gần như triệt để

  • Marketing thì lúc nào cũng có, và mọi người cần biết đặt marketing vào đúng ngữ cảnh
    Ngoài ra curl là một dự án mã nguồn mở, tương đối nhỏ nhưng trọng yếu, nổi tiếng và được dùng khắp nơi. Ngoài các thư viện xử lý ảnh, các công cụ như curl, sudo, su, passwd cũng sẽ là mục tiêu tôi thử trước tiên
    Vẫn chưa hề rõ Mythos thực sự làm được gì. Một mô hình 10 nghìn tỷ tham số có ý nghĩa gì về chi phí và benchmark?
    Dù vậy, nếu LLM chỉ mới bắt đầu giỏi hơn con người rất nhiều trong việc tìm các vấn đề kiểu này từ khoảng nửa năm trước, thì đến một lúc nào đó mọi người phải đối diện với vấn đề mà ai cũng lờ đi. Ngày nay, cần bổ sung LLM vào việc quét bảo mật và phải xem đó là chuyện nghiêm túc
    Trong trường hợp xấu nhất, ta vẫn có thể tận dụng marketing của Anthropic để nói rằng giờ đây điều đó là bắt buộc và đã có gì đó thay đổi

    • Với câu hỏi “một mô hình 10 nghìn tỷ tham số có ý nghĩa gì về chi phí và benchmark?”, với tôi nó có nghĩa là đã chạm tới phần trên của đường cong chữ S của hiệu ứng scaling
      Nếu ở quy mô đó mà công cụ vẫn không tốt hơn thấy rõ, thì rõ ràng đã bước vào vùng lợi suất giảm dần
    • Việc “vẫn chưa hề rõ Mythos làm được gì” là trạng thái có chủ ý. Dù vậy, cứ nhìn xem mọi người đã tin nó có thể làm gì là đủ
    • Tôi chỉ biết đảo mắt với câu “LLM đã giỏi hơn con người rất nhiều trong việc tìm các vấn đề kiểu này”. Ngay cả trình phân tích tĩnh thông thường cũng đã giỏi hơn con người trong các tác vụ cơ học nhất định từ hàng chục năm nay, và việc giỏi hơn con người ở một số tác vụ cơ học cụ thể không có nhiều ý nghĩa
      Điều mới mẻ và đáng chú ý là kiểu “lỗi mơ hồ” tiềm năng mà bài viết mô tả LLM có thể nhận ra. Ví dụ như mã không khớp với phần chú thích mô tả, dùng thư viện bên thứ ba theo cách hiếm gặp, mã và giao thức được triển khai bị lệch nhau, hoặc đơn giản là những đoạn mã nhìn tổng thể có gì đó lạ khiến ai đó cần xem kỹ hơn. Đây là phần bù vào khoảng trống trong hộp công cụ debug truyền thống, chứ không nên thay thế chúng
  • Theo tôi, thông điệp xoay quanh Mythos là nó đưa chuyên môn của các chuyên gia bảo mật hàng đầu cùng chuyên gia ngôn ngữ/giao thức/mã nguồn đỉnh cao đến tay bất kỳ ai có quyền truy cập
    Rủi ro nằm ở chỗ quyền truy cập đó được trao cho cả thế giới trước khi các bên phòng thủ kịp tiếp cận mức chuyên môn ấy
    Curl nằm ở trung tâm của mọi thứ, nên đã được các chuyên gia bảo mật, giao thức và ngôn ngữ soi xét trong nhiều năm. Việc Mythos tìm ra được gì đó là điều thú vị, nhưng không phải tín hiệu cho thấy tất cả chỉ là cường điệu marketing và không nguy hiểm
    99,99% dự án có lẽ không an toàn bằng curl, dù là mã nguồn mở hay mã nguồn đóng. LLM cũng sẽ sẵn sàng decompile rồi dò xét cả các dự án mã nguồn đóng. Nếu dự án chưa được fuzzing và chưa được xem xét bởi các công cụ AI hiện có lẫn chuyên gia, thì nên giả định là nó đã có thể bị đột phá. Điều đó đúng ngay cả với các công cụ hiện tại, còn thứ như Mythos chỉ khiến năng lực đó đến tay nhóm người dùng rộng hơn với mức chuyên môn thấp hơn

    • Đồng ý. Anthropic chưa từng tuyên bố hiệu năng siêu nhân, mà chỉ nói về tốc độ và quy mô
      Việc không tìm được nhiều lỗ hổng mới trong phần mềm đã được nghiên cứu kỹ không nói lên điều gì về khả năng bị lạm dụng nguy hiểm trên diện rộng
  • Đọc vào thấy như kiểu: “curl là một trong những codebase C bị fuzzing và kiểm toán nhiều nhất đang tồn tại. Đã có OSS-Fuzz, Coverity, CodeQL, nhiều đợt kiểm toán trả phí. Rất khó tìm ra thứ gì đó trong các hot path như HTTP/1, TLS, hay lõi phân tích URL”
    Cách diễn đạt này nghe không giống LLM đã thử rồi thất bại, mà giống như nó đã bỏ cuộc ngay từ đầu. Tôi thấy Claude thường làm vậy nếu không bị truy vấn ép tự thử thách, nên khá tò mò ở đây rốt cuộc đã xảy ra chuyện gì

 
Ý kiến trên Lobste.rs
  • Nếu nhìn riêng lẻ thì không quá đáng kinh ngạc, nhưng có lẽ nên xem kết quả này theo hướng: “sau khi các mô hình trước đó ra mắt, gần như ngày nào cũng bị tấn công, vậy mà chỉ với một lần chạy duy nhất đã tìm ra một vấn đề bảo mật trong một trong những ứng dụng được rà soát nhiều nhất”

    • Việc “liên tục chạy các trình phân tích mã tĩnh thông thường, dùng các tùy chọn compiler khắt khe nhất, và fuzzing suốt nhiều năm” thực ra ở nơi khác lại hiếm được làm đầy đủ như người ta tưởng
      Có lẽ giờ phải chuẩn bị tinh thần cho một giai đoạn đen tối khi mức độ bảo mật suy giảm hoặc biến mất cho đến lúc mọi thứ được viết lại
    • Đúng là LLM đã trở nên khá giỏi trong việc tìm lỗ hổng, nhưng tôi không hiểu vì sao lại mô tả curl là một trong những ứng dụng được kiểm toán nhiều nhất
      curl có chương trình bug bounty và cũng thu hút được một mức độ nghiên cứu nhất định, nhưng kết quả là Daniel còn bị chôn vùi trong các báo cáo rác do AI tạo ra. Dù là công khai hay riêng tư, nó chưa bao giờ thuộc nhóm mục tiêu hấp dẫn hàng đầu cho nghiên cứu lỗ hổng
      Nó không thuộc kiểu “chỗ này có làm gì cũng không tìm ra đâu”, đặc biệt nếu có thể đổ vào đó nguồn lực tính toán quy mô lớn gần như được trợ cấp
    • Bản thân lỗ hổng cũng chỉ ở mức độ nghiêm trọng thấp
      Theo bài blog, “lỗ hổng đơn lẻ đã được xác nhận sẽ trở thành một CVE mức độ thấp, dự kiến công bố cùng bản phát hành curl 8.21.0 tiếp theo vào cuối tháng 6”
      Ngoài ra cũng có 4 trường hợp dương tính giả
  • “Cuối cùng, một người khác có quyền truy cập mô hình đã đề nghị chạy việc quét và phân tích curl bằng Mythos thay tôi rồi gửi báo cáo. Với tôi thì khác biệt đó không quá quan trọng. Dù sao tôi cũng không có nhiều thời gian để thử đủ loại prompt và đào sâu.”
    Đây đúng là kiểu hành xử của cỗ máy thổi phồng cho ra kết quả kém hơn lời hứa: “Hãy dùng sản phẩm của chúng tôi! À, chính xác thì không phải tự bạn dùng đâu. Chúng tôi sẽ làm thay cho bạn!” rồi phía sau vẫn là cách làm truyền thống, đắt đỏ
    Tôi không biết lần này có như vậy không, nhưng tôi nghĩ khả năng đó không nhỏ đến mức có thể bỏ qua. Tôi cũng tò mò còn ai khác được mời dùng Mythos nhưng rốt cuộc không thể tự dùng mà chỉ nhận kết quả

    • Cũng có thể họ chỉ đơn giản là mua lỗ hổng từ chợ đen rồi trình bày như thể Mythos đã tìm ra. Khi đó nó chỉ là một điểm dữ liệu do AI nhả ra
      Thậm chí phần lớn các phát hiện kiểu này có thể là các điểm yếu đã được bàn tán trên những diễn đàn tối mà các maintainer ít khi lui tới
      Không phải tôi nói AI không thể làm phần mềm an toàn hơn. Nhưng nếu các công ty AI cứ giấu bài quá kỹ thì không thể biết đâu là thật
    • Tôi cũng muốn biết liệu họ có tìm kiếm những cách giải thích thay thế không xác nhận sẵn định kiến của họ về Anthropic hay không
  • Ba tháng trước tôi đã thấy người này lên sân khấu tuyên bố đóng chương trình bug bounty vì các báo cáo rác từ AI
    Tôi tự hỏi là công cụ đã thực sự tốt lên đến mức đó, hay là vì động cơ kiếm tiền biến mất nên người ta chịu bỏ nhiều thời gian hơn để phân biệt lỗ hổng thật với rác

  • Nhìn trên Mastodon thì loại kết quả này rất dễ làm thiên kiến xác nhận bùng lên
    Nhưng nếu gạt thiên kiến xác nhận sang một bên, tôi không thấy đây là thứ phù hợp để khái quát hóa. Dù vậy, việc công bố thêm các điểm dữ liệu vẫn là điều tốt

    • Tôi không biết điều đó đúng đến mức nào với toàn bộ Mastodon, nhưng xung quanh tôi thì xu hướng chống AI quá mạnh đến mức ngay cả những người nhiều kinh nghiệm cũng chỉ ném link GitHub vào giao diện chat của Claude để chứng minh nó vô dụng
      Nhưng đó đâu phải cách dùng công cụ này. Khi cố cho mọi người thấy kết quả, họ chỉ muốn chỉ vào các ca thất bại rồi cười nhạo, nên thực sự rất khó
  • Tôi muốn thấy nhiều bài như thế này hơn
    Việc chỉ ra một lỗ hổng mức thấp trong curl là điều đáng khích lệ, nhưng đồng thời đây cũng chỉ là một trường hợp đơn lẻ. Cũng có thể curl đơn giản là đã trưởng thành hơn các thư viện cốt lõi khác

  • “Cả thế giới dường như đã mất trí. Có phải đây là tận cùng của thế giới như ta từng biết? Chắc chắn đó là một màn tiếp thị thành công đến mức đáng kinh ngạc.”
    Tôi không hứng thú với kiểu văn phong này. Tôi muốn thấy tư duy rõ ràng và lập luận vững chắc. Cần diễn giải theo thiện ý
    Nếu không có bằng chứng và suy luận tốt, việc nói Glasswing là một “màn tiếp thị” chỉ là suy đoán. Tôi hiểu sự hoài nghi lành mạnh, nhưng hoài nghi lành mạnh cũng nên hướng vào chính mình. Dựa vào đâu mà có thể chắc như vậy?
    Nếu một thứ là màn diễn thì điều đó nghĩa là gì? Khi đọc từ “màn diễn”, tôi cảm nhận có hàm ý về ý đồ thao túng. Những người có thể nói trực tiếp nhất về ý định đó là “những người có mặt trong căn phòng ấy”. Còn lại cùng lắm chỉ là dự đoán, nhưng quá nhiều người thậm chí không xem đó là dự đoán mà lại khẳng định như thể sự thật
    Nếu bạn không có mặt ở đó thì khôn ngoan hơn là giải thích suy luận của mình thay vì quả quyết
    Các động cơ có thể chỉ theo nhiều hướng. Tôi không nhìn mọi thứ một cách ngây thơ. Nhưng nếu là người viết nghiêm túc thì nên tôn trọng trí tuệ của độc giả và mong muốn hiểu thế giới của họ
    Việc một chuyên gia ở lĩnh vực này tự tin quá mức khi nhảy sang lĩnh vực khác rồi mắc sai lầm là chuyện thường thấy. Có cơ sở nào để cho rằng maintainer của curl nói chung, và đặc biệt về vị thế của dự án mình đang duy trì, lại có tiêu chuẩn nhận thức luận tốt? Con người thường có động cơ rất mạnh là không muốn máy móc làm điều gì đó giỏi hơn mình. Tôi không nói Mythos đã ở vị trí đó rồi. Ở điểm đó tôi tạm hoãn phán xét. Nhưng chỉ nhìn vào phần lập luận thể hiện trong bài này thì tôi khó mà thấy ấn tượng với tác giả

    • Tôi không đồng ý rằng việc gọi Glasswing là một màn tiếp thị là quá vội vàng. Nếu đọc phần ngay sau câu “một màn tiếp thị thành công”, tôi nghĩ đó là một lời phê bình khá công bằng
      “Trong khuôn khổ dự án Glasswing, Anthropic cũng cung cấp quyền truy cập vào các mô hình AI hiện đại cho ‘các dự án mã nguồn mở’ thông qua Linux Foundation. Linux Foundation giao phần này cho dự án Alpha Omega xử lý, và đại diện của họ đã liên hệ với tôi. Với tư cách là lập trình viên chính của curl, tôi được đề nghị quyền truy cập vào mô hình thần kỳ đó và đã vui vẻ chấp nhận. Tất nhiên tôi muốn xem nó có thể tìm ra gì trong curl.”
      Cảm nhận của tôi sau khi đọc toàn bộ bài là tác giả không nói Glasswing chỉ đơn thuần là một màn tiếp thị, mà là nó rõ ràng thành công với vai trò tiếp thị, còn việc nó hơn thế đến đâu thì vẫn chưa ngã ngũ
      Phần còn lại sau đoạn trích cho thấy đã có nhiều thứ hơn là tiếp thị đơn thuần, và kết luận là nó “vẫn rất tốt”. Ý là dù chưa đạt tới mức cường điệu tiếp thị nghẹt thở đã nhận được, nó vẫn có khả năng hữu ích
    • OpenAI không lâu sau đó đã phát hành phiên bản mô hình mới theo chu kỳ nâng cấp định kỳ và cho thấy năng lực tương tự trong lĩnh vực này, nhưng không hề có nhiều kèn trống hay náo động
      Nó đơn giản chỉ là GPT-5.5. Theo nghĩa đó, tôi nghĩ việc giữ Mythos kín tiếng vì cái gọi là mức độ nguy hiểm của nó có thể là nhằm tập trung sự chú ý vào trường hợp sử dụng bảo mật và tạo ra nhu cầu mới