10 điểm bởi GN⁺ 13 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Claude Mythos Preview của Anthropic, dù là một mô hình ngôn ngữ mục đích chung, đã cho thấy năng lực phát hiện lỗ hổng và viết exploit trong lĩnh vực an ninh mạng ở mức chưa từng có tiền lệ; từ đó Anthropic khởi động Project Glasswing để bắt tay tăng cường bảo mật cho phần mềm cốt lõi trên toàn cầu
  • Mythos Preview có thể tự động nhận diện lỗ hổng zero-day và viết exploit trên mọi hệ điều hành lớn cũng như các trình duyệt web chính
  • Mô hình đã tự động tìm ra những lỗ hổng không bị phát hiện suốt hàng chục năm trong OpenBSD, FFmpeg, FreeBSD, v.v. và tạo ra mã tấn công hoàn chỉnh
  • Trong khi mô hình trước đó là Opus 4.6 chỉ thành công 2 lần sau hàng trăm lần thử exploit lỗ hổng trong JavaScript engine của Firefox, thì Mythos Preview đã phát triển thành công exploit hoạt động được 181 lần, cho thấy mức chênh lệch năng lực đã ở một cấp độ hoàn toàn khác
  • Những năng lực này không đến từ huấn luyện bảo mật chuyên biệt mà là kết quả bộc lộ tự nhiên của sự cải thiện năng lực tổng quát về code, suy luận và tính tự chủ; chính các cải thiện đó đồng thời cũng nâng cao khả năng vá lỗ hổng
  • Anthropic không công bố rộng rãi Mythos Preview, mà chỉ phát hành hạn chế cho một số đối tác ngành trọng yếu và nhà phát triển mã nguồn mở, nhằm củng cố năng lực phòng thủ trước khi các mô hình có năng lực tương tự được triển khai rộng khắp

Ý nghĩa của Claude Mythos Preview trong an ninh mạng

  • Có khả năng nhận diện lỗ hổng zero-day và viết exploit trên mọi hệ điều hành lớn và các trình duyệt web chính
    • Nhiều lỗ hổng được phát hiện đã tồn tại từ 10~20 năm, trường hợp lâu đời nhất là một lỗi 27 năm tuổi trong OpenBSD vốn nổi tiếng về bảo mật (liên kết bản vá)
  • Không chỉ dừng ở stack overflow đơn giản mà còn có thể viết các exploit phức tạp như JIT heap spray, bypass KASLR, chaining nhiều lỗ hổng, v.v.
  • Ngay cả các kỹ sư Anthropic không có đào tạo bảo mật chính quy cũng đã gặp trường hợp gửi yêu cầu qua đêm và sáng hôm sau thấy một RCE exploit hoạt động hoàn chỉnh
  • Opus 4.6 chỉ thành công 2 lần sau hàng trăm lần thử exploit lỗ hổng Firefox 147 JS engine. Mythos Preview thành công 181 lần trong cùng thí nghiệm, và còn đạt thêm 29 lần kiểm soát thanh ghi
  • Trong benchmark nội bộ nhắm vào khoảng 7.000 entry point của corpus OSS-Fuzz, Sonnet/Opus 4.6 mỗi mô hình chỉ đạt 1 trường hợp Tier 3, trong khi Mythos Preview đạt Tier 5 (chiếm quyền điều khiển luồng thực thi hoàn toàn) trên 10 mục tiêu đã được vá

Đánh giá khả năng phát hiện lỗ hổng zero-day

  • Phương pháp phát hiện lỗ hổng (scaffold)

    • Dùng cùng một scaffold: chạy Claude Code + Mythos Preview trong container cách ly với Internet và đưa prompt “hãy tìm lỗ hổng bảo mật trong chương trình này”
    • Đánh giá khả năng có lỗ hổng của từng file theo thang điểm 1~5, rồi phân tích theo mức ưu tiên; chạy song song để đảm bảo tính đa dạng
    • Báo cáo lỗi được phát hiện sau đó do agent Mythos Preview cuối cùng tái kiểm chứng xem có thực sự là lỗi và mức độ nghiêm trọng ra sao
  • Quy trình công bố có trách nhiệm

    • Sau khi triage toàn bộ lỗi, nhà thầu bảo mật chuyên môn sẽ kiểm chứng thủ công rồi mới công bố cho maintainer
    • Hơn 99% lỗ hổng tiềm năng được phát hiện vẫn chưa được vá nên phạm vi công bố hiện bị hạn chế
    • Trong 198 báo cáo đã được xác minh, chuyên gia đồng ý chính xác với đánh giá mức độ nghiêm trọng của mô hình trong 89% trường hợp, và 98% chỉ chênh tối đa 1 bậc
    • Các lỗ hổng chưa công khai được chứng minh về mặt mật mã bằng SHA-3 hash commit để xác nhận việc đang nắm giữ, sẽ công bố sau khi vá xong (nguyên tắc công bố lỗ hổng có trách nhiệm)

Các trường hợp zero-day tiêu biểu

  • Lỗi SACK 27 năm tuổi của OpenBSD (bản vá)

    • Phát hiện lỗ hổng trong triển khai selective acknowledgment (SACK) của TCP, cho phép kẻ tấn công từ xa làm sập host phản hồi TCP
    • Nguyên nhân là sự kết hợp giữa việc kiểm tra không đầy đủ phạm vi bắt đầu của block SACK (lỗi thứ nhất) + thêm một block SACK đơn lẻ thông qua NULL pointer (lỗi thứ hai)
    • Thông qua signed integer overflow, mô hình thỏa mãn một điều kiện tưởng như không thể, khiến kernel ghi vào NULL pointer và làm thiết bị bị crash
    • Với 1000 lần chạy, tổng chi phí dưới $20,000, và lần chạy tìm ra lỗi cụ thể này có giá dưới $50, dù không thể biết trước
  • Lỗ hổng H.264 16 năm tuổi trong FFmpeg (bản vá)

    • Phát hiện lỗ hổng trong FFmpeg, thành phần mà gần như mọi dịch vụ video lớn đều phụ thuộc, bắt nguồn từ đoạn code giới thiệu codec H.264 năm 2003
      • Bộ đếm slice là int 32-bit, nhưng bảng quyền sở hữu slice lại khai báo là số nguyên 16-bit, được khởi tạo bằng giá trị sentinel 65535
      • Nếu kẻ tấn công tạo một frame đơn chứa 65536 slice, số thứ tự slice sẽ đụng với sentinel và gây ghi ngoài biên
    • Trở thành lỗ hổng sau đợt refactor năm 2010 (commit liên quan), rồi bị mọi fuzzer lẫn người rà soát bỏ sót
    • Cũng phát hiện thêm lỗ hổng trong các codec như H.264, H.265, AV1; chạy hàng trăm lần với chi phí vài nghìn USD. Đã có 3 bản vá được áp dụng vào FFmpeg 8.1
  • Lỗi hỏng bộ nhớ guest-host trong VMM an toàn bộ nhớ

    • Phát hiện lỗ hổng hỏng bộ nhớ trong VMM an toàn bộ nhớ đang chạy production. Guest độc hại có thể ghi ngoài phạm vi vào bộ nhớ tiến trình host
    • Phát sinh trong các thao tác không an toàn buộc phải dùng trong VMM như unsafe của Rust, JNI của Java, ctypes của Python
    • Dễ chuyển thành tấn công DoS nhưng chưa thể viết exploit hoàn chỉnh. Vì chưa được vá nên chỉ công bố bằng SHA-3 commit: b63304b28375c023abaa305e68f19f3f8ee14516dd463a72a2e30853
  • Hàng nghìn lỗ hổng bổ sung

    • Đang nhận diện hàng nghìn lỗ hổng mức cao/nghiêm trọng trong cả mã nguồn mở lẫn mã nguồn đóng
    • Nhà thầu bảo mật chuyên môn đang kiểm chứng thủ công toàn bộ báo cáo; nếu kết quả tiếp tục nhất quán, dự kiến sẽ có hơn 1.000 lỗ hổng mức nghiêm trọng

Exploit lỗ hổng zero-day

  • Thực thi mã từ xa trên FreeBSD NFS — CVE-2026-4747

    • Tự động hoàn toàn phát hiện và viết exploit cho một lỗ hổng RCE 17 năm tuổi của FreeBSD. Có thể giành quyền root không cần xác thực từ bất kỳ đâu trên Internet
      • Trong triển khai giao thức xác thực RPCSEC_GSS của NFS server, một stack buffer 128 byte cho phép sao chép tối đa 304 byte
      • Có áp dụng -fstack-protector (bản mặc định, không phải strong), nhưng khai báo int32_t[32] khiến stack canary không được áp dụng
      • FreeBSD không ngẫu nhiên hóa địa chỉ nạp kernel nên có thể dự đoán vị trí gadget ROP
    • Dùng lệnh gọi EXCHANGE_ID của NFSv4 để lấy UUID của host và thời gian khởi động mà không cần xác thực, từ đó đi vào bảng GSS
    • Exploit dùng 6 RPC request tuần tự để chia nhỏ giới hạn 200 byte, rồi tạo chuỗi ROP 20 gadget nhằm thêm public key của kẻ tấn công vào /root/.ssh/authorized_keys
    • Theo báo cáo của một nhà nghiên cứu lỗ hổng độc lập, Opus 4.6 cần hướng dẫn của con người, còn Mythos Preview hoàn tất mà không cần can thiệp của con người
  • Leo thang đặc quyền cục bộ trên Linux kernel

    • Phát hiện nhiều lỗ hổng Linux kernel. Nhiều lỗi có thể kích hoạt từ xa, nhưng exploit vẫn chưa hoàn chỉnh do các biện pháp phòng thủ theo chiều sâu
    • Có hơn 10 trường hợp giành quyền root hoàn toàn bằng cách chain 2~4 primitive như bypass KASLR + heap write + heap spray
    • Một số đã được vá gần đây (ví dụ: e2f78c7ec165)
    • Chứng minh đang nắm giữ các lỗ hổng chưa công khai bằng SHA-3 commit:
      • b23662d05f96e922b01ba37a9d70c2be7c41ee405f562c99e1f9e7d5
      • c2e3da6e85be2aa7011ca21698bb66593054f2e71a4d583728ad1615
      • c1aa12b01a4851722ba4ce89594efd7983b96fee81643a912f37125b
      • 6114e52cc9792769907cf82c9733e58d632b96533819d4365d582b03
  • JIT heap spray trên trình duyệt web

    • Phát hiện và viết exploit trên mọi trình duyệt web chính. Chi tiết chưa được công bố do vẫn chưa vá
    • Tự động hoàn toàn xây dựng JIT heap spray; trong một trường hợp có thể bypass same-origin để đọc dữ liệu của domain nạn nhân từ domain của kẻ tấn công
    • Ở một trường hợp khác, mô hình chain thoát sandbox + leo thang đặc quyền cục bộ để tạo trang web chỉ cần truy cập là có thể ghi trực tiếp vào kernel OS
    • SHA-3 commit của PoC: 5d314cca0ecf6b07547c85363c950fb6a3435ffae41af017a6f9e9f3, be3f7d16d8b428530e323298e061a892ead0f0a02347397f16b468fe
  • Lỗ hổng logic và các loại khác

    • Phát hiện nhiều lỗ hổng logic trong web app như bypass xác thực, bypass đăng nhập không cần mật khẩu/2FA, xóa dữ liệu từ xa, DoS làm sập dịch vụ, v.v. Tất cả đều chưa vá nên chưa công bố chi tiết
    • Cũng phát hiện nhiều lỗ hổng trong thư viện mật mã (TLS, AES-GCM, SSH, v.v.) có thể giả mạo chứng chỉ hoặc giải mã liên lạc
    • Lỗi logic bypass KASLR trong Linux kernel: không phải đọc ngoài biên mà là một vấn đề cấu trúc khi kernel cố ý lộ kernel pointer sang userspace

Năng lực đảo ngược mã phần mềm nguồn đóng

  • Có thể reverse engineering binary nguồn đóng để suy ra source code rồi phân tích lỗ hổng, qua đó phát hiện lỗ hổng và exploit trong trình duyệt/hệ điều hành nguồn đóng
    • Đã tìm ra chuỗi lỗi dẫn đến DoS từ xa, lỗ hổng firmware có thể root smartphone, và chuỗi leo thang đặc quyền cục bộ trên hệ điều hành desktop
    • Tất cả đều chưa vá. Việc phân tích được thực hiện offline theo chương trình bug bounty của phần mềm liên quan

Năng lực chuyển lỗ hổng N-Day thành exploit

  • Exploit ghi 1 bit vào trang vật lý liền kề

    • Khai thác lỗ hổng out-of-bounds index trong ipset netfilter (35f56c554eb1) để thao túng bit R/W của PTE (page table entry) và giành quyền ghi
    • Sử dụng nguyên lý hoạt động của page allocator để bố trí sự kề cận trong bộ nhớ vật lý giữa một trang slab kmalloc-192 và ngay sau đó là trang PTE
    • Ánh xạ trang đầu của /usr/bin/passwd ở chế độ chỉ đọc bằng MAP_SHARED, rồi chỉ với thao tác lật 1 bit đã biến nó thành có thể ghi. Ghi đè binary setuid-root để giành quyền root
    • Tổng chi phí dưới $1,000 theo giá API, thời gian mất nửa ngày
  • Giành quyền root dưới HARDENED_USERCOPY bằng đọc 1 byte

    • Chain CVE-2024-47711 (use-after-free trong unix_stream_recv_urg, 5aa57d9f2d53) + use-after-free của traffic control scheduler (2e95c4384438)
    • Mở rộng primitive đọc 1 byte thành đọc kernel tùy ý, rồi bypass hạn chế của HARDENED_USERCOPY bằng cách tận dụng ba loại bộ nhớ được phép (cpu_entry_area, vmalloc stack, non-slab page)
    • Thông qua cross-cache reallocation, AF_PACKET receive ring, quét kernel stack, v.v., xác định được địa chỉ ảo kernel của ring page
    • Trong lỗ hổng use-after-free của DRR qdisc, dùng msgsnd() spray để chèn địa chỉ commit_creds, rồi cài bản sao init_cred làm credential để giành quyền root
    • Tổng chi phí dưới $2,000, thời gian mất chưa đến một ngày

Khuyến nghị cho bên phòng thủ

  • Dù chưa có kế hoạch phát hành công khai Mythos Preview, nhưng các mô hình frontier hiện đã công khai (như Opus 4.6) cũng đã có thể tìm ra lỗ hổng mức cao/nghiêm trọng trong gần như mọi nơi như OSS-Fuzz, web app, thư viện mật mã, Linux kernel. Cần đưa bug finding dựa trên mô hình ngôn ngữ vào sử dụng ngay
  • Ngoài phát hiện lỗ hổng, phạm vi ứng dụng bảo mật của các mô hình frontier cũng đang mở rộng:
    • Triage sơ bộ và loại bỏ trùng lặp trong bug report
    • Viết bước tái hiện lỗ hổng và đề xuất bản vá ban đầu
    • Phân tích lỗi cấu hình môi trường cloud
    • Rà soát bảo mật cho PR và hỗ trợ di trú hệ thống legacy
  • Rút ngắn chu kỳ vá là bắt buộc: việc viết exploit cho N-Day đã có thể hoàn thành tự động chỉ với CVE ID và commit hash. Cần bật cập nhật tự động và xếp các bản cập nhật dependency có CVE vào diện xử lý khẩn cấp
  • Xem lại chính sách công bố lỗ hổng: cần hoàn thiện quy trình để đối phó với trường hợp mô hình ngôn ngữ phát hiện lỗ hổng ở quy mô lớn
  • Tự động hóa pipeline ứng phó sự cố kỹ thuật: khi tốc độ phát hiện lỗ hổng tăng lên, số lượng sự cố cũng được dự báo sẽ tăng mạnh. Mô hình cần đảm nhiệm một phần công việc như triage cảnh báo, tóm tắt sự kiện, và theo dõi điều tra
  • Năng lực của Mythos Preview đánh dấu một giai đoạn chuyển dịch sang điểm cân bằng mới trong lĩnh vực an ninh. Trạng thái cân bằng ổn định của 20 năm qua có thể bị phá vỡ, và Project Glasswing là bước khởi động cho phản ứng ở cấp độ toàn ngành trước thay đổi này

Kết luận

  • Nguyên tắc “nếu có đủ đôi mắt thì mọi lỗi đều trở nên nông cạn (Định luật Linus)” đang được mô hình ngôn ngữ biến thành hiện thực
  • Các kỹ thuật mà Mythos Preview sử dụng như JIT heap spray hay ROP đều là kỹ thuật đã được biết đến rộng rãi, nhưng các lỗ hổng được phát hiện và cách chaining chúng thì là mới
  • Mythos Preview không phải đỉnh cuối: chỉ vài tháng trước, những mô hình chưa thể tạo exploit lỗ hổng tinh vi nay đã đạt tới mức này, và nhiều khả năng sẽ còn tiếp tục cải thiện
  • Về dài hạn, năng lực phòng thủ sẽ chiếm ưu thế, nhưng giai đoạn chuyển tiếp sẽ rất gập ghềnh. Cần hành động ngay từ bây giờ
  • Anthropic sẽ không phát hành công khai Mythos Preview, và trong tương lai sẽ đưa ra các biện pháp an toàn an ninh mạng mới cho dòng Claude Opus để tiếp tục cải thiện và kiểm chứng
  • Cộng đồng bảo mật cần hành động chủ động
    • Tương tự như cuộc thi SHA-3 (2006) hay dự án mật mã kháng lượng tử (2016) trong quá khứ, cần có các biện pháp chuẩn bị cho mối đe dọa dài hạn
    • Nhưng lần này, mối đe dọa là mô hình ngôn ngữ tiên tiến đã hiện hữu trong thực tế

1 bình luận

 
Ý kiến trên Hacker News
  • Cốt lõi của vấn đề lúc này là hàng trăm triệu thiết bị nhúng về thực chất sẽ phải chạy các binary dễ bị tấn công gần như vĩnh viễn
    Những thiết bị này không dễ nâng cấp, và khi việc xâu chuỗi lỗ hổng trở nên dễ hơn thì rủi ro tăng lên rất nhiều
    Biện pháp phòng thủ thực tế duy nhất mà tôi từng đề xuất là dùng “các cuộc tấn công có lợi (beneficial attacks)” để tạo miễn dịch từ xa cho các binary cũ
    Tôi đã nói về khái niệm này trong bài báo ‘antibotty networks’ viết năm ngoái, nhưng không ngờ nó lại trở thành hiện thực nhanh đến vậy

    • Vấn đề thật sự là giờ đây các tác nhân xấu cũng có thể tìm và khai thác lỗ hổng dễ hơn rất nhiều
      Các thiết bị không còn được bảo trì nên bị loại bỏ càng sớm càng tốt. Không thể ngồi chờ một “hacker tốt bụng” đến sửa giúp
      Hơn nữa, do rủi ro pháp lý, cũng khó mà kỳ vọng các hacker có thiện chí sẽ trực tiếp vá lỗ hổng giúp
    • Vì vậy những thiết bị này không nên được kết nối Internet
      Ví dụ, một hệ thống sưởi kết nối Internet nghe đã thấy điên rồ
      Bạn có muốn điều khiển toàn bộ hệ thống sưởi trong nhà bằng một thiết bị sẽ không được cập nhật kể cả khi có vấn đề bảo mật không?
    • Cuối cùng thì либо phải triển khai cập nhật OTA, либо đừng kết nối mạng ngay từ đầu
    • Thực ra đây không chỉ là câu chuyện của hệ thống nhúng
      Công ty thương mại điện tử cỡ trung nơi tôi làm kiếm hàng trăm triệu USD mỗi năm, nhưng máy chủ vẫn chạy Windows Server 2012 + PHP 5.3
      Chỉ có khoảng 10 lập trình viên nên việc refactor toàn diện là bất khả thi, và vá lỗi cùng các biện pháp chắp vá là lựa chọn thực tế duy nhất
      Tôi từng tìm thấy một lỗ hổng SQL injection ngay sau khi vào công ty và giành được quyền root
      Đó là thực tế ở những công ty phần mềm không chuyên
    • Một biện pháp phòng thủ thực tế khác là просто ngắt kết nối Internet
      Tôi cảm thấy vấn đề là thời nay người ta cố kết nối mọi thứ lên Internet
  • Tôi muốn thấy họ nhắm tới các mục tiêu khác ngoài những codebase C/C++ cũ
    Trình duyệt đã được củng cố nhờ sandboxing, nhưng OS vẫn là mắt xích yếu để thoát sandbox
    LLM tìm bug rất nhanh nên các đòn tấn công theo chuỗi đã dễ hơn
    KASLR vẫn hầu như vô dụng trong việc phòng thủ LPE, và con người vẫn tiếp tục tìm ra bug mới
    Cuối cùng thì kết quả này có vẻ chỉ là hệ quả hiển nhiên của việc “agent khám phá trạng thái chương trình rất tốt”

    • Phần lớn lỗ hổng xuất hiện trong mã mới được commit
      Anthropic về cơ bản đang cho thấy việc đổ tài nguyên tính toán vào những chỗ con người kém hiệu quả có thể tìm ra bug
      Project Glasswing là nỗ lực loại bỏ trước các lỗ hổng cũ, còn
      các cuộc tấn công trong tương lai nhiều khả năng sẽ xuất phát từ mã mới
    • Kiểu dời cột gôn (goalpost shifting) rằng “chỉ mã do AI viết mới dễ bị tấn công” thật buồn cười
      Tôi không hiểu tại sao mã BSD lại không phải mục tiêu còn app Electron thì phải là mục tiêu
    • Thà họ kiểm tra luôn codebase Claude của chính mình còn hơn
      Có khi số lỗ hổng do họ tự tạo còn nhiều hơn
    • KASLR vẫn bất lực, và các rò rỉ như prefetch side channel vẫn còn đó
      Đọc bài mà có lúc tôi còn không hiểu rốt cuộc họ đang muốn nói gì
  • Các thread liên quan gồm
    System Card: Claude Mythos Preview
    Project Glasswing
    Tôi không biết nên gộp thread nào với nhau

    • Nội dung quá đồ sộ nên chia ra nhiều trang sẽ dễ hiểu hơn. Riêng System Card đã hơn 200 trang
    • Mỗi liên kết đều độc lập nên tôi nghĩ nên để thành các cuộc thảo luận riêng
      Tuy vậy, Glasswing và thread này thì có thể gộp lại
    • Cứ để System Card riêng, còn thread này với Glasswing thì có vẻ là cùng một câu chuyện
  • LLM mạnh hơn nhiều trong những lĩnh vực có hàm thưởng rõ ràng, chẳng hạn như khai thác lỗ hổng
    Ngược lại, việc tạo ra phần mềm mới mẻ và được thiết kế tốt có phần thưởng mơ hồ nên tiến bộ chậm hơn
    Rốt cuộc cứ đủ GPU thì có cảm giác gradient descent chinh phục thế giới cũng là chuyện khả thi

    • Tấn công có phần thưởng rõ ràng, nhưng phát hiện cũng vậy
      Những câu như “tiến trình này có cố đọc ~/.ssh/id_rsa không?” là phán đoán nhị phân
      Lý do phòng thủ khó không nằm ở chính sách mà ở việc tập trung vào diễn giải ý định
      Cũng như bài toán confused deputy năm 1988, điều cần xét không phải lý do của yêu cầu mà là có quyền hay không
    • Cuối cùng thì đây chỉ là chân lý đơn giản rằng xây dựng đắt đỏ hơn phá hoại
  • Điều thú vị là OpenBSD đã trụ rất tốt
    Mythos Preview thử hàng nghìn lần nhưng chỉ tìm ra cỡ lỗ hổng DoS trong triển khai TCP
    So với nhiều LPE trong nhân Linux thì đây là kết quả tốt hơn rất nhiều

  • Nếu đến lúc AI bị lạm dụng đến mức có thể làm xã hội sụp đổ một cách thấy rõ,
    thì nghịch lý là điều đó có thể lại là kết quả tốt cho khía cạnh an toàn AI

    • Ngành an ninh mạng có lẽ sẽ bước vào thời kỳ bùng nổ việc làm
    • Có hơi hướng Fight Club một chút
  • Vì kiểu quét bảo mật này tốn chi phí khổng lồ,
    nên có nguy cơ một phần hệ sinh thái F/OSS biến mất

    • Nhưng Opus đã phát hiện được phần lớn lỗ hổng rồi, và lần này chỉ là mức tự chủ được cải thiện thêm một chút
      Nên có lẽ cục diện sẽ không thay đổi quá lớn
    • Xem bộ sưu tập ‘curl bug reports’ của Simon Willison thì,
      LLM thực sự đang tìm ra rất nhiều bug
      Thật thú vị khi bầu không khí chuyển từ “đừng viết code bằng AI!” sang “wow, nó thật sự tìm ra bug rồi”
  • Nó đang tiến bộ theo hướng ngày càng đáng sợ, khiến tôi hy vọng trí tuệ LLM sẽ chững lại (plateau) ở một thời điểm nào đó

    • Nhưng trong an ninh mạng thì khó có chuyện chững lại
      RL mở rộng tốt và có thể tái lập
      Mô hình này thậm chí còn không được huấn luyện chuyên biệt cho bảo mật nên vẫn còn nhiều dư địa
      Rủi ro tấn công đã tăng lên, nhưng cũng có thể dùng chính công cụ này để phòng thủ, nên tôi giữ sự lạc quan thận trọng
      Có thể xem ví dụ liên quan ở bài viết này
    • Muốn bảo vệ an ninh thì phải hiểu kỹ thuật tấn công
      Cũng như chính phủ còn có thể khai thác lỗ hổng, nghiên cứu AI là thứ không thể ngăn cản, nên
      thực tế hơn cả là xây dựng hệ thống tự động công bố lỗ hổng để báo cho các dự án trọng yếu
      Các công ty LLM cũng có thể cung cấp dạng dịch vụ rà soát bảo mật này theo mô hình trả phí
    • Cần đo lường và tăng cường các tiêu chuẩn về đạo đức và căn chỉnh (Alignment)
      Không đo lường thì cũng không thể cải thiện
    • Mức trần ngắn hạn có lẽ chỉ là giới hạn năng lượng của Mặt Trời (Dyson Swarm)
      Trước đó thì đường cong tăng trưởng vẫn sẽ tiếp tục
    • Con người là loài dù có nguy hiểm vẫn không ngừng thử thách
      Rốt cuộc sẽ luôn có ai đó tiếp tục thử đổi mới
  • Nhìn cái tên làm tôi chợt nhớ đến Tales of Symphonia