13 điểm bởi GN⁺ 8 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Việc gắn API của OpenAI hay Anthropic vào tính năng ứng dụng đã trở nên phổ biến, nhưng sự phụ thuộc vào các mô hình AI được host trên đám mây khiến tính năng có thể ngừng hoạt động chỉ vì sự cố máy chủ hoặc vấn đề thanh toán, đồng thời làm tăng gánh nặng về quyền riêng tư
  • Các thiết bị hiện đại có năng lực tính toán on-device mạnh mẽ như Neural Engine, nhưng phần lớn vẫn bị bỏ không trong khi chỉ chờ phản hồi từ máy chủ
  • Ví dụ, nếu tận dụng framework FoundationModels của Apple, có thể triển khai trực tiếp trên thiết bị các tính năng AI như tóm tắt, phân loại, trích xuất mà không cần máy chủ
  • The Brutalist Report với native iOS client tạo tóm tắt bài viết on-device bằng API mô hình cục bộ của Apple, nhờ đó bỏ qua máy chủ và không cần prompt, log người dùng, tài khoản nhà cung cấp hay chú thích về lưu trữ nội dung
  • Mô hình cục bộ có thể không thông minh bằng mô hình đám mây, nhưng với các tác vụ biến đổi dữ liệu như tóm tắt, phân loại, trích xuất, viết lại, chuẩn hóa thì có thể là đủ, và chỉ nên dùng mô hình đám mây khi thực sự cần

Vấn đề của việc phụ thuộc vào AI đám mây

  • Xu hướng các nhà phát triển thêm tràn lan các lệnh gọi API của OpenAI hay Anthropic vào tính năng ứng dụng đang lan rộng
  • Cách làm này khiến phần mềm trở nên mong manh, xâm phạm quyền riêng tư và về bản chất là bất ổn
    • Ứng dụng có thể ngừng hoạt động khi máy chủ gặp sự cố hoặc thẻ tín dụng hết hạn
  • Ngay khi nội dung của người dùng được stream tới một nhà cung cấp AI bên thứ ba, bản chất của sản phẩm cũng thay đổi
    • Kéo theo các vấn đề về lưu giữ dữ liệu, đồng ý, kiểm toán, rò rỉ, yêu cầu từ chính phủ, sử dụng làm dữ liệu huấn luyện
  • Mọi thứ đều phụ thuộc vào trạng thái mạng, uptime của nhà cung cấp bên ngoài, rate limit, thanh toán tài khoản và cả tình trạng backend của chính mình, khiến stack trở nên phức tạp
  • Kết quả là chỉ một tính năng UX cũng bị biến thành một hệ thống phân tán có phát sinh chi phí
  • Gửi lên đám mây những tính năng vốn có thể xử lý cục bộ là một nước đi phản tác dụng

Vì sao nên tận dụng thiết bị cục bộ

  • Silicon trong các thiết bị hiện nằm trong túi người dùng nhanh hơn rất nhiều so với 10 năm trước, còn Neural Engine chuyên dụng thì phần lớn để không
    • Trong khi đó, việc ngồi chờ phản hồi JSON từ một cụm máy chủ ở Virginia là điều phi lý
  • Mục tiêu không phải là "AI everywhere", mà phải là phần mềm hữu ích
  • Nếu một tính năng có thể xử lý cục bộ thì việc chọn thêm phụ thuộc bên ngoài tự nó đã là một tổn thất không cần thiết

Tóm tắt on-device của The Brutalist Report

  • The Brutalist Report là một dịch vụ tổng hợp tin tức lấy cảm hứng từ phong cách web thập niên 1990
  • Khi gần đây tạo native iOS client, mục tiêu thiết kế là giữ lại trải nghiệm đọc tin tức mật độ cao
  • Ứng dụng iOS có danh sách tiêu đề với độ tương phản mạnh, chế độ reader loại bỏ các yếu tố làm web khó đọc, và chế độ “intelligence” để tóm tắt bài viết theo lựa chọn
  • Điểm cốt lõi là phần tóm tắt được tạo on-device thông qua API mô hình cục bộ của Apple
  • Không cần máy chủ trung gian, không cần prompt hay log người dùng, tài khoản nhà cung cấp, hay các chú thích kiểu “nội dung được lưu trong 30 ngày”
  • Việc mặc định cho rằng mọi ứng dụng AI đều phải diễn ra ở phía máy chủ đã trở nên quá tự nhiên, và để đảo ngược điều đó sẽ cần nỗ lực ở cấp độ toàn ngành
  • Một số trường hợp sử dụng đòi hỏi mức độ thông minh mà chỉ mô hình host trên đám mây mới cung cấp được, nhưng không phải mọi trường hợp đều như vậy, nên cần phán đoán cẩn trọng

Công cụ AI cục bộ trong hệ sinh thái Apple

  • Trong khoảng một năm trở lại đây, hệ sinh thái Apple đã đầu tư để nhà phát triển có thể dễ dàng tận dụng các mô hình AI cục bộ tích hợp sẵn
  • Luồng cơ bản là import FoundationModels, kiểm tra khả năng khả dụng của SystemLanguageModel.default, rồi dùng LanguageModelSession để tạo prompt và nhận phản hồi
    import FoundationModels  
    
    let model = SystemLanguageModel.default  
    guard model.availability == .available else { return }  
    
    let session = LanguageModelSession {  
      """  
      Provide a brutalist, information-dense summary in Markdown format.  
      - Use **bold** for key concepts.  
      - Use bullet points for facts.  
      - No fluff. Just facts.  
      """  
    }  
    
    let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) {  
      articleText  
    }  
    
    let markdown = response.content  
    
  • Với nội dung dài, có thể chia văn bản thuần thành các đoạn khoảng 10.000 ký tự, tạo ghi chú ngắn gọn kiểu “facts only” cho từng chunk, rồi kết hợp thành bản tóm tắt cuối cùng ở lượt thứ hai
  • Đây là loại công việc rất phù hợp với mô hình cục bộ
    • Dữ liệu đầu vào là nội dung người dùng đang đọc nên đã có sẵn trên thiết bị
    • Đầu ra nhẹ
    • Xử lý nhanh và riêng tư
    • Đây là việc tóm tắt trang người dùng vừa mở ra, không phải tạo ra tri thức mới về thế giới, nên không cần mức thông minh siêu phàm
  • AI cục bộ phát huy mạnh khi vai trò của mô hình không phải là tìm kiếm cả vũ trụ, mà là biến đổi dữ liệu do người dùng sở hữu

Cách tạo dựng niềm tin

  • Các tính năng AI như tóm tắt email, trích xuất việc cần làm từ ghi chú, hay phân loại tài liệu là những thứ người dùng muốn nhưng chưa thể tin tưởng
  • Cách làm đám mây thông thường biến mọi thứ thành một vấn đề niềm tin kiểu “liệu có ổn không nếu gửi dữ liệu lên máy chủ”
  • AI cục bộ thay đổi cấu trúc đó bằng cách xử lý ngay tại chỗ dữ liệu vốn đã nằm trên thiết bị
  • Niềm tin của người dùng không được tạo ra bằng một chính sách quyền riêng tư dài 2.000 từ
  • Niềm tin đến từ việc thiết kế sao cho ngay từ đầu không cần đến loại chính sách như vậy

Đầu ra có cấu trúc và AI dựa trên kiểu dữ liệu

  • Một trong những lựa chọn đúng đắn gần đây của Apple là chuyển “AI output” từ một khối văn bản không cấu trúc sang dữ liệu có kiểu
  • Thay vì “yêu cầu mô hình trả JSON rồi hy vọng nó làm đúng”, một mẫu tốt hơn và mới hơn là định nghĩa một Swift struct biểu diễn kết quả mong muốn
  • Cung cấp hướng dẫn bằng ngôn ngữ tự nhiên cho từng trường, rồi để mô hình sinh ra một instance của kiểu đó
    import FoundationModels  
    
    @Generable  
    struct ArticleIntel {  
      @Guide(description: "One sentence. No hype.") var tldr: String  
      @Guide(description: "3–7 bullets. Facts only.") var bullets: [String]  
      @Guide(description: "Comma-separated keywords.") var keywords: [String]  
    }  
    
    let session = LanguageModelSession()  
    let response = try await session.respond(  
      to: "Extract structured notes from the article.",  
      generating: ArticleIntel.self  
    ) {  
      articleText  
    }  
    
    let intel = response.content  
    
  • Với cách này, UI không cần cào lấy bullet từ Markdown hay trông chờ mô hình nhớ đúng schema JSON
  • Ứng dụng có thể nhận đúng kiểu dữ liệu với các trường thực và render nhất quán
  • Nó tạo ra đầu ra có cấu trúc mà ứng dụng thực sự dùng được, và toàn bộ quá trình này chạy cục bộ
  • Đây không chỉ là một giao diện tiện lợi mà là cải thiện chất lượng kỹ thuật
  • Sự khác biệt này giúp AI trong ứng dụng local-first hoạt động không phải như một “tính năng hay ho”, mà là một “hệ con đáng tin cậy”

Phản biện ý kiến “mô hình cục bộ kém thông minh hơn”

  • Đúng là mô hình cục bộ không thông minh bằng mô hình đám mây, nhưng điều đó không quan trọng với phần lớn tính năng ứng dụng
  • Phần lớn tính năng không đòi hỏi khả năng viết Shakespeare hay giải thích cơ học lượng tử, mà chỉ cần làm ổn định một trong các việc tóm tắt, phân loại, trích xuất, viết lại, chuẩn hóa
  • Với những tác vụ này, mô hình cục bộ đủ tốt
  • Nếu dùng mô hình cục bộ như vật thay thế cho toàn bộ Internet thì sẽ thất vọng, nhưng nếu dùng như một “bộ biến đổi dữ liệu” trong ứng dụng thì sẽ phải tự hỏi vì sao trước đây lại gửi nó lên máy chủ
  • Chỉ nên dùng mô hình đám mây khi thực sự cần, còn dữ liệu người dùng nên được giữ nguyên tại chỗ
  • Khi dùng AI, không nên chỉ gắn thêm một hộp chat, mà phải tận dụng nó như một hệ con thực sự với đầu ra có kiểu và hành vi có thể dự đoán được

Quyền riêng tư và xây dựng niềm tin

  • Có rất nhiều tính năng AI mà mọi người muốn nhưng không tin tưởng, như tóm tắt email, trích xuất action item từ ghi chú hay phân loại tài liệu
  • Cách làm trên đám mây biến tất cả thành một phép thử niềm tin: "Hãy gửi dữ liệu lên máy chủ, chúng tôi sẽ xử lý cẩn thận"
  • AI cục bộ thay đổi điều này từ gốc — dữ liệu đã có sẵn trên thiết bị và được xử lý ngay tại đó
  • Niềm tin không được xây bằng một chính sách bảo mật dài 2.000 từ, mà bằng một kiến trúc không cần đến chính sách như vậy ngay từ đầu

1 bình luận

 
Ý kiến từ Hacker News
  • Cảm nhận của người dùng phổ thông hiện nay về AI cục bộ khá giống cảm nhận về mã nguồn mở vài chục năm trước
    Ở một số mảng sản phẩm, giải pháp trả phí vượt trội hơn hẳn nên mã nguồn mở thường bị phớt lờ hoàn toàn, kiểu tâm thế “tội gì phải dùng?”
    Nhưng rồi các nền tảng và SaaS mang tính khóa chặt phụ thuộc xuất hiện, và giờ thì rõ ràng phần lớn nhận định đó là sai
    Mức độ phụ thuộc vào Anthropic và OpenAI trong lập trình hiện nay là vô lý đến mức khó tin, nhưng nhiều người либо không bận tâm, либо chỉ mong Trung Quốc đừng ngừng mở weights
    Mô hình kinh doanh của open weights còn rất mới, pha trộn cả cuộc giằng co quyền lực giữa các quốc gia và viện nghiên cứu, trong khi lượng tiền phi lý đang luân chuyển mà hầu như không có giám sát thực chất từ số đông
    Lúc này, giá trị khổng lồ đang mở ra cho gần như mọi người, nhưng đó là một canh bạc nguy hiểm có thể dừng lại không cảnh báo vì những lý do nằm ngoài tầm kiểm soát của chúng ta

    • Tôi không thấy điều gì đang ngăn việc tiếp tục chạy các LLM open weights tốt nhất hiện nay trên phần cứng tiêu dùng
      Với 95% nhu cầu thì như vậy là đủ, và cũng không có hạn dùng
      “Rủi ro” chỉ là không dùng được thế hệ mô hình kế tiếp, mà tác động của điều đó có vẻ rất thấp
    • Tôi không biết mô hình kinh doanh của AI open weights là gì, và thực tế là tôi cho rằng gần như không có
      Lạc quan lắm thì nó chỉ đóng vai trò quảng cáo để bán các mô hình cao cấp hơn
      Khác biệt lớn với mã nguồn mở là bạn không thể chỉ bằng thời gian rảnh và ý chí mà huấn luyện được một LLM
      Bạn cần rất nhiều dữ liệu và tài nguyên tính toán khổng lồ
      Ở điểm này tôi mong mình sai, vì tôi thích tương lai nghiêng về open weights hơn nhiều
    • Tôi không nghĩ đây nên là thế đối đầu giữa AI cục bộ và AI đám mây
      AI cục bộ nên được xem là một sản phẩm riêng, xử lý cục bộ những việc thực sự không cần AI đám mây, rồi dùng AI đám mây như phương án thay thế, như vậy chi phí sẽ giảm đi rất nhiều
    • Tôi đang chờ chính phủ Mỹ làm ra AI cục bộ của riêng họ
      Vì được tạo bằng tiền thuế nên cuối cùng có khả năng nó sẽ được công bố dưới dạng mã nguồn mở, và NSA có dữ liệu internet tích lũy hàng chục năm, nên nếu dùng thứ đó để huấn luyện thì open weights cũng có thể tốt ngang mô hình của một công ty nào đó
    • Khi chi phí trở thành yếu tố quan trọng, hoặc khi lựa chọn miễn phí nhưng yếu hơn trở nên hấp dẫn và dễ tiếp cận hơn, chẳng hạn như agent on-device kiểu trải nghiệm người dùng của Apple, thì người dùng đã dịch chuyển khá nhiều sang phía cục bộ
      Cứ nhìn vào những thứ như xóa nền ảnh hay OCR PDF thì thấy, gần như chẳng ai dùng dịch vụ trả phí cho các nhu cầu thường ngày như vậy cả
  • Thời điểm đó sẽ đến, và cũng không còn xa
    Xu hướng đã hình thành rồi. Ban đầu chỉ có thể chạy LLM hiệu năng cao trong các trung tâm dữ liệu lớn, giờ thì rõ ràng đã xuống tới mức vài máy chủ gắn vài chiếc H100, và đang dần tiến tới kiểu “MacBook Pro hay Strix Halo với 128GB VRAM”
    Trong vòng 1 năm tới, ở các công ty, mô hình “lập kế hoạch bằng LLM từ xa đắt tiền, thực thi bằng LLM cục bộ chậm hơn nhưng vẫn nhanh hơn con người” sẽ trở thành tiêu chuẩn, rồi dần chuyển thành “làm mọi thứ bằng LLM cục bộ cũng đủ tốt”
    Cuối cùng sẽ hình thành thế cân bằng giống như cloud truyền thống: hoặc tự host, hoặc trả tiền cho tính linh hoạt và tốc độ
    Vấn đề là local hosting sẽ chấm dứt cơn quá nhiệt tài nguyên tính toán hiện tại tới mức nào, và điều đó sẽ có ý nghĩa gì với thị trường

    • Thời điểm đó thực ra đã là bây giờ rồi
      Tôi đang chạy Qwen và Gemma đã lượng tử hóa trên một PC gaming khá ổn 3 năm tuổi, cỡ RTX 3080 12GB và RAM 32GB
      Nó chậm và cửa sổ ngữ cảnh nhỏ, nhưng nếu gắn thêm môi trường chạy phù hợp thì có thể duyệt và phân loại ảnh du lịch
      Nó có thể OCR hóa đơn, tóm tắt chi tiêu, trả lời câu hỏi đơn giản, phân tích code, và khi không cần nhiều ngữ cảnh thì còn có thể viết code
      Nếu chịu đầu tư tích hợp VS Code thì có lẽ còn làm được tự động hoàn thành ở mức tạm ổn
      Tôi xem “MacBook Pro hay Strix Halo với 128GB VRAM” là cấu hình tối thiểu khả dụng cho kiểu coding agent
      Tuy vậy hiện giờ kinh tế lại theo chiều ngược lại. Bản cloud rẻ hơn tự host vài bậc độ lớn, vì chia sẻ giúp nâng mức sử dụng máy chủ lên cao hơn nhiều
      Nếu một công ty chi 500.000 đô để mua phần cứng chạy GLM 5.1 thì họ có được bảo mật dữ liệu, tính linh hoạt và không bị kiểm duyệt, nhưng so với phí seat của Anthropic thì quá đắt
    • Tác động lớn nhất của mô hình cục bộ có thể đơn giản là ngăn suy luận từ xa trở thành lựa chọn duy nhất
  • Ngay ở bài vài dòng bên dưới, mọi người lại làm ầm lên vì Chrome đưa vào mô hình LLM cục bộ dùng vài GB dung lượng cho suy luận cục bộ
    Đúng kiểu làm cũng bị chửi mà không làm cũng bị chửi

    • Chỉ cần đừng tự ý ngốn hàng gigabyte băng thông và dung lượng lưu trữ mà không hỏi người dùng là được
    • Nếu cần mô hình thì tôi sẽ tự đi tải
      Cách đây không lâu tôi cũng làm thế để nghịch tạo ảnh
    • Đây là cách diễn giải hơi thiếu trung thực
      Người ta không tức vì bản thân việc cài mô hình cục bộ, mà tức vì thiếu quyền tự chủ của người dùng
      Đừng âm thầm cài đặt, chỉ cần cho người dùng quyền chọn có tải mô hình hay không
      Đó đâu phải việc gì khó, và mọi lựa chọn cục bộ khác đều hoạt động như vậy
    • Cách hiểu này khá kỳ quặc
      Nếu không phải opt-in hoặc bị nhét cưỡng ép vào trình duyệt thì tôi không thích
      Không ai nổi giận vì một ứng dụng chạy LLM cục bộ tải về dữ liệu mà nó cần
    • Tốt hơn hết là hãy đọc bình luận xem mọi người thực sự đang phàn nàn điều gì
      Bình luận này mô tả bản chất của cuộc tranh luận một cách khá thiếu trung thực
  • Tôi nghĩ cần tách riêng thảo luận về AI riêng tư và thảo luận về AI cục bộ
    Lựa chọn thực tế để chạy LLM lớn là một hoặc nhiều máy chủ lớn trực tuyến, nhưng điều đó không có nghĩa chỉ doanh nghiệp tư nhân mới nên vận hành chúng
    Một giải pháp suy luận tự host đủ dễ triển khai và bảo trì, có đảm bảo cách ly tenant tốt, lý tưởng là zero-trust, kiểu như Plex cho AI, sẽ là một lựa chọn vì quyền riêng tư
    Thành thật mà nói tôi chưa nghiên cứu phần này chút nào và cũng không biết tính khả thi ra sao. Có khi nó đã tồn tại rồi và chỉ là tôi chưa vào đúng Discord server cần vào
    Nói thêm, dù chắc ở đây không cần phải nhấn mạnh, điều đáng ngạc nhiên là các mô hình mở đã tiến rất gần tới những mô hình thương mại tốt nhất, nên có thể xem như phần khó nhất phần lớn đã được giải quyết

    • Một lựa chọn khác là suy luận riêng tư có thể kiểm chứng bằng cách chạy mô hình mã nguồn mở trong security enclave của cloud
      Dùng NVIDIA confidential computing, mã của enclave là mã nguồn mở, và khi kết nối sẽ được xác minh bằng remote attestation để chứng minh bằng mật mã rằng nhà cung cấp suy luận không thể nhìn thấy bất kỳ dữ liệu nào
      Tinfoil: https://tinfoil.sh/ là một ví dụ tốt. Xin công bố lợi ích liên quan: tôi là đồng sáng lập
      Có thể đọc thêm cách nó hoạt động ở đây: https://docs.tinfoil.sh/verification/verification-in-tinfoil
      Việc nói rằng mô hình mở đã tiệm cận những mô hình thương mại tốt nhất thì nhìn chung đúng trong một số tác vụ nhất định
      Ví dụ, giao diện chat hiện đã khó tận dụng được mức thông minh mô hình cao hơn quá nhiều so với những gì mô hình mã nguồn mở tốt nhất cung cấp
      Nhưng môi trường thực thi cho lập trình vẫn hưởng lợi từ mức thông minh mô hình cao hơn, và đặc biệt là các yếu tố như môi trường coding của nhà cung cấp và giao diện gọi công cụ của mô hình được gắn chặt với nhau bằng học tăng cường, như ở claude-code hay codex, cũng là một lý do khác khiến hiệu quả khác biệt dù có cố kiểm soát mức thông minh của mô hình
      Nhà sáng lập của opencode, một môi trường coding mã nguồn mở hỗ trợ nhiều nhà cung cấp mô hình, gần đây cũng than phiền về độ khó trong việc tinh chỉnh tốt môi trường cho từng nhà cung cấp: https://x.com/thdxr/status/2053290393727324313
  • Ví dụ trong bài càng củng cố suy nghĩ của tôi rằng để mô hình cục bộ thành công, nó không cần phải lớn đến mức cạnh tranh được với các mô hình tuyến đầu mà chỉ cần đủ tốt
    Nó phải làm tốt các tác vụ nhỏ và chạy hợp lý trên thiết bị tiêu dùng
    Chạy được trên điện thoại thì càng tốt
    Sau khi thử nghiệm LLM cục bộ, tôi thấy việc tăng kích thước mô hình cũng tốt, nhưng yếu tố thực sự biến một mô hình gần như vô dụng thành hữu ích lại là khả năng dùng công cụ
    Khi cho phép tìm kiếm web và tải nội dung trang web, điều đó giúp giảm hallucination nhiều hơn hẳn so với việc dùng mô hình lớn hơn, và cũng không có vấn đề hạn chót dữ liệu huấn luyện
    Tất nhiên mô hình lớn hơn có thể dùng công cụ tốt hơn, nhưng nhiều khi mô hình nhỏ cũng đã đủ

  • Tôi đã làm một bản demo về việc Prompt API mới của Chrome dùng mô hình cục bộ có thể làm được gì: https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
    Nó tỏa sáng trong môi trường hạn chế, nơi chuyển đổi dữ liệu do người dùng sở hữu, đúng như bài gốc nói
    Với các tác vụ mở hơn thì rõ ràng nó kém hữu ích hơn nhiều

    • Tôi không khuyến nghị xem Prompt API của Chrome như một ví dụ tốt về LLM cục bộ
      Nó ổn, nhưng thực sự rất yếu
      Các mô hình 8B từ một năm trước ở vài khía cạnh còn tốt hơn, còn các mô hình mới hơn gần đây thì tốt hơn rõ rệt
    • “Viết lại nội dung quảng cáo bằng cách dùng ngữ cảnh xung quanh”, đúng vậy, đó chính là kế hoạch
      Không có mô hình cục bộ và không có trang web thì không làm được
      Trong khi tất cả những người còn lại phải gánh điện năng và hao mòn phần cứng, nhà cung cấp lại có thêm khai thác adtech và giám sát nhiều hơn, tốt hơn và rẻ hơn
    • Tức là chạy LLM để làm biến đổi dữ liệu mà quy trình xác định còn phù hợp hơn nhiều, và vì thế dùng tới bộ nguồn 1000 watt
      Thật đáng nể
  • Các bên có lợi ích sẵn có sẽ làm mọi thứ để cản local, nhưng có vài lý do kỹ thuật khiến người ta tin rằng các mô hình nhỏ và chuyên biệt cuối cùng có thể trở thành tiêu chuẩn
    Khi đó local cũng sẽ đi theo
    Bài gốc tập trung vào việc liệu thứ người dùng muốn có thực sự cần mô hình lớn hay không
    Nhưng cũng có cơ sở để cho rằng mô hình lớn có thể sẽ không bao giờ đủ đáng tin trong thực tế trừ khi a) giải thích cơ chế trưởng thành đủ mức hoặc b) hệ đa agent rốt cuộc đều trở thành đa mô hình
    Với trường hợp a, tiến bộ trong giải thích cơ chế có thể sửa được vấn đề của mô hình lớn, nhưng đồng thời cũng có thể cho phép lấy được các biểu diễn tích hợp và cắt ra chỉ những phần hữu ích từ một mô hình khổng lồ để dùng
    Lấy cái cần và bỏ cái không cần, giảm chi phí và bề mặt vấn đề
    Chỉ cần suy luận thôi à? Chỉ cần thị giác thôi à? Vậy thì cắt đúng phần đó từ con quái vật khổng lồ mà dùng
    Khả năng cô lập vấn đề khó mà có được nếu không đi kèm khả năng cô lập các hệ con chức năng
    Với trường hợp b, cứ nhìn vào evil vector hay các dạng hallucination chuyên biệt cho việc dùng công cụ là thấy
    Nếu không có lời giải hoàn chỉnh cho căn chỉnh hữu ích/trung thực/vô hại, thì tính sáng tạo và tính chặt chẽ, cùng nhiều yếu tố khác, rất có thể xung đột với nhau ở mức nền tảng
    Nếu đằng nào cũng phải dùng nhiều mô hình cho mọi việc, vậy cần gì một mô hình vạn năng khổng lồ và đắt đỏ
    Vì thế, chuyên biệt hóa cũng tạo ra áp lực thu mọi thứ về các mô hình chuyên gia tối thiểu nhưng đáng tin cậy

  • Vấn đề của tôi với LLM, tách riêng khía cạnh triết học và tác động kinh tế, là có vẻ như chúng ta khó mà huấn luyện một mô hình hữu dụng ngay tại local
    Có thể làm LLM kiểu đồ chơi, nhưng thứ thực sự hữu ích thì tôi nghĩ khó
    Không chỉ cần năng lực tính toán khổng lồ mà còn cần những bộ dữ liệu phần lớn được thu thập bất hợp pháp

    • Có vẻ quá bi quan
      Có thể cá nhân tôi không quá thông minh, nhưng để có được mức trí tuệ hiện tại, tôi không cần học tất cả sách vở, toàn bộ Wikipedia, mọi bài blog, mọi tài liệu tham khảo, mọi dòng code từng được dùng đến nay
      Thực tế là tôi thậm chí còn chưa học đến 1%, hay 0.00000000001% của số đó
      Rõ ràng bản thân văn bản không phải điều kiện tiên quyết của trí tuệ
      Ít nhất, nếu chỉ bằng việc quan sát thế giới xung quanh một cách lỏng lẻo trong khoảng 20 năm mà tôi đã tiến gần tới trí tuệ, thì đó là bằng chứng mạnh cho thấy “dataset” cần thiết chỉ là các cảm biến và thế giới xung quanh
      Tất nhiên não người không khởi đầu từ số 0, và đã có hàng triệu năm tiến hóa để tạo nên nền đất cho trí tuệ bén rễ
      Nhưng cấu trúc nền đó có vẻ khá tổng quát và không có vẻ phụ thuộc vào một tập huấn luyện cụ thể nào
      Có lẽ cũng có thể tiến hóa nó một cách nhân tạo
    • Với công nghệ hiện tại thì chưa phải toàn bộ mô hình, nhưng LoRA thực sự rất tốt cho fine-tuning và có thể tạo ra trong vài giờ trên máy chơi game cao cấp
      Miễn là mô hình nền hỗ trợ ngôn ngữ của tôi, thì rất có thể với lượng tính toán dư thừa từ các thiết bị điện tử đang có, tôi có thể huấn luyện vài LoRA mỗi tháng
      Trong tương lai, khi máy tính gia đình phổ thông có sức mạnh ngang máy chủ hiện nay, chúng ta sẽ có thể huấn luyện cả LLM hoàn chỉnh tại nhà
    • Điều khiến chuyện này quan trọng là kể cả khi chạy mô hình ở local, nó vẫn có thể là mô hình độc quyền
      Tôi không thể can dự vào chuyện nó được huấn luyện bằng gì, dữ liệu huấn luyện được gán nhãn ra sao, có guardrail gì, hay sẽ có những thiên lệch nào
    • Có quá nhiều công nghệ không thể tái tạo ở local, và tôi không nghĩ LLM có gì đặc biệt khác biệt
      Giống như mọi thứ khác, sẽ có các nhà sản xuất LLM lớn, nhà sản xuất LLM nhỏ, các nghệ nhân làm LLM, người đam mê LLM và người tiêu dùng LLM
    • Còn tùy lĩnh vực
      Có khá nhiều trường hợp sử dụng mà dữ liệu huấn luyện cần cho mục đích cá nhân hoặc phi thương mại có thể kiếm được
      Từ thời điểm đó trở đi chỉ còn là vấn đề lượng tính toán và thời gian cần cho việc huấn luyện, và nếu bạn sẵn sàng chờ thì ngay cả phần cứng tiêu dùng cũng có thể tạo ra mô hình hữu ích
  • Nói “chỉ dùng mô hình cloud khi thực sự cần” là đúng, nhưng vấn đề là dùng mô hình SOTA được trợ giá lại dễ hơn rất nhiều so với việc bỏ thời gian chỉnh cấu hình mô hình local
    Tôi vừa mới nhận ra điều này với coding agent
    Có lẽ không phải lúc nào cũng cần dùng bản mới nhất ở xhigh, nhưng cuối cùng vẫn sẽ làm thế
    Vì như vậy hoàn thành công việc trong thời gian ngắn hơn, ít công sức hơn, mà giá gần như ngang nhau
    Có lẽ chỉ khi các nhà cung cấp lớn bắt đầu tính phí theo lượng token dùng thực tế thì mới thấy nỗ lực nghiêm túc dành cho local AI

    • Việc dùng mô hình SOTA dễ hơn không phải là lỗi mà là tính năng
      Tôi đang mở khoảng 8 tab của các nhà cung cấp free tier, còn ChatGPT, Claude, Gemini là phía tuyến đầu
      Tôi chẳng có vấn đề gì khi dùng hết hạn mức của một bên rồi chuyển sang bên tiếp theo
      Tôi có thể làm vậy cả ngày để bảo chúng triển khai một hàm hay class cụ thể trong code của tôi
      Vì tôi thực sự biết cách viết và thiết kế phần mềm, nên tôi không cần phải lặp agent liên tục để cố làm ra toàn bộ mọi thứ chỉ trong một ngày
      Chỉ với chatbot web và copy/paste, tôi vẫn có thể tạo ra hàng nghìn dòng code mỗi giờ trong khi vẫn giữ được mental model rất chắc về code và tự sửa những phần cần thiết
      Sáng nay tôi còn làm vậy với một dự án Python
      Vì chính tôi là người thiết kế thứ cần làm, nên mỗi lần sinh chỉ là yêu cầu một hàm đơn lẻ, và khi cần thêm gì đó vào buổi sáng thì tôi không cần hỏi chatbot mà đi thẳng tới đúng chỗ để tự sửa luôn
      Nếu sinh toàn bộ từ đặc tả thì không thể làm như vậy được
    • Con đường ít ma sát nhất thường sẽ thắng
      Đặc biệt là khi giá cả che giấu chi phí thực
    • Tôi không thấy hiệu năng tốt từ mô hình local
      Mỗi khi có bài về LLM, trong bình luận luôn có nhiều người quả quyết rằng với các DeepSeek/Qwen mới nhất họ đạt kết quả tốt ngang Opus, nhưng trải nghiệm của tôi hoàn toàn không như vậy
      Mô hình mã nguồn mở sụp đổ hoàn toàn khi giao cho chúng việc chỉ hơi phức tạp một chút so với Claude
      Tôi nghi rằng đây có phải tình cảnh giống Linux thập niên 90 không
      Nó hoạt động đến một mức nào đó, nhưng thực sự chưa sẵn sàng cho người dùng gia đình, trong khi chủ yếu vì lý do ý thức hệ mà rất nhiều người cứ khăng khăng trước mặt bạn rằng mọi thứ đều ổn
  • Mọi người thực sự đang cố làm ra “phần mềm tốt nhất”
    Những người theo chủ nghĩa gia tốc kiểu Don Quixote của AI chỉ là thiểu số ồn ào trong số những người làm phần mềm, và việc chọn API trực tuyến thay vì hệ thống local nhìn chung không phải vì lập trình viên lười mà là vì người dùng
    Hiện tại, làm được nhiều việc hơn và tốt hơn với AI riêng tư so với mô hình local
    Điều này không thể tránh khỏi
    Kể cả khi AI local tốt hơn, việc đầu tư vào tuyến đầu của năng lực LLM vẫn thường đáng giá
    Đa số mọi người sẽ không chấp nhận sản phẩm nếu nó không thuộc hàng tốt nhất và cực kỳ tiện lợi
    Tiêu chuẩn đó rất cao, và AI local thường không đáp ứng được
    Sự khăng khăng của HN trong việc coi mọi người dùng đều là tín đồ Linux cuồng mã nguồn mở, ưu tiên riêng tư, tự host là điều vụng về đến mức khó xem