1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Trong công việc kỹ thuật, LLM mở vẫn còn chi phí về hiệu năng, khả năng tương thích và độ tin cậy, nhưng khoảng cách gần đây đã thu hẹp, mở ra dư địa lớn hơn để giảm phụ thuộc vào các mô hình độc quyền như Claude hay GPT
  • Trước đây Linux từng rủi ro cho công việc chuyên môn vì khả năng tương thích với MS Office, các định dạng tệp đặc thù và hệ sinh thái mã nguồn mở còn non nớt, nhưng với sự phổ biến của ứng dụng web và sự trưởng thành của hệ sinh thái, mức hy sinh đã giảm đi đáng kể
  • Tính đến ngày 21/6/2026, các vị trí dẫn đầu trên Artificial Analysis intelligence leaderboard là các mô hình API độc quyền như Claude và GPT, và Claude code cùng các API lớn vẫn nhỉnh hơn về độ tiện dụng và độ tin cậy trong tổ chức
  • Mô hình mở có thể được dùng qua nhà cung cấp hoặc bên thứ ba như OpenRouter, nhưng vẫn có lo ngại về quyền riêng tư và chia sẻ dữ liệu; còn nếu tự chạy thì quyền riêng tư tốt hơn nhưng lại phát sinh gánh nặng về chi phí, độ phức tạp và tốc độ
  • Việc Claude đưa vào ID verification khiến người ta phải nhìn lại chi phí của việc mất quyền dùng các mô hình hàng đầu, nhưng khi mô hình mở đã tiến gần nhóm dẫn đầu chỉ còn cách vài tháng, suy giảm năng suất ngắn hạn có thể không phải là rào cản mang tính quyết định

Vị trí hiện tại của LLM mở nhìn từ chi phí chuyển sang Linux

  • Trước đây, dùng Linux có thể tạo ra rủi ro nghề nghiệp ngay cả trong công việc kỹ thuật
    • Có thể không render đúng tài liệu Word hoặc PowerPoint
    • Có lúc phải tin vào kết quả xuất file từ Open Office
    • Khó mở các định dạng tệp đặc thù nên việc cộng tác có thể gặp trở ngại
    • Các dự án mã nguồn mở cố đuổi theo tính năng của phần mềm chủ lưu thường có nhiều chỗ thô ráp
  • Hiện nay, phần mềm năng suất thường được cung cấp dưới dạng ứng dụng web, còn Linux và phần mềm mã nguồn mở cũng đã trưởng thành hơn, nên khoảng cách đã thu hẹp
    • Phần mềm cho một số lĩnh vực cụ thể như CAD vẫn có thể cần Windows
    • Tuy vậy, Linux và mã nguồn mở không còn đòi hỏi sự đánh đổi lớn trong hầu hết công việc thông thường như trước nữa

Những chi phí mà người dùng mô hình mở vẫn phải chấp nhận

  • Với người dùng LLM mở, vẫn còn những bất lợi rõ ràng
    • Tính đến ngày 21/6/2026, Claude và GPT đang đứng đầu Artificial Analysis intelligence leaderboard
    • Không chỉ về hiệu năng, Claude code và các API lớn còn mạnh về khả năng tương thích và độ tiện dụng
    • Việc gửi truy vấn LLM tới OpenAI và Anthropic đã đạt được mức độ tin cậy mà nhiều người có thể chấp nhận
  • Các con đường dùng mô hình mở qua API đi kèm vấn đề niềm tin
    • Có thể do chính nhà cung cấp mô hình phục vụ hoặc do bên thứ ba như OpenRouter phục vụ
    • Khi gửi các lời gọi API có chứa dữ liệu phía client hoặc dữ liệu mật, người ta dễ bất an hơn về quyền riêng tư và việc chia sẻ dữ liệu
    • Nếu gửi yêu cầu tới Deepseek hay OpenRouter, bất kể rủi ro thực tế ra sao, cũng có thể làm dấy lên nhiều lo ngại hơn
  • Tự chạy giúp giảm vấn đề riêng tư nhưng phát sinh gánh nặng về chi phí, độ phức tạp và tốc độ
    • Có thể chạy cục bộ hoặc trên đám mây
    • Tự chạy thường đi kèm ít nhất hai trong ba vấn đề: đắt đỏ, phức tạp hoặc tương đối chậm

Claude ID verification tạo ra động lực chuyển đổi

  • Việc Claude đưa vào identity verification đã đẩy nhanh quyết định chuyển đổi
    • Các biện pháp bảo vệ (safeguards) mới của các mô hình gần đây và tình hình liên quan đến Mythos cũng được xem là dấu hiệu cho thấy trải nghiệm người dùng có thể xấu đi
    • Nếu không chấp nhận ID verification, tổn thất nghề nghiệp do mất quyền dùng các mô hình hàng đầu vẫn là vấn đề cốt lõi
  • Việc chuyển sang mô hình mở được đánh giá là có khoảng cách nhỏ hơn rất nhiều so với khoảng cách giữa Linux và Windows năm 2008
    • Đã có môi trường để chạy nhiều mô hình mở trên máy cục bộ hoặc đám mây
    • Cũng đã có các coding harness dành cho mô hình mở
    • Mô hình mở đã tiến rất gần các mô hình dẫn đầu và thường chỉ chậm hơn vài tháng
    • Năng suất có thể giảm trong ngắn hạn, nhưng giống như khi chuyển từ Matlab sang GNU Octave trong thời làm nghiên cứu, điều đó có lẽ không phải là rào cản mang tính quyết định

1 bình luận

 
Ý kiến trên Hacker News
  • Đó chính là lý do tôi dùng quy tắc định tuyến dưới đây trên eurouter.ai cho mọi yêu cầu

    {  
    "model": "glm-5.2",  
    "models": [  
    "deepseek-v4-pro",  
    "deepseek-v4-flash"  
    ],  
    "provider": {  
    "allow_fallbacks": true,  
    "data_collection": "deny",  
    "data_residency": "EU",  
    "max_retention_days": 0,  
    "eu_owned": true  
    }  
    }  
    

    Dù đắt, nhưng ít nhất về mặt pháp lý thì quyền riêng tư dữ liệu được đảm bảo. Tôi tin nó hơn Anthropic, OpenAI và OpenRouter
    Cá nhân tôi thấy việc dùng các công cụ AI của Mỹ là điều khó chấp nhận về mặt đạo đức, và tôi không muốn trả tiền cho họ để hỗ trợ những tội ác mà họ có liên quan[1]
    [1]: https://news.ycombinator.com/item?id=48512339

  • Điểm vướng ở redline của Anthropic là cụm từ “of Americans”. Vậy là với phần còn lại của thế giới văn minh thì muốn làm gì cũng được sao? Có nghĩa là gây bất ổn cho các đồng minh ngoài nước Mỹ bằng các bài kiểm tra bị thao túng trong machine learning hay bằng các vụ rò rỉ dữ liệu cũng không sao à?
    Điều còn lạ hơn là họ nói mô hình tuân theo https://www.anthropic.com/constitution và rằng những nội dung đó đã được tích hợp sẵn vào mô hình. Nhưng system prompt của Claude Code và cowork lại lặp lại các mục này một lần nữa. Nếu thật sự đã được tích hợp sẵn thì đáng ra không cần phải làm vậy
    Nếu prompt engineering đủ kỹ với bản Claude qua API, bạn có thể khiến nó hành xử như một người ủng hộ Hitler, và điều đó mâu thuẫn trực diện với tuyên bố của họ. Đặc biệt, Opus 4.7 từng sẵn sàng tạo ra cả tài liệu tuyên truyền nhắm vào một số nhóm thiểu số nhất định, còn ở 4.8 thì tôi vẫn chưa đạt lại được kết quả tương tự. Dạo này tôi quan tâm hơn đến hướng lạm dụng năng lực an ninh mạng của mô hình nên không đẩy sâu thêm theo hướng đó
    Ngay từ đầu, kết luận vẫn là chiến lược của Anthropic thuần túy chỉ là quản trị hình ảnh, và nhìn vào lượng ủng hộ đổ về công ty thì xem ra họ đã khá thành công

  • Tôi đã xem eurouter.ai, và bản thân đề xuất đó có vẻ cực kỳ tệ
    Mức giá markup 15% cho tài khoản miễn phí đã vô lý, mà nếu không trả 40€/tháng thì còn bị giới hạn 1000 yêu cầu mỗi tháng. Nhưng tôi không rõ chính xác họ mang lại giá trị gì
    DeepSeek-V4-Pro chỉ có một nhà cung cấp duy nhất là TensorX, và chi phí đọc cache đắt hơn DeepSeek hơn 100 lần ($0.44 so với $0.003625). Đặc biệt là trên eurouter.ai tôi không tìm thấy thông tin về chi phí token cache, nên còn phải vào tận website TensorX để xem

  • Gọi là “tội ác” thôi vẫn còn chưa đủ
    “AI-assisted targeting in the Gaza Strip” - https://en.wikipedia.org/wiki/AI-assisted_targeting_in_the_G...
    “Palantir allegedly enables Israel's AI targeting in Gaza, raising concerns over war crimes” - https://www.business-humanrights.org/de/neuste-meldungen/pal...
    “What The Wounds Are Telling Us” - https://www.volkskrant.nl/kijkverder/v/2025/gunshot-palestin...

  • Tôi tò mò về các lựa chọn thay thế khác cho OpenRouter nên đã tìm thử một chút
    EURouter (Amsterdam): https://www.eurouter.ai/pricing
    Eden AI (Pháp): https://www.edenai.co/pricing
    nexos.ai (Litva): https://nexos.ai/pricing/
    Requesty (Đức): https://www.requesty.ai/pricing
    Cortecs (Áo): https://cortecs.ai/pricing
    Nordference (Estonia): https://nordference.ai/pricing
    Có cảm giác chúng đang mọc lên như nấm. Tôi chưa trực tiếp dùng thử nên không khuyến nghị nơi nào, nhưng có vẻ những ai cần thì vẫn có lựa chọn

  • Nếu bảo mật dữ liệu mới là mối lo thực sự, thì rốt cuộc có lẽ không còn cách nào khác ngoài chấp nhận cái giá đó và tự host lấy

  • Thật thú vị khi mọi người loại bỏ các mô hình trọng số mở chỉ vì chúng “chậm hơn vài tháng” so với các mô hình độc quyền
    Tôi biết tốc độ phát triển của LLM là cực kỳ nhanh, nhưng nếu Opus và GPT của vài tháng trước thực sự chỉ ở mức các mô hình trọng số mở hiện nay, thì chẳng có lý do gì để không chuyển sang dùng. Đặc biệt là với những người đã dùng các mô hình đó từ vài tháng trước thì lại càng như vậy
    Codebase đâu có thay đổi, nên cứ dùng mô hình trọng số mở là được. Đừng dời khung thành

    • Các mô hình độc quyền mới lần nào cũng được quảng bá là “đột phá” và “giải được tác vụ X mà các mô hình khác không làm được”, nhưng chỉ một tháng sau đã bị gọi là mô hình thế hệ trước kém cỏi
      Vì vậy dùng Kimi-2.7, GLM-5.2, Deepseek-v4 hoàn toàn không có vấn đề gì. Có vẻ chúng ta đã chạm khá gần trần rồi, và giờ phần lớn cải tiến dường như đến từ việc cải thiện harness để suy luận hoặc gọi công cụ tốt hơn một chút, cùng với reinforcement learning nhỉnh hơn đôi chút
    • Tôi đã thử nghiệm khá nhiều mô hình mở, nhưng đã mệt mỏi với câu “chỉ chậm vài tháng”
      Tôi vẫn chưa chắc ngay cả mô hình trọng số mở tốt nhất hiện nay đã ngang với Opus của vài tháng trước hay chưa. Tôi biết benchmark nói gì và cũng từng kỳ vọng lớn, nhưng trải nghiệm sử dụng thực tế lại không khớp với benchmark
      Tôi làm nhiều công việc mà ngay cả Opus 4.8 cũng còn chật vật. Khi các LLM tiên tiến nhất còn chưa thực sự đạt tới mức cần thiết, tôi không có động lực chuyển sang một mô hình còn tụt lại hơn nữa
    • Lý do duy nhất tôi đang đọc bài này trên HN lúc này là vì Anthropic API bị sự cố, nên điều này cũng là một phiếu cho hướng tự host
    • Nếu nói chính xác hơn một chút thay vì “chậm vài tháng”, thì tiêu chí quan trọng có lẽ là trước hay sau Claude Opus 4.5 ngày 24/11/2025. Đó là mô hình đã tạo ra làn sóng OpenClaw vào dịp Giáng sinh
    • Ở công ty tôi dùng nhà cung cấp Deepseek V4 flash, và trên thực tế nó xử lý được 95% công việc đang chạy với chi phí bằng một phần mười. Thỉnh thoảng chúng tôi vẫn bật mô hình mạnh hơn lên dùng, nhưng chỉ sau khi đã nghĩ lại thêm một lần
      Hào lũy cạnh tranh phẳng đến mức chỉ cỡ +1 lương thực, +1 sản xuất. Có đường thì +1 vàng
  • Điều đáng kinh ngạc ở các mô hình này là chúng về cơ bản đã chưng cất Internet thành một dạng có thể đưa vào máy cục bộ, rồi cho phép truy vấn bằng ngôn ngữ tự nhiên
    Công nghệ và phần cứng đang cải thiện nhanh hơn tốc độ tăng trưởng của kho tri thức cần được chưng cất, nên việc có được các mô hình cục bộ đủ dùng dường như là điều không thể tránh khỏi

  • Thái độ của bài viết này khiến tôi thấy khá bất ngờ. Một mặt, nó mở đầu bằng câu chuyện chấp nhận Linux và các phần mềm tự do/mã nguồn mở khác, mà cốt lõi của FOSS là giúp người dùng có thể hiểu và sửa đổi phần mềm họ chạy
    Nhưng phần còn lại lại là câu chuyện dùng LLM, tức những công cụ mà tác giả không có cách nào để sửa đổi hay hiểu được. Một ma trận số thực dấu phẩy động khổng lồ thì cùng lắm cũng chỉ có thể ví với mã đã biên dịch, và trên thực tế nhiều khi việc decompile phần mềm độc quyền để hiểu nó còn dễ hơn
    Hơn nữa, trong đa số trường hợp, ngay cả khi muốn chạy các mô hình “mở” thì cũng cần phần cứng quá sức chịu đựng. Tôi không hiểu vì sao từ chỗ ca ngợi tự do phần mềm mà lại đi tới đây

  • Tiêu đề thì nói rất dứt khoát, nhưng trong bài lại ghi là “hy vọng được giảm thiểu”
    Tôi dùng nhiều gói đăng ký, thử nhiều nhà cung cấp LLM khác nhau theo từng token qua OpenRouter, và cũng chạy mô hình trọng số mở trên máy cục bộ
    Hiện giờ tôi vẫn khó mà đồng ý. Các mô hình của Anthropic và OpenAI thực sự tốt hơn hẳn phần còn lại. Các mô hình trọng số mở nhìn chung có vẻ bị tối ưu quá mức cho benchmark, và trải nghiệm thực tế rất khác với điều benchmark ngụ ý
    Mỗi khi nói về trải nghiệm này tôi thường bị downvote, vì đó không phải là thực tế mà mọi người lúc này muốn nghe, nhưng với các tác vụ phức tạp thì đúng là như vậy
    Tôi cho rằng nếu do người dùng có kinh nghiệm xử lý, thì khá nhiều tác vụ dễ có thể được giải quyết ổn bằng mô hình trọng số mở. Nếu là kiểu việc có thể giao cho junior làm với một chút giám sát, thì mô hình nào cũng làm được
    Nhưng với nhiều công việc tôi làm, ngay cả Opus 4.8 Max cũng vẫn cần được theo dõi sát, định hướng và rà soát liên tục. Fable cũng vậy, chỉ là mức độ nhẹ hơn
    Khi thử các mô hình trọng số mở cỡ lớn, trên máy cục bộ thì không đạt được tốc độ hợp lý ở mức lượng tử hóa còn chấp nhận được, nên cuối cùng lại phải dùng bản host; và với các tác vụ lớn thì cảm giác càng kéo dài hơn khi phải đốt token để chờ đầu ra mà rốt cuộc có thể sẽ bị bỏ đi. Tôi rất muốn chúng đạt tới mức đó, nhưng hiện vẫn chưa

    • Có ví dụ nào không?
  • Claude chỉ thực sự bắt đầu dùng ổn cho mục đích lập trình kể từ khi đạt 4.6. Sau đó vẫn có thêm vài tính năng bổ sung đáng có, nhưng nếu 4.6 Sonnet và Opus là trọng số mở thì có lẽ tôi sẽ không cần gì thêm nữa
    Suy nghĩ đó càng mạnh hơn sau khi tôi dùng thử Fable một chút

  • Tôi muốn làm quen hơn với suy luận cục bộ nhưng không có phần cứng, nên đã nghĩ tới kiểu hợp tác xã local mà tôi hầu như không thấy ai bàn tới
    Xét về tính kinh tế, có vẻ việc nhiều người góp lại để vận hành phần cứng tốt và mô hình mở có thể là hợp lý, nhưng tôi chưa từng thấy ai nói về chuyện đó. Có lẽ tôi đã bỏ sót gì chăng
    Nếu có một dịch vụ giúp những người muốn tham gia theo cách đó tìm được nhau thì sẽ khá hay

    • Lý do bạn ít thấy chuyện này là vì mọi người đều tính toán rồi nhận ra đó không phải một thương vụ tốt, nên bỏ cuộc
      Ngay trên đầu /r/localllama lúc này cũng có một bài viết đúng về phép tính đó: https://www.reddit.com/r/LocalLLaMA/comments/1ubrcwj/tokenom...
      Tóm lại, để chạy GLM 5.2 thì tối thiểu cũng phải tốn khoảng 20.000 USD, và sẽ chậm đến mức đau đớn so với bản cloud-hosted. Ngay cả theo giả định máy chủ tính token 24/7 thì cũng phải mất vài năm mới hòa vốn
      Lý do duy nhất để chạy local là khi quyền riêng tư dữ liệu tuyệt đối là ưu tiên số một. Đổi lại bạn đang trả một khoản premium rất cao cho điều đó
    • Có rất nhiều nơi cung cấp mô hình mở với mức giá cực rẻ. Nói chung tôi khuyên nên xem OpenRouter, nơi theo dõi nhiều chỉ số khác nhau của nhiều nhà cung cấp
    • https://news.ycombinator.com/item?id=48524387
    • Mô hình mở được host trên cloud???
  • Đúng là vậy, nhưng OpenAI cũng có cùng mức giá. Vì sao phải trả 18 USD/tháng cho z.ai khi OpenAI là 20 USD/tháng?

    • Một lợi thế lớn mà tôi thấy là mọi người thường gắn bó với mô hình. Tôi cũng vậy. Với mô hình mở, nếu bạn tìm được một mô hình hoàn toàn hợp với mình nhưng phiên bản tiếp theo lại không tốt, bạn có thể chạy phiên bản cũ mãi mãi. Tự làm hoặc nhờ người khác làm đều được
    • Một lý do có thể là giới hạn yêu cầu. ChatGPT Plus w/Codex của OpenAI (20 USD/tháng), trong trường hợp xấu nhất, có giới hạn yêu cầu trong 5 giờ là 15 lần với GPT-5.5, 20 lần với GPT-5.4, và 60 lần với GPT-5.4-Mini
      Trong khi đó, Z.ai Lite (18 USD/tháng) cung cấp khoảng 80 lần cho GLM 5.2 trong trường hợp xấu nhất. Đây là theo giờ thấp điểm, và giờ cao điểm là từ 2 giờ đến 6 giờ sáng theo giờ New York. Vì vậy Z.ai có thể đưa ra giới hạn cao hơn với giá rẻ hơn
      (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
    • https://news.ycombinator.com/item?id=48618455
    • OpenCode Go là 10 USD/tháng, và giới hạn cũng rộng rãi hơn rất nhiều so với mấy cái đó hoặc Codex
    • Có vẻ trang giá không còn nêu rõ nữa, nhưng gói coding của z.ai trước đây từng tuyên bố mức sử dụng gấp 3 lần gói Claude cùng tầm giá. Tôi không biết điều đó có chính xác không, nhưng chỉ nhìn giá API thôi thì GLM đã rẻ hơn rất nhiều
  • Linux rõ ràng rất mạnh, nhưng vào thời phải hack và bỏ thêm công sức để mài giũa cho dễ dùng thì việc dùng Linux khá dễ mang cảm giác của một kẻ nổi loạn
    Nhưng theo trải nghiệm của tôi, mô hình mở vẫn chưa tới mức đó về năng lực hay yêu cầu vận hành. GLM5.2 có vẻ giỏi, nhưng để chạy được ở mức giỏi như vậy thì có lẽ cần một cụm GPU khổng lồ
    Nếu truy cập mô hình mở qua API được host, thì về cơ bản cũng chẳng khác gì dùng mô hình đóng qua API được host. So với thời dùng Linux 15 năm trước, động lực như vậy bị suy giảm
    Đừng hiểu lầm. Tôi muốn chạy mô hình cục bộ và cảm thấy hài lòng với nó, nhưng bây giờ thì chưa

    • “Nếu truy cập mô hình mở qua API được host thì cũng giống dùng mô hình đóng qua API được host” là không đúng
      Điểm mấu chốt là nó không bị một thực thể duy nhất kiểm soát, nên bạn không thể bị enshittification theo cách đó. Việc đó đã từng xảy ra, đang xảy ra và sẽ còn tiếp tục xảy ra
      Với trọng số mở, bạn không dễ bị lôi kéo, bị khóa chặt hay bị chặn truy cập. Dù một công ty có muốn làm vậy, thì một bên khác có server farm vẫn có thể nhận bạn làm khách hàng, và trong quy trình làm việc bạn chỉ cần đổi URL API và key
      Bạn vẫn sẽ trò chuyện với cùng một mô hình, có cùng tính cách và cùng lượng kiến thức
  • Tôi phần nào đồng ý với hướng lớn của bài viết, nhưng có hai điểm
    Thứ nhất, trong các bài test của tôi, mô hình mở vẫn chưa ở mức có thể cạnh tranh với ít nhất Claude Opus trong phát triển phần mềm, kỹ thuật phần mềm và các công việc lân cận
    Thứ hai, hãy tận hưởng khi nó còn tồn tại. Tôi sẽ thật sự ngạc nhiên nếu đến cuối năm nay các mô hình mở này vẫn chưa bị tuyên bố là “bất hợp pháp” với lý do an ninh. Tôi gọi đó là cái cớ vì động lực chính sẽ là chiếm đoạt quy định và chủ nghĩa bảo hộ công nghiệp

    • Nếu cấm mô hình ở Mỹ thì chỉ khiến các quốc gia cạnh tranh như Trung Quốc mạnh lên