AI mã nguồn mở nhất định phải chiến thắng
(opensourceaimustwin.com)- AI là hạ tầng văn minh cho công việc, giáo dục, khoa học, phần mềm, sáng tạo, dịch vụ công và năng lực quốc gia; quyền tiếp cận không nên bị chi phối bởi điều kiện và giá cả của một số ít công ty
- Khả năng nghiên cứu, xây dựng, sửa chữa, phân phối, kiểm toán, tinh chỉnh, huấn luyện, lưu trữ và vận hành các hệ thống trí tuệ mà không cần xin phép gắn liền trực tiếp với tự do vận hành
- AI mã nguồn mở phải duy trì khả năng sử dụng ngay cả khi các phòng thí nghiệm đang thống trị hiện nay, các viện nghiên cứu nước ngoài, nhà cung cấp phần cứng, nền tảng đám mây hoặc đơn vị cung cấp mô hình open-weight đổi hướng hoặc biến mất
- Nếu một số ít phòng thí nghiệm frontier khép kín và các công ty nền tảng kiểm soát mô hình, hạ tầng trí tuệ có nguy cơ trở thành nền kinh tế thuê bao của nhận thức
- Mỹ không được tụt lại về quyền tự do vận hành, kiểm tra, sửa đổi, benchmark, huấn luyện và lưu trữ hạ tầng trí tuệ; cách tiếp cận thực dụng phải là sự kết hợp giữa năng lực của Mỹ và các tiêu chuẩn mở toàn cầu
AI mã nguồn mở nhất định phải chiến thắng
- Nếu trí tuệ trở thành thứ chỉ có thể đi mượn từ một số ít tổ chức khép kín, công chúng sẽ mất không chỉ tự do phần mềm mà còn cả tự do vận hành
- Các hệ thống trí tuệ phải có thể được nghiên cứu, xây dựng, sửa chữa, phân phối, kiểm toán, tinh chỉnh, huấn luyện, lưu trữ và vận hành mà không cần xin phép; năng lực này quan trọng ở mức hiện sinh
- AI được xem là hạ tầng văn minh nâng đỡ công việc, giáo dục, khoa học, phần mềm, sáng tạo, dịch vụ công và năng lực quốc gia
- Quyền tiếp cận AI không nên phụ thuộc vào API khép kín, nền tảng từ xa, điều khoản thay đổi liên tục, tinh chỉnh thiếu minh bạch, khả năng sẵn có của mô hình hay mức giá do một số ít công ty quyết định
Những điều kiện AI mã nguồn mở phải duy trì
- AI mã nguồn mở phải có thể sử dụng, có thể hiểu và có thể tái lập
- AI mã nguồn mở phải có thể triển khai cục bộ, bền vững về mặt kinh tế và cho phép cộng đồng đảm nhận quản trị
- Ngay cả khi các phòng thí nghiệm đang thống trị hiện nay, các viện nghiên cứu nước ngoài, nhà cung cấp phần cứng, nền tảng đám mây hoặc đơn vị cung cấp mô hình open-weight đổi hướng hoặc biến mất, AI mã nguồn mở vẫn phải tiếp tục hoạt động
- Nếu một số ít phòng thí nghiệm frontier khép kín và các công ty nền tảng kiểm soát mô hình, hạ tầng trí tuệ có nguy cơ trở thành nền kinh tế thuê bao của nhận thức
- Mỹ không được tụt lại về quyền tự do vận hành, kiểm tra, sửa đổi, benchmark, huấn luyện và lưu trữ hạ tầng trí tuệ
- Cách tiếp cận thực dụng phải là đặt năng lực của Mỹ song hành cùng các tiêu chuẩn mở toàn cầu
2 bình luận
Ý kiến trên Lobste.rs
Không hề tồn tại “AI” mã nguồn mở. Các LLM có thể chạy cục bộ chỉ là những khối đen mờ đục được các tập đoàn khổng lồ bỏ ra hàng triệu đô cho mỗi phiên bản huấn luyện và kiểm soát hoàn toàn dữ liệu đầu vào, rồi hào phóng cung cấp
Một cá nhân không giàu có thì không thể tự mình rà soát toàn bộ cách mô hình được tạo ra, chỉnh sửa bộ dữ liệu huấn luyện gốc, hay dựng lại từ đầu bất cứ khi nào muốn
Việc cứ phải chạy các LLM miễn phí được biên dịch sẵn trên máy cá nhân là một sự lệ thuộc được nuôi dưỡng vào hạ tầng tập trung, và trong thực tế hiện nay gần như là hành vi ủng hộ một công nghệ mà cá nhân về mặt cấu trúc không thể kiểm soát. Thà viết một bản tuyên ngôn rằng nhiệt hạch lạnh phải chiến thắng còn hơn
Dĩ nhiên, đa số các mô hình như vậy không ở cùng đẳng cấp với các mô hình tuyến đầu nếu chỉ xét năng lực kỹ thuật, và nhiều trường hợp ngay từ đầu cũng không nhắm tới mục tiêu đó. Ví dụ, EU đã tài trợ cho việc phát triển các mô hình đại diện tốt hơn cho các ngôn ngữ trong EU cho các mục đích như dịch thuật
Và tôi cũng không nghĩ mô hình mã nguồn mở theo định nghĩa thì nhất thiết phải chạy được cục bộ. Nếu mô hình thực sự mở, thì kể cả khi công ty đứng sau phá sản, nền tảng để tiếp tục phát triển mô hình đó cũng không bị khóa lại trong nội bộ công ty, nên rủi ro giảm đi đáng kể. Phần mềm mã nguồn mở không nhất thiết đồng nghĩa với “có thể làm rẻ trên máy cục bộ của tôi”
Một số LLM tương đối mở gần đây gồm NVIDIA-Nemotron-3-Nano-30B-A3B (mã nguồn mở, cung cấp phần lớn bộ dữ liệu huấn luyện) và Olmo-3.1-32B-Think (mã nguồn mở, toàn bộ dữ liệu huấn luyện được công khai trên Hugging Face)
Về lý thuyết, bất kỳ ai cũng có thể tái tạo một mô hình tương tự, quyết định sẽ dùng dữ liệu nào để huấn luyện, hoặc chỉnh sửa recipe huấn luyện. Tuy vậy, việc tiền huấn luyện vẫn nằm ngoài tầm với của cá nhân không giàu có là điều đúng
OLMo được nêu rõ là mô hình đã vượt qua bước xác minh của OSI, và Pythia cũng đã được OSI xác minh là đáp ứng các yêu cầu cho hệ thống AI mã nguồn mở. Lucie-7B là một trong những LLM đa ngữ sớm tuân theo định nghĩa AI của OSI, và các tác giả nói rõ rằng bộ dữ liệu huấn luyện, mã chuẩn bị dữ liệu và trọng số mô hình đều được cung cấp theo giấy phép mở
Việc huấn luyện từ đầu tốn rất nhiều tiền cũng là đúng. Nhưng nếu vậy thì liệu dùng Linux kernel có bị gọi là “sự lệ thuộc được nuôi dưỡng” hay không? Vì những điều kiện tương tự cũng áp dụng ở đó
“AI là hạ tầng văn minh cho công việc, giáo dục, khoa học, phần mềm, sáng tạo, dịch vụ công và năng lực quốc gia” không đúng. Chỉ là những người kiểm soát nó muốn biến nó thành như vậy và đang điên cuồng thúc đẩy, chứ thực tế không phải thế
Chỉ cần đừng thuê ngoài suy nghĩ cho những cỗ máy ngốn tài nguyên, vi phạm bản quyền và hay ảo giác 😘
Dĩ nhiên, việc không để quyền lực này tập trung vào tay một số ít tập đoàn khổng lồ sẽ giải quyết được một trong những vấn đề lớn của AI hiện nay, nhưng hoàn toàn không giải quyết được các vấn đề khác
Tác tử lập trình cục bộ nhỏ nhất thực sự hữu ích là Qwen3.6 27B, và nó có thể chạy ổn định ở khoảng 280~300W không liên tục trên card NVIDIA bị giới hạn điện năng. Lượng điện dùng cho một ngày lập trình có lẽ còn ít hơn việc chơi Subnautica 2 vài giờ trên một máy desktop gaming. Một phần cũng vì với các mô hình nhỏ, bạn không thể thuê ngoài quá nhiều suy nghĩ, nên AI nghỉ nhiều hơn và con người phải tự nghĩ nhiều hơn
Chi phí huấn luyện thì lớn hơn, nhưng nếu chỉ định huấn luyện vài mô hình cỡ 27B mỗi năm thì ở quy mô toàn bộ nền văn minh công nghiệp, con số đó gần như bị chìm nghỉm. Trước đây tôi từng thử tính và ra kiểu như chỉ cần thêm một nhà máy luyện nhôm dùng địa nhiệt ở Iceland là đủ để huấn luyện vài mô hình cỡ 27B. Không phải miễn phí, nhưng gần như là sai số làm tròn
Điện cho suy luận còn ít hơn ba bóng đèn sợi đốt, và cũng chỉ tiêu thụ khi mô hình thực sự sinh nội dung. Điện cho huấn luyện thì ở mức một cơ sở công nghiệp lớn, nhưng gần như toàn bộ cũng có thể dùng năng lượng tái tạo. Iceland là nơi phù hợp cho kiểu đó
Về “vi phạm bản quyền”, theo án lệ hiện tại ở Mỹ thì điều đó có vẻ không đúng, và tôi nghĩ cần rất thận trọng khi muốn mở rộng thêm quyền lực của bản quyền. Tôi đã phản đối việc mở rộng bản quyền từ thập niên 90, nên dù không thích cách huấn luyện LLM, tôi nghĩ vấn đề này đã rời khỏi phạm vi luật bản quyền để sang phạm vi chính trị và lập pháp. Dù vậy, trường hợp Anthropic đơn thuần sao chép lậu sách thì là ngoại lệ
Nhưng vấn đề thuê ngoài suy nghĩ thì đang xuống dốc rất nhanh. Nhiều người đang cố biến bản thân thành những con rối thịt của thần máy, và điều đó rất đáng sợ
Nó giống như nói giết người là sai “vì nó bất hợp pháp”. Giết người đúng là sai, nhưng lý do nó sai không phải vì tính bất hợp pháp. Luật có thể thay đổi. Nếu ta xây dựng cả dòng chảy lập luận rằng AI xấu vì bản quyền, rồi quốc hội hợp pháp hóa nó, vậy mọi người sẽ đột nhiên chấp nhận AI là ổn sao? Đã có những lý do phản đối khác gần hơn với mối lo thực sự, và tập hợp quanh những điểm đó có lẽ sẽ hiệu quả hơn
Alexandra Elbakyan cũng là người vi phạm bản quyền. Nhưng cô ấy là người lớn, và mọi trường đại học đều nên dựng tượng cô ấy
Tương lai của machine learning và mô hình ngôn ngữ lớn thực sự mở và công bằng sẽ không thể tồn tại nếu không xét đến toàn bộ chuỗi cung ứng. Khuyên nên đọc https://time.com/6247678/openai-chatgpt-kenya-workers/
Chúng ta sẽ sớm chạm tới đỉnh dữ liệu, và sau đó phần lớn tiến bộ có lẽ sẽ đến từ việc bó các LLM hiện đại lại với nhau theo kiểu tác tử
Mô hình mã nguồn mở cuối cùng được công bố có khả năng sẽ được dùng suốt nhiều năm tới làm nền tảng cho các lớp thượng tầng dạng tác tử mã nguồn mở hoặc các cấu trúc khác luôn thay đổi
Chính xác hơn, công chúng cần nhận ra nguồn tài trợ công khổng lồ mà các big tech đã nhận trong 20 năm qua, đặc biệt là gần đây, và đòi quyền đối với hạ tầng đã được trả bằng tiền thuế
Những công ty này đã không thể tồn tại, và cũng không thể từng tồn tại, nếu không có lượng vốn công khổng lồ đổ vào. Thêm nữa, dữ liệu huấn luyện của họ cũng phần lớn được lấy trực tiếp từ tài nguyên công cộng dùng chung
Các mô hình này không phải thành quả của nỗ lực tư nhân, mà là kết quả cuối cùng của một nỗ lực tập thể khổng lồ, và về mặt pháp lý phải được công nhận là tài sản chung công cộng
Dù có quan trọng hay không, dù là bong bóng hay không, dù chỉ là bộ dự đoán token đầy ảo giác hay không, việc mọi quốc gia có một khuôn khổ pháp lý buộc các “Frontier lab” phải công bố mã nguồn mở mọi mô hình trừ các mô hình mới nhất là cực kỳ quan trọng
Phạm vi công bố phải gồm trọng số, dữ liệu huấn luyện, phương pháp luận v.v., hoặc nếu không thì phải buộc mỗi mô hình trở thành mã nguồn mở sau 10~15 năm. Vì sự phát triển của tri thức nhân loại và để ngăn khoảng cách giữa “người có” và “người không có”, mọi mô hình phải được công khai sau một khoảng thời gian nhất định
Bạn có thể nghĩ AGI chưa gần, nhưng ý đồ của các phòng lab tuyến đầu này là trở thành bên chạm tới AGI đầu tiên rồi giữ nó một mình sau bức tường trả phí. Dù khả năng đó lớn hay nhỏ, vì lợi ích của toàn nhân loại, điều đó phải bị ngăn lại
Ý kiến trên Hacker News
Đã có lúc chúng ta nghĩ đến việc xây dựng hệ thống huấn luyện mô hình phân tán bằng những cỗ máy được mọi người đóng góp kiểu tình nguyện, nhưng thực tế độ khó cao đến mức khủng khiếp
Tốc độ truyền thông không thể chịu nổi, và ô nhiễm dữ liệu từ các node không đáng tin cậy cũng là vấn đề
Vế sau có lẽ gần như có thể giải quyết bằng một hệ thống rollback checkpoint tự phục hồi, không cần vứt bỏ toàn bộ kết quả phía sau dữ liệu bị nhiễm, nhưng đây không phải dự án nhỏ mà một người có thể làm chỉ bằng ý tưởng
Nếu đến mức toàn bộ các lab frontier đều bị cấm tiến thêm bước nào nữa, thì có thể hướng này sẽ bắt đầu thu hút sự quan tâm
Tổng số GPU trên toàn Trái Đất hẳn sẽ vượt trội năng lực của họ, chỉ là cần cách tận dụng phân tán một cách hiệu quả
Dù không thể huấn luyện Fable nhanh như họ, nhưng một ngày nào đó có thể tiếp cận vẫn tốt hơn là vĩnh viễn không bao giờ tiếp cận được
Phần cứng chuyên dụng cho AI không chỉ nhanh hơn GPU tiêu dùng rất nhiều, mà còn có hiệu quả điện năng tốt hơn hẳn và khả năng kết nối cũng vượt trội hơn nhiều; cả ba yếu tố này đều đủ để làm sụp đổ ý tưởng đó
Chênh lệch hiệu suất điện quá lớn, đến mức dù gom toàn bộ GPU công khai hay thiết bị tương tự trên Trái Đất lại thì tiền điện cũng sẽ khổng lồ; xét tổng chi phí, có khi xây hẳn data center riêng còn rẻ hơn
Ngay cả khi điện miễn phí, việc nối các GPU rải khắp thế giới bằng độ trễ Internet cũng sẽ khiến mọi thứ chậm đi từ hàng nghìn đến hàng triệu lần, và còn chưa chắc khả thi
Dù sao thì trong 10 năm này rất khó có được fable-oss, và có khi cả thế kỷ này cũng chưa chắc
Sẽ tốt hơn nếu các chính phủ, dù là theo hình thức liên minh, trực tiếp mua và sở hữu data center rồi vận hành vì lợi ích công; thực ra tôi nghĩ họ nên làm vậy
Thay vào đó, họ tưởng tượng hàng nghìn data center nhỏ hoặc người dùng cá nhân gom phần năng lực tính toán dư thừa qua Internet để điều phối một lượt huấn luyện lớn hơn bất kỳ chủ thể đơn lẻ nào
Các công ty như Pluralis Research, Prime Intellect và Nous Research đang theo đuổi tầm nhìn này và đã thành công với huấn luyện phân tán ở quy mô đáng kể, nhưng trên thực tế huấn luyện phân tán qua Internet vẫn kém xa huấn luyện tập trung
Ngay cả những mô hình lớn nhất như 8B Protocol Model của Pluralis, INTELLECT-1 của Prime Intellect, hay Consilience 40B của Nous cũng được huấn luyện với lượng tính toán ít hơn 1.000 lần so với các mô hình frontier hiện tại như Grok 4 của xAI
https://epoch.ai/gradient-updates/how-far-can-decentralized-...
Đó là do đánh giá sai về lượng silicon đã đổ vào đúng các công ty đó, và cả việc số silicon ấy mạnh hơn thiết bị tiêu dùng đến mức nào
Mô hình BLOOM cũng là kết quả được tạo ra theo cách hợp tác: https://huggingface.co/docs/transformers/en/model_doc/bloom
Nous nói rằng họ đã làm được: https://github.com/NousResearch/DisTrO
Trước đây cũng đã có các bài báo về nén gradient báo cáo tỷ lệ nén lớn
Cần cả điều này lẫn suy luận LLM phân tán
Giờ đã đến mức quá đắt để một cá nhân tự dựng phần cứng chạy các mô hình mới nhất
Vì vậy cần xây dựng và phổ biến các framework để mọi người có thể chia sẻ tài nguyên và chạy các mô hình mới nhất theo cách phân tán
Khi đó chính phủ cũng sẽ khó kiểm duyệt hơn
Cách duy nhất để ngăn một chủ thể vũ khí hóa nó là trao quyền truy cập cho tất cả mọi người
Nó chạy suy luận hoàn toàn phân tán trên Mac, Windows, Linux, Android, iOS, thậm chí cả HarmonyOS
Các mô hình mã nguồn mở/open-weight sẽ tiếp tục tốt lên, và cuối cùng mức mythos cũng sẽ chạy được trên phần cứng smartphone hay kính thông minh
Chỉ là ngay lúc này việc khớp cung và cầu cực kỳ phiền phức
Ví dụ, phần cứng vật lý như MacBook 16GB RAM không có nghĩa là thực sự dùng trọn được 16GB, và còn có vấn đề khớp mô hình và các thiết lập (kvcache, context limit, temperature, v.v.) với nhu cầu
Chúng ta cần suy luận AI do con người vận hành, phục vụ con người, nên rất hoan nghênh sự giúp đỡ
Dự án Petals từng tuyên bố đạt tối đa 4 tok/s với mô hình 180B, nhưng kho mã đã không được cập nhật suốt 2 năm
https://petals.dev/
Không gian chính sách cũng gồm cả cách để chính phủ điều tiết cả quyền truy cập lẫn độc quyền
Tôi phản đối việc độc quyền công nghệ này, nhưng cũng phải thấy rõ rủi ro của việc trao AGI/ASI đã jailbreak cho tất cả mọi người
Một ví dụ đồ chơi là tưởng tượng chính phủ thuê ngoài cho nhiều viện nghiên cứu (n_quorum) và cấp cho mọi người ngân sách token dưới dạng AI cơ bản phổ quát
Tuy nhiên, vận hành API vẫn phải đi kèm các biện pháp kiểm soát an toàn
Nếu ai cũng có thể chạy AGI đã jailbreak của riêng mình, thì để duy trì chuẩn mực xã hội ổn định có lẽ chỉ còn giám sát quy mô lớn nhằm theo dõi ai đang tạo ra các mối đe dọa CBRNE
Xét từ góc độ quyền tự do dân sự thì điều đó không hẳn là một chiến thắng rõ ràng, nhưng tôi hiểu vì sao người ta có thể lập luận theo hướng đó
Ở nhà tôi và trong công việc kinh doanh của tôi thì ngay từ đầu nó đã thắng rồi
Nói chính xác hơn là open weights, và sự khác biệt tinh tế đó khiến tôi thấy không thoải mái
Tôi chưa bao giờ hiểu được thái độ chấp nhận để việc vận hành hay phát triển sản phẩm phụ thuộc hoàn toàn vào mã nguồn bí mật của một trong hai startup lớn, vừa chưa rõ khả năng sinh lời vừa không thể biết bên trong ra sao
Điều đó cũng trái với các nguyên tắc kỹ thuật lành mạnh
Vì vậy tôi chưa từng định làm thế, và lý do tôi dành thời gian khám phá AI lúc này cũng là vì open weights khiến tôi thấy đáng để đầu tư thời gian
Công việc kinh doanh vốn đã thường bị lệ thuộc vào một nền tảng thanh toán duy nhất và hai nhà cung cấp thẻ tín dụng Mỹ, như thế đã đủ tệ rồi
Có lẽ vì tính cách của một freelancer, tôi luôn thấy bất an khi bị yêu cầu dồn quá nhiều năng lượng vào việc nghiên cứu và học cách dùng sản phẩm của người khác thay vì công nghệ nền tảng
Tôi cũng nhớ thời Microsoft đi thuyết phục các khoa bằng lời hứa cấp quyền truy cập mã nguồn NT
Tôi cũng nhớ một lãnh đạo cấp cao bên phía chúng tôi khi đó đã nói rằng Linux chỉ là thứ bên lề, còn quyền truy cập NT mới là điều khiến chúng tôi trở nên có ý nghĩa
Tôi luôn tự nhắc mình và những người xung quanh rằng cần nhiều quyền kiểm soát hơn đối với số phận của chính mình, và rằng công nghệ tiên phong luôn đi trước công nghệ ổn định mới nhất
Tiến bộ diễn ra ở tuyến đầu, nhưng cũng có nguy cơ hỏng hóc
Kỹ thuật nên tập trung xây dựng trên công nghệ ổn định mới nhất, chứ không phải cưỡi lên tiến bộ của người khác
Các công cụ như llama.cpp thì mở, nhưng không có weights thì vô dụng
Weights là vốn cực kỳ đắt đỏ được các tổ chức lớn đang đối đầu nhau đem ra đóng góp
Ví dụ, tôi không biết liệu archive.org có thể tạo ra weights thực sự mở hay không, và ngoài archive.org ra thì cũng khó hình dung các tổ chức mã nguồn mở khác như freebsd hay apache lại ở vị thế có thể làm ra weights thực sự mở
Nếu có ai làm được thì có lẽ là chính phủ, cơ quan nhà nước hoặc các trường đại học
Nhưng hiện giờ những tổ chức như vậy không có đủ tài chính, quyền hạn, ý chí hay sự quan tâm để đổ tiền vào hạ tầng tạo weights
AI bổ trợ cho cách chúng tôi phát triển công việc kinh doanh, và các kỹ sư thích dùng Opus 4.8 hơn hẳn so với những mô hình mã nguồn mở tốt nhất
Tôi tin mã nguồn mở là quan trọng, nhưng trong công việc của mình tôi vẫn sẽ đơn giản dùng những công cụ tốt nhất có thể dùng
Nếu mã nguồn mở bị hiểu là phần mềm miễn phí, thì thực chất nó gần giống với việc chỉ muốn có một bản sao miễn phí
Điều chúng ta nên nói là một dự án công khai do cộng đồng vận hành cùng nhau thực hiện tiền huấn luyện và huấn luyện
Điều đó có nghĩa là xử lý tập ngữ liệu huấn luyện một cách công khai và điều phối công việc huấn luyện bằng cách nào đó
Đây là thay đổi hoàn toàn ý nghĩa của thuật ngữ, và cũng giống như việc người ta trộn lẫn vi phạm bản quyền với hành vi trộm cắp
Chúng là những thứ khác nhau, nên cần dùng từ khác nhau
Weights miễn phí, mã suy luận và chat template rất khác với một dự án LLM do cộng đồng vận hành
Ai sẽ tài trợ?
Chi phí huấn luyện đắt đến mức khó tưởng tượng
Hoặc là mô hình vốn VC nhắm đến lợi nhuận đầu tư, hoặc là mô hình tài trợ của CCP nhằm củng cố mô hình xã hội Trung Quốc mang tính độc đoán, ngoài ra hầu như không có gì khác
Có thể có dạng mô hình 4B của đại học, nhưng có vẻ khó đi được xa
Mỗi ngày tôi đều ngạc nhiên khi chiếc máy Linux của mình mang lại trải nghiệm gần như tương đương với các hệ điều hành do hai công ty nghìn tỷ đô tạo ra
Thậm chí nó còn làm được những điều mà các lựa chọn thương mại kia không làm được
Nếu DeepSeek thật sự tung ra mô hình với chi phí chỉ bằng 1/10 đối thủ phương Tây và với số nhân viên chỉ bằng một phần nhỏ, thì điều đó có thể cho thấy tồn tại một thị trường cho ai đó cung cấp lựa chọn thay thế trong lĩnh vực này
Tôi nghĩ đến lý do các công ty như IBM sẵn sàng đóng góp cho Linux rồi phát hành miễn phí các đóng góp đó
Vì họ là một phần của nhóm nhà tài trợ doanh nghiệp cần một giải pháp thay thế cho các tay chơi thương mại đang thống trị thị trường hơn
Lý do Meta gần như phát hành React miễn phí cũng tương tự
Việc React trở thành tiêu chuẩn và có thể tuyển người đã biết sẵn nó sẽ có lợi cho Meta hơn
Khó hình dung ra lợi ích hệ sinh thái tương tự ở các mô hình AI hơn, nhưng biết đâu nó vẫn tồn tại ở đâu đó
Tôi có thể hình dung các nhà cung cấp datacenter/VPS tài trợ cho điều đó để giảm bớt quyền thương lượng của các công ty AI lớn
Tất nhiên sự lạc quan này cũng có thể chỉ là mơ mộng viển vông
Nếu những người tạo mô hình có thể cào dữ liệu từ công sức của người khác để huấn luyện rồi tẩy rửa thông tin thành của mình mà không cần trả lại gì cho người sáng tạo gốc, thì tôi không hiểu vì sao việc chưng cất mô hình lại phải là bất hợp pháp
Đây cũng chính là điều mà các nhà làm mô hình frontier đang làm với quyền sở hữu trí tuệ của người khác nói chung
Huấn luyện hiện nay đắt đến mức khó tưởng tượng
Nếu nhiều trường đại học góp tiền thì sao?
Nếu nhiều quốc gia góp tiền thì sao?
Cuối cùng rồi sẽ có đột phá và tối ưu hóa
Người ta từng nghi ngờ liệu một hệ điều hành mã nguồn mở có khả thi hay không, nhưng Linux trong nhiều thập kỷ đã là một lựa chọn thực tế cho môi trường desktop, còn với hệ điều hành máy chủ và điện thoại thì càng khỏi phải nói, nó được dùng rất rộng rãi
Dùng các mô hình cũ không có giá trị gì
Tuyên ngôn AI mã nguồn mở đòi hỏi rằng “AI mã nguồn mở cũng phải bền vững về mặt kinh tế”, nhưng điều đó gần như chỉ là lối suy nghĩ đầy hy vọng
gpt-oss giờ đã cũ, nhưng khi mới ra thì khá ổn
Nemotron cũng chắc chắn, đặc biệt bản phát hành ultra gần đây rất tốt
Nvidia có câu chuyện thuyết phục hơn nhiều, nhất là khi so với các mô hình Trung Quốc, ở chỗ họ công khai không chỉ bản thân mô hình mà cả dữ liệu tiền huấn luyện và hậu huấn luyện
Thay vì nhận các mô hình mã nguồn mở như sản phẩm phụ từ doanh nghiệp, tôi hoàn toàn sẵn sàng trả 50 USD mỗi tháng để hỗ trợ một viện nghiên cứu AI mã nguồn mở
Làm sao biết được viện nghiên cứu AI mã nguồn mở đó rồi sẽ không bằng cách nào đó tách ra thành một công ty vì lợi nhuận?
Có lẽ chỉ cần bắt đầu dùng API của họ
Nó cũng không phải là sản phẩm phụ của doanh nghiệp
AI trọng số mở có thể không có động lực để đổ vốn lớn vào huấn luyện và nghiên cứu
Có thể sẽ xuất hiện những thứ như quỹ quyên góp, nhưng dĩ nhiên sẽ không thể sánh với mức tài trợ mà các phòng thí nghiệm frontier nhận được
Vì vậy, tôi nghĩ có thể AI không thể chỉ tồn tại chỉ với trọng số mở
Các tay chơi lớn như OpenAI, Anthropic, Google sẽ vẫn tiếp tục tồn tại, và nhiều khả năng sẽ có các mô hình tốt hơn bản mã nguồn mở
Điều này có thể giống mối quan hệ giữa Photoshop và GIMP
Photoshop là các phòng thí nghiệm frontier, còn GIMP là các mô hình trọng số mở
GIMP đủ dùng cho nhiều quy trình chỉnh sửa ảnh khác nhau, nhưng Photoshop đơn giản là tốt hơn
Sẽ rất tuyệt nếu có mô hình trọng số mở tốt hơn các phòng thí nghiệm frontier, nhưng tôi không nghĩ điều đó khả thi
OpenAI và các hãng khác cũng có thể phát hành sản phẩm on-premises
Dù là rack appliance hay hình thức nào khác, các doanh nghiệp lớn sẽ muốn chạy suy luận cục bộ để đảm bảo chủ quyền dữ liệu và kiểm soát chi phí
Đặc biệt là khi đến lúc tích hợp AI vào sản xuất hoặc các mạng tách biệt vật lý khác
Hiện tại đang là một giai đoạn kiểu mở rộng thần tốc, nhưng trừ khi công nghệ đằng sau AI thực sự tiếp tục tiến hóa, việc tạo ra mô hình ngày càng tốt hơn sẽ dần khó hơn và lợi nhuận cận biên giảm dần sẽ xuất hiện
Nếu GIMP của thế giới LLM đạt 80% hiệu năng của mô hình được tài trợ bởi vốn VC thì với nhiều người như vậy đã đủ hữu ích
Dù thực tế là nó không tốt bằng mô hình độc quyền, chỉ riêng việc có lựa chọn dùng mô hình mã nguồn mở thôi cũng đã là một chiến thắng
Khi người ta nhận ra rằng không thể moi ra hàng nghìn tỷ USD từ người tiêu dùng, thì các mức định giá nghìn tỷ sẽ bị xem là vô nghĩa
Trong lúc đó, và dù sao đi nữa, nếu tối ưu phần mềm và mở rộng phần cứng vẫn tiếp tục, thì chẳng bao lâu nữa trọng số mở có năng lực vượt Fable sẽ chạy được trên thiết bị di động
Chỉ là tôi không biết điều đó sẽ thực tế như thế nào
Một số mô hình AI lớn đến mức chỉ có thể chạy một cách hợp lý trong các trung tâm dữ liệu hyperscale tiên tiến nhất
Việc công bố mã nguồn mở cho những mô hình như vậy nhìn chung là vô nghĩa
Quy mô đó còn lớn hơn rất nhiều so với những mô hình công khai lớn nhất hiện nay, đến mức ngay cả suy luận chậm trên các cụm tạm thời nhỏ và rẻ cũng không khả thi
Fable có lẽ đã ở điểm đó rồi
Tôi đồng ý với tinh thần và sứ mệnh, nhưng mục tiêu này giờ không thể tách rời khỏi chính trị
Việc là Open Source(tm) không ngăn được chính phủ hay các chủ thể khác kiểm soát silicon hoặc những gì silicon đó có thể làm, và chuyện đó đã và đang xảy ra trên khắp thế giới
Dù mô hình có là mã nguồn mở thì cũng không giải quyết được quy định hay các động lực kinh tế
Đây không phải vấn đề có thể nén lại trong vài đoạn văn
AI là hạ tầng ở cấp độ văn minh, và cần một giải pháp ở cấp độ văn minh chứ không chỉ là mã nguồn
Ai cũng biết các công ty AI đã lấy dữ liệu trái phép để huấn luyện, nhưng sẽ chẳng có chuyện gì xảy ra
Đây là một ví dụ trắng trợn về việc pháp luật được áp dụng theo giai cấp
Lý do để họ tùy tiện áp dụng luật của chính mình lúc nào cũng sẽ là an ninh quốc gia
Vì họ sở hữu hạ tầng, nên lợi ích của họ cũng sẽ trở thành an ninh quốc gia
Mỗi khi công nghệ có một bước nhảy lớn thì cục diện có thể bị xáo trộn, nhưng chủ nghĩa tư bản tài chính sẽ nhanh chóng thích nghi và hấp thụ làn sóng đó
Nếu bài viết chưa đề cập thì việc phân biệt giữa mã nguồn mở và trọng số mở là rất quan trọng
Các mô hình trọng số mở gần như giống một thứ ma túy nhập môn kiểu liều đầu miễn phí
Ít nhất là nếu không có dữ liệu huấn luyện gốc, khả năng nâng cấp chúng một cách có ý nghĩa sẽ quá hạn chế, nên chúng sẽ nhanh chóng bị bỏ lại phía sau so với các mô hình mới nhất được phát triển liên tục
Khi đó người dùng sẽ lại thèm đợt công bố tiếp theo hoặc quay về API của nhà cung cấp
Chỉ cần đơn giản đẩy mốc thời gian kiến thức lên phía trước thôi cũng đã cải thiện trải nghiệm người dùng một cách rõ rệt, chưa kể đến suy luận, huấn luyện có nhận biết lượng tử hóa và nhiều cải tiến khác sẽ còn xuất hiện
Có thể làm nghiên cứu để cải thiện các mô hình trọng số mở, nhưng kết luận vẫn vậy
Nếu không phải mã nguồn mở thì lợi ích mang lại cho công chúng nói chung sẽ nhỏ hơn nhiều
AI mã nguồn mở theo định nghĩa là không thể thắng tuyệt đối
AI ngày nay rốt cuộc gần với tối ưu leo đồi hơn, và các phòng thí nghiệm đóng có thể hấp thụ mọi thứ mà thế giới mở làm được rồi tiếp tục xây thêm lên trên
Trong phần lớn trường hợp sử dụng, đây không phải vấn đề lớn, vì AI đang vận hành theo kiểu bão hòa năng lực
https://www.delanceyukschoolschesschallenge.com/the-rising-t...
Ngoại lệ chỉ là những lĩnh vực vốn dĩ đối kháng với tự nhiên hay với người khác, nơi ưu thế so với đối thủ là quan trọng
Chiến thắng lớn thứ hai có lẽ sẽ là khi người bình thường có thể chạy nó trên phần cứng của chính mình
Microsoft có thể học từ Linux bao nhiêu cũng được, nhưng Linux không chỉ giữ được tính liên quan bất chấp các đối thủ thương mại, mà khác với những trường hợp như thị phần hiện tại của Firefox, giờ đây còn trở thành hệ điều hành phổ biến áp đảo nhất
Có vẻ khả năng hấp thụ mọi ý tưởng hay dữ liệu từ một hệ thống công khai không phải là yếu tố quyết định duy nhất
Hiện tại Fable và Mythos đang ở đỉnh cao công nghệ, nhưng chẳng bao lâu nữa chúng sẽ trở thành hàng hóa phổ thông
Cứ mỗi một công ty như OpenAI/Anthropic cố dẫn trước bằng mô hình mới nhất, sẽ có khoảng một trăm công ty muốn biến các phần bổ trợ của chúng thành hàng hóa phổ thông
Chiến thắng của mã nguồn mở chỉ cần có ít nhất một phương án thay thế cho mô hình đóng tốt cỡ GPT-4 là đủ
Thực ra với các mô hình Google Gemma, chúng ta gần như đã tới điểm đó rồi
Với tư cách là một kỹ sư phần mềm, sau Sonnet tôi không còn cảm nhận được khác biệt về năng suất của mình nữa
Tất nhiên Opus tốt hơn và Fable sẽ còn tốt hơn, nhưng xét về giá trị kinh tế thì chúng ta đã chạm vào quy luật lợi suất giảm dần
Khi tôi dùng một trong những mô hình GPT đời đầu trong Cursor rồi chuyển sang Claude Code và Sonnet, tôi gần như có mức tăng năng suất gấp 5 lần
Trước Claude Code, tôi chỉ dùng AI cho những mẩu mã nhỏ, nhưng với Claude Code + Sonnet, tôi có thể giao hẳn cả các tác vụ con hoàn chỉnh
Dù vậy, tôi vẫn chưa tin tưởng đến mức giao cho Opus thực hiện trọn vẹn một tính năng từ đầu đến cuối
Tôi cũng không chắc một ngày nào đó điều đó sẽ xảy ra, và có thể thực ra cũng không cần như vậy
Các công ty đòi hỏi kỹ sư phần mềm phải có mức năng lực khá cao, nhưng vượt quá ngưỡng đó thì họ thực sự chẳng quan tâm nữa
Dù chênh lệch có lớn, họ cũng không nhận ra