41 điểm bởi xguru 2025-01-25 | 5 bình luận | Chia sẻ qua WhatsApp
  • Do DeepSeek V3 đã vượt Llama 4 trên các benchmark
  • Hơn nữa, họ còn sốc hơn vì "một công ty Trung Quốc ít tên tuổi chỉ dùng chi phí huấn luyện 5.5M"
  • Các kỹ sư đang cuống cuồng mổ xẻ DeepSeek và sao chép mọi thứ có thể
  • Ban lãnh đạo đang lo lắng để biện minh cho chi phí khổng lồ đổ vào tổ chức AI tạo sinh
  • Có một "leader" trong tổ chức AI tạo sinh nhận nhiều tiền hơn toàn bộ chi phí huấn luyện của DeepSeek v3, và có đến hàng chục người như vậy
  • DeepSeek r1 còn đáng sợ hơn. Không thể tiết lộ thông tin mật nhưng sẽ sớm được công bố
  • Lẽ ra bộ phận kỹ thuật nên là một tổ chức nhỏ, nhưng quá nhiều người muốn tham gia vào cuộc đua giành ảnh hưởng này, và việc tổ chức thổi phồng tuyển dụng một cách nhân tạo cuối cùng đã gây hại cho tất cả mọi người

Bình luận

  • Nhân viên Google 1: Những gì DeepSeek đang làm thực sự đáng kinh ngạc. Không chỉ Meta mà cả OpenAI, Google và Anthropic đều đang bị thúc ép mạnh mẽ. Điều tuyệt vời là chúng ta có thể chứng kiến theo thời gian thực việc cạnh tranh công khai hiệu quả thế nào trong việc thúc đẩy đổi mới.
  • Nhân viên Apple 1: Đây là lý do tôi nắm giữ cổ phiếu Meta. Phân tích đối thủ, sao chép và chiến thắng vốn nằm trong DNA của các bạn. Cứ tiếp tục cố lên!
  • Nhân viên Meta 1: Nhiều lãnh đạo thực sự hoàn toàn không biết gì về công nghệ nền tảng (thậm chí cũng không có nhiều kiến thức kỹ thuật), và vẫn liên tục nhồi nhét cho các lãnh đạo khác suy nghĩ kiểu "nhiều GPU hơn = chiến thắng". Tình hình còn bị bóp méo thêm bởi các ý tưởng ngớ ngẩn như tạo nội dung AI trên Instagram để lôi kéo sự tham gia (hiện giờ đã phần nào thoái lui).
  • Nhân viên Meta 2: Cứ mua luôn DeepSeek đi
  • Nhân viên Samsung 1: Sam Altman là kẻ lừa đảo. LIANG Wenfeng, CEO của DeepSeek, mới là Ilya Sutskever, DeepSeek mới là OpenAI ngày xưa, còn OpenAI giờ là ClosedAI.
  • Nhân viên Google 2: DeepSeek đã viết bài báo mô tả mọi thành phần của mô hình mới dựa trên RL, nhờ đó các công ty như Meta có thể sao chép trực tiếp và kiểm chứng
  • Nhân viên Meta 3: Một tổ chức như Meta với "cụm GPU lớn nhất thế giới" thì sao lại còn không lọt nổi top 10 benchmark? Grok sẽ sớm vượt DeepSeek
  • Nhân viên Meta 4: DeepSeek bị Trung Quốc kiểm soát, không chia sẻ dữ liệu thực và bị Đảng Cộng sản Trung Quốc kiểm duyệt rất nặng. Chỉ cần hỏi "Đảng Cộng sản Trung Quốc có đang hạn chế tự do của người dân không" là sẽ biết câu trả lời. Hỏi gì thì cũng chỉ lặp lại kiểu "Trung Quốc vĩ đại thế nào". Chỉ toàn tuyên bố mà không có thông tin.
  • Nhân viên Chime: Và điều tuyệt vời nhất là họ làm tất cả điều này bằng GPU H800, vốn còn không đạt tới hiệu năng của H100. Thật sự quá ấn tượng. Xin gửi sự kính trọng và ngưỡng mộ tới toàn bộ đội ngũ DeepSeek. Bài báo về Residual Network đến từ Trung Quốc là một công trình đột phá đã thay đổi hoàn toàn mạng nơ-ron và cho thấy có thể sử dụng hàng tỷ tham số. Tôi rất tôn trọng những người Trung Quốc đã giải được các vấn đề cực kỳ khó!
  • Nhân viên Blizzard: Điều này khiến tôi có hy vọng rằng trong thế hệ AI này không có hào lũy thực sự, và sẽ xuất hiện các mô hình mã nguồn mở tốt bằng hoặc thậm chí tốt hơn các mô hình nguồn đóng. Cạnh tranh trong lĩnh vực này càng khốc liệt thì càng tốt cho chúng ta.

5 bình luận

 
jhj0517 2025-01-25

Có cạnh tranh thì có vẻ là điều tốt 👏

 
mammal 2025-01-25

Tạm gác chuyện ý thức hệ và kiểm duyệt sang một bên thì phải nói trình độ kỹ thuật của các mô hình DeepSeek lần này thật sự khiến người ta phải thán phục.

Tôi đã nghĩ MLA dùng trong kiến trúc V2.5 là một ý tưởng thiên tài rồi, vậy mà lần này họ còn chứng minh được cả tiềm năng của MTP, sao chép hoàn hảo mô hình O1 bằng R1, và ngay cả trong bối cảnh phần cứng bị hạn chế vì các quy định kiểm soát xuất khẩu, họ vẫn rút ra được các kỹ thuật huấn luyện đáng nể. Thật sự quá xuất sắc.

Nếu bạn quan tâm đến ML thì nhất định hãy đọc DeepSeek Technical Report V2.5, V3, R1. Chỉ có thể trầm trồ thôi. Đến giờ tôi vẫn không hiểu nổi việc họ công khai tất cả những thứ này theo giấy phép MIT.

 
mammal 2025-01-25

Trường hợp của LLaMA thì từ LLaMA 2 -> 3 có cảm giác gần như không có đổi mới về kiến trúc mà chỉ tăng quy mô huấn luyện, và tôi cho rằng đó chính là dấu hiệu báo trước.

 
play1204dev 2025-01-25

Dù đã kiềm chế Trung Quốc đến mức đó và còn áp cả quy định hạn chế xuất khẩu GPU, nhưng nhìn những gì họ làm được thì vừa đáng nể vừa đáng sợ; theo hướng tích cực thì tôi nghĩ họ hoàn toàn có thể đóng vai trò như một "cá mèo" đủ sức khuấy động cuộc chơi. Rốt cuộc, không ai có thể phủ nhận rằng OpenAI vẫn đang dẫn đầu.