- SimpleFold là mô hình dự đoán gấp cuộn protein đầu tiên dựa trên flow-matching do Apple công bố, đồng thời là framework mã nguồn mở dự đoán cấu trúc protein
- Thay vì thiết kế chuyên biệt theo miền phức tạp như trước đây, mô hình đạt hiệu năng cao chỉ với các lớp Transformer tổng quát và huấn luyện sinh bằng flow-matching
- Được huấn luyện với 3B (3 tỷ) tham số, đây là một trong những mô hình lớn nhất từng có và cho thấy năng lực cạnh tranh với các mô hình SOTA (tân tiến nhất) trên các benchmark công khai
- Không có các mô-đun cấu trúc phức tạp (triple attention, biểu diễn cặp, v.v.), nên hiệu quả hơn và thuận lợi cho việc mở rộng sang các bộ dữ liệu lớn
- Có thể tinh chỉnh và huấn luyện lại mô hình bằng dữ liệu tùy chỉnh của người dùng, nên khả năng ứng dụng thực tế trong tin sinh học/dược phẩm và nhiều lĩnh vực khác rất cao
Giới thiệu và ý nghĩa của SimpleFold
- SimpleFold là mô hình dự đoán gấp cuộn protein đầu tiên dựa trên flow-matching do Apple giới thiệu
- Khác với các mô hình tiêu biểu trước đây, nó chỉ sử dụng các lớp Transformer tổng quát mà không cần triangle attention phức tạp hay thiên lệch biểu diễn cặp (pair)
- Được huấn luyện với mục tiêu sinh flow-matching, mô hình cho thấy hiệu năng mạnh không chỉ với một cấu hình đơn mà cả trong dự đoán ensemble
- Được mở rộng tới quy mô 3B tham số, mô hình được huấn luyện ở quy mô lớn bằng cách kết hợp hơn 8,6 triệu dữ liệu protein với dữ liệu PDB dựa trên thực nghiệm
- Đây là mô hình gấp cuộn protein có quy mô lớn nhất từng được công bố cho đến nay
Tính năng và ưu điểm chính
- Tính tổng quát: có thể áp dụng cho nhiều miền và bộ dữ liệu khác nhau mà không bị ràng buộc
- Hiệu quả: do không có các thành phần chuyên biệt theo miền phức tạp, mô hình có lợi thế về tốc độ huấn luyện/suy luận và kích thước
- Khả năng mở rộng: cung cấp nhiều kích cỡ từ 100M đến 3B tham số, hỗ trợ cả GPU và MLX (PyTorch/Apple hardware)
- Huấn luyện sinh: hỗ trợ dự đoán ensemble để tạo ra nhiều kết quả dự đoán cùng lúc
- Hỗ trợ dữ liệu người dùng: có thể tự do huấn luyện lại, tinh chỉnh và tùy biến bằng bộ dữ liệu riêng
Ví dụ sử dụng và các nội dung được hỗ trợ
- Cung cấp ví dụ Jupyter Notebook (
sample.ipynb), cho phép dự đoán cấu trúc ngay với chuỗi protein đầu vào thực tế
- Suy luận hiệu năng cao: trong giao diện dòng lệnh có thể chọn kích thước mô hình, chỉ định backend suy luận (MLX, PyTorch), và trả về tệp kết quả cùng chỉ số độ tin cậy (pLDDT)
- Kết quả trên bộ dữ liệu benchmark: cung cấp và công khai kết quả dự đoán của SimpleFold trên các tập đánh giá chuẩn như CAMEO22, CASP14
- Đánh giá: cung cấp script đánh giá kết nối với các công cụ hiện có như OpenStructure và TMscore, cho phép đánh giá đa dạng về dự đoán cấu trúc
Huấn luyện và chuẩn bị dữ liệu
- Dữ liệu huấn luyện sử dụng dữ liệu thực nghiệm PDB cùng hơn 8,6 triệu cấu trúc protein đã được tinh lọc từ AFDB SwissProt/AFESM/AFESM-E, v.v.
- Đồng thời công khai danh sách dữ liệu (target list) và các tệp mẫu để hỗ trợ nhà nghiên cứu xây dựng bộ dữ liệu tùy chỉnh
- Có thể dễ dàng thiết lập môi trường thí nghiệm bằng tiền xử lý tệp MMCIF, sử dụng Redis và tệp cấu hình dựa trên Hydra
- Cung cấp các script huấn luyện ví dụ (
train.py, train_fsdp.py) và cấu hình (config)
Mã nguồn mở và trích dẫn
- Được phát hành theo giấy phép MIT, cho phép tự do sử dụng trong nghiên cứu/thương mại ở bất cứ đâu
- Mã nguồn và mô hình bao gồm đóng góp từ nhiều dự án mã nguồn mở và cộng tác viên; xem thêm chi tiết trong ACKNOWLEDGEMENTS
- Khi sử dụng, hãy trích dẫn bài báo arXiv (Arxiv:2509.18480)
Kết luận
- SimpleFold đưa ra một mô hình mới cho ngành khi thay thế cấu trúc phức tạp mà các mô hình dự đoán cấu trúc protein trước đây phụ thuộc vào bằng một cách tiếp cận đơn giản nhưng mạnh mẽ
- Đặc biệt, sự kết hợp giữa kiến trúc Transformer tổng quát và huấn luyện sinh mở ra kỳ vọng cho nhiều ứng dụng sáng tạo đa dạng trong khoa học sự sống, phát triển thuốc và tin sinh học
1 bình luận
Ý kiến trên Hacker News
Điểm dễ bỏ sót ở đây là mô hình “đơn giản” này thực ra không phải học cách gấp từ các cấu trúc thực nghiệm một cách thuần túy. Phần lớn dữ liệu huấn luyện đến từ các dự đoán kiểu AlphaFold, tức là từ hàng triệu cấu trúc protein do các mô hình khổng lồ, phức tạp và dựa trên MSA tạo ra. Nói cách khác, không phải là có thể vứt bỏ toàn bộ inductive bias và các công cụ MSA; vẫn phải có ai đó xây dựng và chạy những mô hình đó để tạo dữ liệu huấn luyện
Bài học tôi rút ra ở đây là tính đơn giản và khả năng mở rộng. Trong ML, thường sẽ xuất hiện ngày càng nhiều mô-đun phức tạp để đẩy hiệu năng lên, rồi đột nhiên lại có một bước đột phá với mô hình đơn giản đạt mức ngang ngửa mô hình phức tạp. Việc các kiến trúc “đơn giản” như vậy tự thân đã hoạt động tốt đến thế cũng có nghĩa là nếu đưa thêm độ phức tạp trở lại thì có thể còn tiến xa hơn nữa. Giờ tôi khá tò mò liệu có thể đưa MSA vào lại hay không, và nếu làm vậy thì sẽ đi được tới đâu. Theo cách tôi hiểu, mô hình sinh “thô” sẽ đưa ra vài phỏng đoán khá ổn, rồi các “bộ kiểm chứng” chính thức hơn sẽ đảm bảo tuân thủ các quy luật vật lý/hình học. AI giúp thu hẹp không gian tìm kiếm khổng lồ đến mức khó tưởng tượng, từ đó giảm việc các mô phỏng đắt đỏ bị lãng phí vào những vùng vô ích. Khi mạng lưới phỏng đoán được cải thiện thì toàn bộ quy trình sẽ nhanh hơn. Nhìn lại quá khứ, tôi nhớ đến các mạng hồi quy với hàm truyền ngày càng phức tạp, các chuỗi tiền xử lý phức tạp trước thời skip-forward layer, các mục tiêu chuẩn hóa phức hợp trước ReLU, các mạng GAN với mục tiêu phức hợp trước diffusion, hay các mô hình multipath phức tạp trước fully convolutional network. Theo nghĩa đó, tôi cực kỳ hào hứng với nghiên cứu này không phải vì nó là kiến trúc tối ưu, mà đúng hơn là vì nó chưa phải vậy
Tôi không chắc chuyện này có gì quá lạ. Hầu như mọi thứ đơn giản đều từng được xem là phức tạp. Emergence vốn là như vậy, và để tìm ra công thức tổng quát, đơn giản thì thường phải đi qua toàn bộ sự phức tạp trước đã. Việc các hiện tượng tự nhiên thực ra xuất phát từ những quy tắc tương đối đơn giản là điều quá rõ ràng. Nó giống như suy ngược ra quy tắc và giá trị khởi đầu của Game of Life. Ai nói chuyện đó là dễ thì hơi quá tự tin. Nhưng chắc cũng chẳng mấy ai thật sự tin rằng P=NP
AlphaFold là một mô hình đã được kiểm chứng bằng cách quan sát thực nghiệm các protein đã gấp bằng tia X
Đúng vậy. Nói thêm cho ai chưa biết, MSA được dùng khi tổng quát hóa từ các cấu trúc PDB sẵn có sang chuỗi mới. Nếu huấn luyện bằng kết quả AlphaFold2 thì phần tổng quát hóa đó đã được bao gồm sẵn trong dữ liệu huấn luyện, nên giờ mô hình không còn cần chính khả năng đó nữa (chỉ cần ghi nhớ là đủ). Có vẻ như kết luận đơn giản này đã bị các tác giả bài báo bỏ qua
Tôi biết đến protein folding lần đầu qua dự án Folding@Home(https://foldingathome.org) hồi còn ở ký túc xá đại học, khi điện gần như miễn phí và máy chủ media thì dư thừa. Tôi không phải chuyên gia, nhưng khá tò mò liệu trên phần cứng ngày nay thì protein folding đã được đơn giản hóa nhiều so với trước kia chưa, hay chỉ áp dụng cho một số bài toán cụ thể. Có vẻ như dự án Folding@Home vẫn còn tồn tại
Theo tôi biết, Folding@Home là bộ giải mô phỏng dựa trên vật lý, còn AlphaFold và các hậu duệ của nó (bao gồm cả thứ đang bàn ở đây) là phương pháp thống kê. Phương pháp thống kê rẻ hơn rất nhiều về mặt tính toán, nhưng vì dựa trên các dạng gấp protein đã tồn tại nên khả năng dự đoán sẽ yếu nếu gặp protein không giống với tập huấn luyện. Nói cách khác, có sự đánh đổi giữa tốc độ và tính tổng quát, nhưng hiệu năng đã tăng đủ cao để trong phần lớn trường hợp có thể suy ra cấu trúc gấp của protein mong muốn. Dự đoán gấp protein, thứ trước đây gần như bất khả thi, giờ đã trở thành một phần của workflow thông thường
Tôi cũng thích SETI@Home, và dù không hiểu 100% kết quả là gì thì các hiệu ứng trực quan vẫn đủ nổi bật để thấy thú vị
Theo bài viết trên blog của F@H (liên kết), việc biết động lực học của quá trình gấp chứ không chỉ hình dạng cuối cùng vẫn rất quan trọng. Những protein được dự đoán bằng ML cũng vẫn là mục tiêu quan trọng cho mô phỏng nhằm kiểm chứng và hiểu cơ chế hoạt động
Folding@Home vẫn đang hoạt động rất tích cực và đã tạo ra nhiều khám phá tuyệt vời trong thời gian qua (liên kết bài báo/kết quả)
Bài báo này kiểu như “cách của chúng tôi đơn giản hơn mô hình state of the art”. Nhưng họ không nhấn mạnh rằng “nó kém state of the art đáng kể ở mọi thước đo”. Công bố bài báo vốn đã khó, nhưng nếu gắn tên một tập đoàn lớn rồi đưa lên dưới dạng preprint thì có vẻ dễ thu hút chú ý hơn
Kho GitHub được liên kết trong bài này rất đáng đọc (liên kết arXiv)
Chỉ nhìn phần tóm tắt thôi (nếu tôi hiểu đúng), thì ý là “AI vẫn cần, nhưng có thể dùng ít AI hơn rất nhiều so với các cách khác”
Chia sẻ thêm link GitHub cho ai quan tâm (apple/ml-simplefold)
Tôi tò mò vì sao Apple lại làm protein folding
Apple cũng có nhóm nghiên cứu ML. Họ không chỉ làm các nghiên cứu “rất Apple” mà còn theo đuổi nhiều chủ đề khác như tối ưu hóa tổng quát hay nghiên cứu nền tảng (Apple Machine Learning Research)
Tôi cũng không biết. Nhưng tôi muốn ứng tuyển vào một vị trí R&D nơi không cần kỳ vọng doanh thu trực tiếp. Có thể những dự án như thế này được dùng để thử nghiệm/tinh chỉnh chip AI nội bộ của họ
Tôi nghĩ là vì suy luận cục bộ. Có vẻ Apple muốn thu nhỏ các mô hình tiên tiến như thế này để có thể suy luận nhanh trên máy desktop. Trong bài báo, kết quả suy luận trên M2 Max 64GB xuất hiện ở Figure 1E. Thật ra đây là một ý tưởng tuyệt vời. Các công ty dược nhỏ cũng có thể vượt qua nhiều rào cản nhờ khả năng suy luận cục bộ nhanh. Họ còn có thể thử Bayesian optimization hoặc RL trên các chuỗi được sinh ra. So ra thì AlphaFold cần khá nhiều tài nguyên. Ngoài ra, việc dùng multiple sequence alignment bản thân nó cũng hơi gượng ép, hiệu năng lại kém nếu không có protein tương tự, và còn đòi hỏi rất nhiều tiền xử lý. ESM của Meta (vài năm trước) cũng đã chứng minh rằng không cần alignment vẫn làm tốt. AlphaFold không có phép màu đặc biệt gì; rốt cuộc đây chỉ là một bài toán seq2seq nên có nhiều cách đều hoạt động tốt, kể cả attention-free SSMs.
Để bán máy tính chăng? Khoảng 20 năm trước Apple còn có cả các poster session khoa học ở WWDC và từng nỗ lực port PyMol lên Mac. Các hình protein trong bài báo được tạo bằng PyMol, và hơn một nửa hình ảnh trong các bài báo khoa học suốt 15 năm qua được tạo bằng PyMol
Tôi không biết có phải lý do thật không, nhưng khá nhiều dự án “ai for science” thực chất là để marketing. Dù không mang lại lợi ích trực tiếp cho sản phẩm công ty hay kết quả thực chất nào, các dự án như vậy vẫn giúp “đẳng cấp thương hiệu” rất nhiều
Kể từ khi AlphaFold được công bố, tôi tự hỏi liệu mô phỏng molecular dynamics (MD) cổ điển trong lĩnh vực protein folding có còn hữu ích nữa không. Tôi cũng tò mò nghiên cứu từ những nơi như DESRES có còn liên quan trực tiếp đến protein folding hay là họ đang làm một hướng hoàn toàn khác
MD xử lý chuyển động của các nguyên tử, còn AlphaFold chỉ cung cấp ảnh chụp kết quả cuối cùng. Nghĩa là AlphaFold không xử lý động lực học. Điểm cốt lõi của MD vẫn là chuyển động
Tôi đi tra thử vì tò mò và phát hiện tham số của AlphaFold V3 chỉ được cấp cho một số tổ chức nhất định (chỉ cho mục đích phi thương mại), không phải ai cũng nhận được (tham số V3), trong khi AlphaFold V2 thì ai cũng có thể tải về (tham số V2)
MD vốn dĩ chưa bao giờ là phương pháp thực sự phù hợp cho dự đoán cấu trúc. Không phải vì AlphaFold mà nó trở nên vô dụng; từ trước đến nay MD vốn phù hợp hơn để nghiên cứu chính quá trình gấp protein (diễn tiến trước khi hình thành cấu trúc cuối cùng, hoặc các chuyển động có hệ thống sau khi đã gấp)
Tôi đi tìm xem hình protein trong bài báo là gì: “Figure 1 SimpleFold prediction results… kết quả thực tế là màu ngọc lục bảo sáng, dự đoán là màu xanh teal đậm”. Nhưng rồi tôi lại càng tò mò hơn vì sao họ chọn phối màu như vậy
Tôi muốn nghe một chuyên gia đánh giá ý nghĩa của cách tiếp cận này đối với nghiên cứu protein folding. Trông có vẻ là nghiên cứu hay, nhưng tôi không rõ tác động thực tế sẽ là gì
Mô hình này có biểu diễn đơn giản nên chỉ dùng transformer. Có thể áp dụng trực tiếp nhiều lý thuyết và công cụ dành cho transformer, và quan trọng nhất là dễ mở rộng mô hình. Điều còn quan trọng hơn là nó cho thấy AlphaFold không hề có “ma thuật” gì. Cái quyết định không nằm ở chi tiết kiến trúc hay cách huấn luyện, mà cuối cùng vẫn là huấn luyện mô hình lớn trên tập dữ liệu lớn. Nhiều người từng thử AlphaFold trong thực tế cũng quan sát thấy nó hoạt động khá giống LLM (khớp tốt với đầu vào giống dữ liệu huấn luyện, nhưng gần như không tổng quát hóa)
Có thể tương lai mô hình sẽ còn thay đổi. Có một ý kiến đáng tham khảo về việc này (SimpleFold và tương lai của dự đoán cấu trúc protein). Nhưng nghiên cứu lúc nào cũng cần thời gian, và tác động thực tế phải sau vài tháng hoặc vài năm mới biết được. Khả năng dự đoán tương lai vốn có giới hạn
Không phải hoàn toàn mới, nhưng việc thấy các mô hình protein folding ngày càng được đơn giản hóa là rất ấn tượng. Từ AF2 sang AF3 độ phức tạp mô hình cũng đã giảm, và nghiên cứu này tiến thêm một bước nữa theo đúng “bitter lesson”
Kỹ thuật Flow-matching được nói đến trong bài báo thật sự rất thú vị. Tôi biết đến nó khi học trong bối cảnh generative AI, nên thấy thật lạ khi một kỹ thuật vay mượn từ các khái niệm nhiệt động lực học và chuyển động Brown lại được dùng quá hợp để giải bài toán protein folding