- Các nhà sáng lập của Ligo Biosciences đã chia sẻ một bản triển khai mã nguồn mở của AlphaFold3, mô hình mới nhất để dự đoán cấu trúc protein
- Google DeepMind và startup mới của họ là Isomorphic Labs đang mở rộng kinh doanh sang phát triển thuốc
- Phát triển AlphaFold3 để tăng tốc phát triển thuốc và tạo ra nhu cầu từ các công ty dược phẩm
- Đã ký các hợp đồng trị giá 3 tỷ USD với Novartis và Eli Lilly
- AlphaFold3 là một mô hình dự đoán cấu trúc phân tử sinh học (biomolecular structure prediction) với 3 chức năng chính
- Dự đoán cấu trúc protein
- Dự đoán cấu trúc tương tác thuốc-protein
- Dự đoán cấu trúc phức hợp axit nucleic-protein
- AlphaFold3 rất quan trọng trong khoa học vì nó tăng tốc mạnh mẽ việc lập bản đồ cấu trúc protein
- Thay vì một nghiên cứu sinh tiến sĩ dành toàn bộ chương trình để nghiên cứu một cấu trúc, với AlphaFold3 có thể thu được dự đoán chỉ trong vài phút với độ chính xác tiệm cận thực nghiệm
- Vấn đề là DeepMind đã công bố AlphaFold3 vào tháng 5 nhưng không công khai mã nguồn
- Điều này làm dấy lên nghi vấn về khả năng tái lập và gây bất mãn trong cộng đồng khoa học
- AlphaFold3 là một bước tiến nền tảng trong công nghệ mô hình hóa cấu trúc mà toàn bộ ngành công nghệ sinh học có thể hưởng lợi, với phạm vi ứng dụng rất rộng
- Công nghệ chỉnh sửa gen CRISPR: các nhà khoa học có thể thấy chính xác DNA tương tác với protein Cas dạng kéo cắt như thế nào
- Nghiên cứu ung thư: có thể dự đoán thuốc tiềm năng gắn với mục tiêu ung thư như thế nào. Một điểm nhấn trong bài báo của DeepMind là dự đoán cấu trúc phức hợp giữa chất ức chế KRAS lâm sàng và mục tiêu của nó
- Dự đoán kháng thể/nanobody và mục tiêu: AlphaFold3 cải thiện độ chính xác gấp 2 lần so với công cụ đứng thứ hai cho lớp phân tử này
- Đáng tiếc là vì giấy phép phi thương mại nên không công ty nào có thể sử dụng
- Vì vậy họ đã phát hành bản triển khai mã nguồn mở của AlphaFold3
- Công khai toàn bộ mô hình được huấn luyện trên protein chuỗi đơn; hai chức năng còn lại sẽ sớm được huấn luyện và phát hành
- Bao gồm cả mã huấn luyện
- Trọng số sẽ được công khai sau khi hoàn tất huấn luyện và benchmark
- Sử dụng giấy phép Apache 2.0 để trở thành mã nguồn mở thực sự
- DeepMind đã công bố toàn bộ kiến trúc của mô hình trong bài báo cùng với mã giả cho từng thành phần
- Họ đã chuyển toàn bộ sang PyTorch, nhưng cần nhiều reverse engineering hơn mong đợi
- Trong giai đoạn xây dựng ban đầu, họ phát hiện nhiều vấn đề trong bài báo của DeepMind có thể cản trở việc huấn luyện. Đây có lẽ là điều cộng đồng deep learning sẽ thấy thú vị
- Tỷ lệ scale của hàm mất mát MSE khác với Karras et al. (2022). Các trọng số được nêu trong bài báo không làm giảm loss ở mức nhiễu cao
- Bài báo bị thiếu residual layer
- Khi thêm residual layer bị thiếu, họ thấy có lợi cho gradient flow và hội tụ
- Họ thắc mắc có ai biết vì sao DeepMind lại bỏ residual connection trong khối DiT hay không
- Dạng hiện tại của mô-đun MSA có dead layer
- Pair weighted averaging và transition layer cuối cùng không thể đóng góp vào pair representation nên gradient không lan truyền được
- Họ đã thay bằng thứ tự giống ExtraMsaStack của AlphaFold2
- Dùng weight sharing cũng có thể là một phương án, nhưng bài báo mô tả khá mơ hồ về điểm này
- Tại Ligo (YC S24), họ đang sử dụng các ý tưởng của AlphaFold3 để thiết kế enzyme
- Họ coi việc mã nguồn mở hóa AlphaFold3 là một sứ mệnh phụ để giúp ích cho cộng đồng
Ý kiến của GN⁺
- AlphaFold3 là công nghệ đột phá trong lĩnh vực dự đoán cấu trúc protein và được kỳ vọng sẽ có ảnh hưởng lớn tới phát triển thuốc cùng nghiên cứu khoa học sự sống
- Tuy nhiên, việc DeepMind không công khai mã nguồn có thể bị xem là đi ngược lại tinh thần tái lập và hợp tác của cộng đồng khoa học
- Các dự án mã nguồn mở có chức năng tương tự AlphaFold3 gồm OpenFold, RoseTTAFold, v.v.
- Khi áp dụng AlphaFold3, cần xem xét kỹ độ chính xác và giới hạn của mô hình cũng như yêu cầu về tài nguyên tính toán
- Sự xuất hiện của các bản triển khai mã nguồn mở giúp nhiều nhà nghiên cứu và doanh nghiệp hơn có thể hưởng lợi từ AlphaFold3, nhưng thương mại hóa vẫn còn bị ràng buộc
1 bình luận
Ý kiến trên Hacker News
DeepMind và AlphaFold đang chuyển sang mô hình mã nguồn đóng
Tôi tò mò các dự đoán được kiểm chứng như thế nào
Tôi tò mò liệu có kế hoạch xuất bản một bài báo về phần triển khai này hay không
Tôi vui vì giờ có thể dùng phiên bản mở này trong môi trường thương mại
Có lẽ nên đổi tên phần triển khai này
Bản thân mã mô hình chỉ là một phần nhỏ của thách thức
Tôi từng có một khoảng thời gian ngắn trải nghiệm về proteomics tính toán
Ai mà ngờ chỉ công bố mã giả thôi là không đủ
Tôi tự hỏi bạn có quen với ColabFold không
Tôi tò mò bước tiếp theo là gì