- Google DeepMind đã công bố mô hình AI cho trình tự DNA mới mang tên AlphaGenome
- Mô hình này có thể nâng cao độ chính xác trong dự đoán tác động của các biến thể điều hòa gen và dự đoán nhiều quá trình điều hòa gen khác nhau
- Điểm nổi bật là có thể nhận đầu vào là trình tự DNA dài tới 1 triệu cặp bazơ và dự đoán nhiều hiện tượng sinh học ở độ phân giải cao
- Khác với các mô hình trước đây, nó có thể đánh giá tác động của biến thể trên nhiều mô sinh học và loại tế bào khác nhau trong một lần
- AlphaGenome được kỳ vọng sẽ giúp các nhà nghiên cứu hiểu rõ hơn về chức năng gen và sinh học bệnh tật, đồng thời thúc đẩy việc khám phá các liệu pháp mới
Giới thiệu AlphaGenome
- Google DeepMind đã công bố mô hình AI cho trình tự DNA mới mang tên AlphaGenome
- Bằng cách dự đoán chính xác tác động của các biến thể đơn lẻ hoặc đột biến ảnh hưởng đến điều hòa gen, mô hình này tạo ra một bước ngoặt quan trọng cho nghiên cứu chức năng bộ gen và hiểu biết về bệnh tật
- Có thể dùng thử trước qua API cho mục đích nghiên cứu, và công ty cũng có kế hoạch công bố thêm mô hình trong tương lai
Cách AlphaGenome hoạt động
- AlphaGenome nhận đầu vào là các trình tự DNA dài tối đa 1 triệu cặp bazơ và dự đoán nhiều đặc tính phân tử khác nhau
- Các đặc tính có thể dự đoán bao gồm hàng nghìn yếu tố như vị trí gen, lượng RNA tạo ra, khả năng truy cập DNA, vị trí liên kết protein
- Mô hình được huấn luyện bằng các bộ dữ liệu công khai quy mô lớn như ENCODE, GTEx, 4D Nucleome, FANTOM5
- Bên trong, mô hình dùng các lớp tích chập để phát hiện trước các mẫu ngắn, sau đó dùng Transformer để kết hợp thông tin trên toàn bộ trình tự rồi tạo ra nhiều giá trị dự đoán khác nhau
- Xử lý khối lượng tính toán lớn trong môi trường TPU phân tán để tăng hiệu quả huấn luyện
- Phát triển từ mô hình Enformer trước đó, và khác với AlphaMissense chỉ dành cho vùng mã hóa protein, mô hình này phân tích toàn diện cả vùng không mã hóa (98% toàn bộ bộ gen)
Điểm khác biệt của AlphaGenome
- Phân tích trình tự tầm xa ở độ phân giải siêu cao: phân tích ở quy mô 1 triệu cặp bazơ và cung cấp kết quả với độ chính xác đến từng bazơ
- Có hiệu quả huấn luyện cao hơn các mô hình hiện có, học nhanh hơn với ít tài nguyên hơn
- Dự đoán đa phương thức tích hợp: đồng thời dự đoán thông tin ở nhiều giai đoạn điều hòa gen trong một mô hình
- Chấm điểm biến thể hiệu quả: so sánh ngay giữa trình tự biến thể và trình tự bình thường để nhanh chóng tính toán mức độ ảnh hưởng của biến thể lên nhiều hiện tượng sinh học
- Mô hình hóa điểm nối splicing đột phá: trực tiếp dự đoán vị trí splicing và mức biểu hiện gen, qua đó hỗ trợ cả nghiên cứu bệnh hiếm
Hiệu năng tiên tiến và kết quả benchmark
- AlphaGenome đạt hiệu năng vượt trội hoặc tương đương các mô hình tốt nhất bên ngoài trong 22 trên 24 benchmark dự đoán bộ gen và 24 trên 26 bài đánh giá tác động điều hòa của biến thể
- Đây là mô hình duy nhất có thể đồng thời dự đoán nhiều dạng đặc tính sinh học bằng một lần gọi API duy nhất, thay vì cần các mô hình chuyên biệt cho từng tác vụ
Ưu điểm của mô hình tích hợp
- Có thể xử lý tích hợp nhiều modality, giúp nhà khoa học lặp lại nhanh nhiều giả thuyết và thí nghiệm khác nhau
- Học được biểu diễn tổng quát của trình tự DNA, nhờ đó cộng đồng có thể dễ dàng tiếp tục huấn luyện và tối ưu hóa
- Cung cấp tính linh hoạt và khả năng mở rộng để mở rộng thêm dữ liệu hoặc phạm vi ứng dụng
Ý nghĩa như một công cụ nghiên cứu mạnh mẽ
- Hiểu về bệnh tật: có khả năng được dùng để làm rõ nguyên nhân gây bệnh như các biến thể hiếm và tìm kiếm mục tiêu điều trị
- Sinh học tổng hợp: có thể dùng để thiết kế DNA tổng hợp với chức năng cụ thể
- Nghiên cứu cơ bản: hỗ trợ lập bản đồ các yếu tố chức năng cốt lõi của bộ gen và khám phá các yếu tố điều hòa theo từng loại tế bào
- Trên thực tế, AlphaGenome đã dự đoán rằng một biến thể liên quan đến T-ALL (bệnh bạch cầu lympho cấp) gây hoạt hóa gen TAL1 lân cận thông qua việc hình thành motif liên kết DNA của MYB, qua đó tái hiện thành công cơ chế tác động của biến thể đó lên gen gây bệnh
Các giới hạn hiện tại
- Việc xác định tác động của các yếu tố điều hòa rất xa cách hơn 100.000 bazơ vẫn là một thách thức
- Khả năng nhận diện các mẫu đặc thù theo tế bào và mô vẫn cần thêm nghiên cứu
- Hiện chưa xem xét mục đích dự đoán bộ gen cá nhân (chẩn đoán và dự đoán cá nhân hóa)
- Mô hình chỉ dự đoán ở cấp độ phân tử và không thể giải thích đầy đủ các nguyên nhân phức tạp của mọi loại bệnh
- Ở giai đoạn hiện tại mới chỉ là công bố phục vụ nghiên cứu, nên chưa thể đánh giá mức độ phù hợp lâm sàng trực tiếp hay áp dụng điều trị
Hỗ trợ cộng đồng và định hướng sắp tới
- API có thể được sử dụng ngay cho mục đích nghiên cứu phi thương mại, và có kế hoạch nâng cao mức độ ứng dụng của AlphaGenome thông qua hợp tác rộng rãi với cộng đồng nghiên cứu
- Công ty đang tiếp nhận phản hồi và các trường hợp sử dụng thông qua diễn đàn cộng đồng và các kênh tương tự
- Dự kiến sẽ phát triển thành các phiên bản mở rộng với nhiều dữ liệu, loài và modality hơn
- Được kỳ vọng sẽ thúc đẩy các đổi mới nghiên cứu mới trong y học và khoa học sự sống liên quan đến diễn giải bộ gen
Kết luận
- AlphaGenome là công cụ phân tích bộ gen dựa trên AI mới có thể diễn giải ý nghĩa của biến thể di truyền từ nhiều góc nhìn cùng lúc, qua đó thúc đẩy cả nghiên cứu cơ bản lẫn nghiên cứu lâm sàng
- Công ty có kế hoạch hợp tác với các nhóm chuyên gia bên ngoài để lan tỏa đổi mới dựa trên dữ liệu bộ gen đến nhiều người nhất có thể
2 bình luận
Tôi tò mò không biết tính đa phương thức của mô hình AI xử lý dự đoán gene bao gồm những phương thức nào, nên đã hỏi o3 thì được biết rằng các yếu tố như lượng phiên mã, vị trí bắt đầu và kết thúc phiên mã, splicing, v.v. được coi là các phương thức.
Ý kiến trên Hacker News
Đây có vẻ là một dấu hiệu cho thấy áp lực từ phía doanh nghiệp đang tăng lên: dù là mô hình có thể chạy trên một A100 đơn lẻ, họ vẫn không công bố mã nguồn hay tham số mà chỉ vận hành sau API, còn ở trang 31 của bài báo thì lại dán toàn bộ mô hình dưới dạng giả mã; chỉ mong Google/Demis/Sergei ít nhất hãy công bố tham số. Một mô hình nhỏ như vậy mà chỉ tồn tại sau API thì khó có thể chữa được cả ung thư, mà doanh thu GCloud từ nó có lẽ cũng chẳng lớn đến thế.
Nếu có đột phá trong lĩnh vực mô phỏng tế bào, ta có thể kỳ vọng triển khai được các mô phỏng hữu ích như động lực học phân tử nhưng ở mức mà siêu máy tính hiện đại có thể xử lý; việc không thể nhìn thấy điều gì đang xảy ra bên trong được xem là một trở ngại lớn của nghiên cứu khoa học sự sống.
Không chỉ DeepMind mới làm nghiên cứu ứng dụng AI có tác động lớn, nhưng tôi tò mò vì sao họ lại nổi bật hẳn trong lĩnh vực này. Là do marketing công nghệ quá giỏi, hay còn lý do nào khác?
Thử tưởng tượng mở rộng kích thước đầu vào lên 3.2Gbp, tức kích thước bộ gen người, thì có lẽ sẽ xuất hiện những tương tác rất thú vị; việc U-net và transformer đang trở thành trung tâm của nghiên cứu cũng là một điểm đáng chú ý.
Có lẽ trong nội bộ doanh nghiệp rồi cũng sẽ nảy ra ý tưởng dùng dữ liệu bộ gen để tăng hiệu quả quảng cáo; ví dụ nếu thấy nguy cơ ung thư đại tràng thì hiển thị quảng cáo “thực phẩm bổ sung cho sức khỏe đại tràng”, hoặc phân tích xu hướng từ thông tin di truyền để làm marketing kiểu “gen này có tương quan với xu hướng thích hài đen, hãy quảng bá phim mới cho những người mang gen này”.
Một bước nhảy lớn về hiệu năng dự đoán RNA có thể mang lại cơ hội lớn cho các phòng thí nghiệm mRNA.
Ngay sau khi vào Google năm 2008, tôi đã chủ trương đầu tư mạnh vào lĩnh vực khoa học sự sống. Tôi tin rằng Google có thể tạo ra kết quả đẳng cấp thế giới nhờ năng lực xử lý dữ liệu và ML, đồng thời giúp các nhà sinh học khác cũng tái lập được phương pháp đó. Thực tế, thông qua exacycle, họ đã tạo ra những kết quả thú vị trong gấp cuộn/thiết kế protein, rồi sau đó còn ra mắt Cloud Genomics để cung cấp dịch vụ lưu trữ/phân tích các tập dữ liệu lớn. Cuối cùng DeepMind đã hiện thực hóa mục tiêu tôi từng nghĩ đến theo một cách còn tuyệt vời hơn rất nhiều; bài báo gần đây có quá nhiều thứ để xem nên chắc cộng đồng sẽ cần thời gian để tiêu hóa.
Thật đáng thất vọng khi bài báo bỏ qua một trong những vấn đề lớn nhất: phân biệt đâu là biến thể thực sự có tính nhân quả và đâu là biến thể không có tính nhân quả trong các đoạn DNA có tương quan cao với nhau, điều mà di truyền học gọi là fine mapping. Việc thu hẹp chính xác vùng điều hòa cốt lõi là cực kỳ quan trọng để tìm ra mục tiêu thuốc hiệu quả. Một bài báo trên Nature gần đây có nêu ví dụ về vấn đề này và cả trường hợp kết nối tới ứng viên thuốc điều hòa chức năng đại thực bào trong bệnh tự miễn.