Claude Science ra mắt beta công khai
(claude.com)- Claude Science là một ứng dụng beta công khai được thiết kế để các nhà nghiên cứu khoa học sự sống có thể liền mạch thực hiện phân tích, tìm kiếm cơ sở dữ liệu, tiền xử lý dữ liệu và viết kết quả trong một workbench duy nhất
- Hình ảnh, bảng và notebook lưu kèm mã đã tạo, môi trường thực thi và lịch sử hội thoại, để sau này có thể tái lập, chỉnh sửa và kiểm chứng
- Chạy trên notebook cục bộ, máy Linux, node đăng nhập HPC và VM trên cloud; hỗ trợ gửi và quản lý job qua SSH, Slurm và Modal
- Nhắm tới các lĩnh vực genomics, single-cell, proteomics, structural biology và cheminformatics; có thể kết nối với hơn 60 cơ sở dữ liệu khoa học và công cụ NVIDIA BioNeMo
- Có thể sử dụng trên macOS và Linux với các gói Pro, Max, Team, Enterprise, nhưng vì là ứng dụng beta nên cần xem xét tài liệu và thiết lập quản trị trước khi triển khai trong tổ chức
Workbench Claude cho nghiên cứu khoa học
- Claude Science không phải là một mô hình mới mà là một ứng dụng beta công khai, sử dụng các mô hình Claude hiện có trong gói của người dùng
- Phần mới được bổ sung là các công cụ khoa học xung quanh Claude, kết nối cơ sở dữ liệu và tích hợp compute, cho phép chạy toàn bộ phân tích trên hạ tầng của người dùng
- Được cung cấp cho macOS và Linux, với hướng dẫn tải xuống cho từng hệ điều hành trên trang
- Mục tiêu là gom cơ sở dữ liệu khoa học, công cụ nghiên cứu, ELN, mô hình protein/cấu trúc và HPC vào một research workbench duy nhất
Kết quả có thể tái lập và luồng rà soát
- Claude Science cho phép xem native protein, cấu trúc, phân tử, v.v. và có thể truy vết kết quả đến tận mã đã tạo
- Hình ảnh, bảng và notebook được lưu cùng các thông tin sau
- Đoạn mã chính xác đã tạo ra kết quả
- Môi trường thực thi
- Cuộc hội thoại đã tạo ra kết quả
- Các kết quả đã lưu có thể được tái lập, chỉnh sửa và bảo vệ ngay cả sau vài tháng
- Có thể xem protein, alignment, track hệ gen, cấu trúc hóa học và PDF ở định dạng native mà không cần cài đặt thêm
- Reviewer chạy nền đánh dấu các trích dẫn sai, số liệu không thể truy vết và hình ảnh không khớp với mã nền tảng
- Người dùng có thể chú thích trực tiếp lên hình để yêu cầu chỉnh sửa hoặc đặt câu hỏi, và agent sẽ đọc mã đã tạo ra hình đó để sửa trực tiếp
- Việc viết kết quả phân tích có thể được thực hiện trong khi xem bản xem trước Markdown đã render và LaTeX
Compute và môi trường thực thi
- Quản lý môi trường thực thi cần thiết cho từng phân tích; vị trí thực thi có thể là notebook, máy Linux hoặc node đăng nhập HPC
- Sau khi viết batch script, có thể gửi và quản lý qua SSH trên máy của người dùng hoặc cụm HPC, hoặc chạy job bằng tài khoản Modal
- Vị trí cài đặt có thể được chọn theo nơi dữ liệu đang nằm
- Notebook
- Máy Linux trong phòng thí nghiệm
- Node đăng nhập HPC
- VM trên cloud
- Có thể kết nối và sử dụng từ trình duyệt
- Job chạy trên kernel cục bộ, cụm Slurm qua SSH hoặc tài khoản Modal
- Biến, dataframe và mô hình đã nạp được giữ trong bộ nhớ xuyên suốt toàn bộ phân tích, giúp lặp lại thao tác nhanh hơn
Công việc theo từng miền khoa học sự sống
- Claude Science hỗ trợ genomics, single-cell, proteomics, structural biology, cheminformatics, v.v.; có thể đọc tài liệu và truy vấn hơn 60 cơ sở dữ liệu khoa học
- Các ví dụ sử dụng chính gồm
- Phân tích single-cell RNA-seq: phân cụm và chú thích hàng triệu tế bào trên toàn mô, tìm các gene marker bề mặt, đồng thời truy vết từng hình đến tận mã tạo ra nó
- Phân tích phát sinh loài và tiến hóa: thực hiện alignment ortholog, suy luận cây bằng maximum likelihood và ánh xạ phát sinh loài của các residue chức năng trong một phiên có thể tái lập
- Làm việc với cấu trúc protein và mô hình ngôn ngữ: nhập cấu trúc dự đoán, phủ thêm domain và biến thể lâm sàng, rồi khám phá tương tác trong 3D
- Cheminformatics và thiết kế phân tử: tìm kiếm dữ liệu hoạt tính sinh học, tính thuộc tính và độ tương đồng, đồng thời vẽ hoặc tinh chỉnh cấu trúc trong 2D sketcher
- Pipeline có thể được lưu thành skill có thể tái sử dụng, còn các công cụ ưa dùng của phòng thí nghiệm có thể được kết nối bằng connector để tự động sử dụng trong các phiên sau
- Cung cấp indication dossier có gắn đầy đủ nguồn, và đang mở rộng bộ skill tạo nên bằng chứng cho từng chương trình
Kết nối với stack hiện có của phòng thí nghiệm
- Connector đưa API nội bộ, ELN và pipeline tùy chỉnh vào workflow, giúp Claude Science hoạt động cùng các công cụ hiện có của phòng thí nghiệm
- Workflow Python, R và shell hiện có có thể được đọc, chạy và mở rộng mà không cần xây dựng lại từ đầu
- Công cụ khoa học, nền tảng và mô hình mở chuyên biệt theo miền có thể được plug-in dưới dạng skill hoặc connector
- Claude Science đóng vai trò như một workbench tích hợp nơi các công cụ chuyên dụng hoạt động cùng nhau, hơn là thay thế một công cụ cụ thể
Kết nối mô hình, công cụ và dữ liệu
- Vượt ra ngoài mức một trợ lý AI thông thường thảo luận về sinh học, Claude Science hỗ trợ chạy pipeline, khám phá cơ sở dữ liệu khoa học, điều phối job trên cluster và theo dõi lịch sử các phiên trước
- Ứng dụng bao gồm các specialist phân tích cho genomics, single-cell, proteomics, structural biology, cheminformatics, v.v.
- Có thể kết nối native với các mô hình mở chuyên biệt theo miền và hơn 60 cơ sở dữ liệu khoa học
- Sử dụng skill BioNeMo Agent Toolkit của NVIDIA để kết nối với các mô hình và thư viện khoa học sự sống của BioNeMo
- Ví dụ bao gồm Evo 2, Boltz-2 và OpenFold3
Vị trí dữ liệu và kiểm chứng
- Ứng dụng Claude Science chạy trên hạ tầng của người dùng, và dataset thô cùng compute vẫn nằm cục bộ
- Nội dung có trong prompt và phản hồi của mô hình được xử lý theo chính sách lưu giữ tiêu chuẩn của Anthropic
- Nhu cầu theo từng team có thể được trao đổi qua kênh liên hệ bán hàng
- Mọi đầu ra đều bao gồm các thông tin sau
- Đoạn mã chính xác đã dùng để tạo ra
- Môi trường thực thi
- Mô tả bằng ngôn ngữ thường về tác vụ đã thực hiện
- Cuộc hội thoại dẫn đến kết quả
- Reviewer chạy nền đánh dấu các tuyên bố không thể truy vết về bằng chứng trước khi kết quả được hiển thị
Gói dịch vụ, ưu đãi cho phòng thí nghiệm và triển khai enterprise
- Claude Science là ứng dụng beta được cung cấp trên macOS và Linux với các gói Pro, Max, Team và Enterprise
- Người dùng Team và Enterprise cần được quản trị viên kích hoạt trước
- Ưu đãi cho phòng thí nghiệm Claude Team plan for research labs bao gồm quyền truy cập ứng dụng Claude Science
- Đối tượng là các phòng thí nghiệm khoa học đang hoạt động thuộc cơ sở học thuật và tổ chức nghiên cứu phi lợi nhuận
- Các phòng thí nghiệm y sinh, khoa học cơ bản và các ngành hard sciences như hóa học, toán học, khoa học máy tính, vật lý được ưu tiên
- Tư cách đủ điều kiện được xác minh thông qua người phụ trách phòng thí nghiệm
- Doanh nghiệp vì lợi nhuận, tổ chức nghiên cứu theo hợp đồng và đội ngũ R&D công nghiệp nên tham khảo Team and Enterprise plans
- Gói Enterprise cung cấp SSO, SCIM provisioning, vai trò tùy chỉnh và phân tích mức sử dụng
- Vì đang ở trạng thái beta, quản trị viên nên xem xét tài liệu trước khi triển khai
- Tài liệu bao gồm cài đặt, kết nối công cụ/compute và thiết lập quản trị viên cho Team/Enterprise
1 bình luận
Ý kiến Hacker News
Tôi là người đã tạo ra Biomni HPC, một trong các công cụ kết nối có trong đợt phát hành này, và đã theo đuổi vấn đề này khá lâu. Tôi cũng từng làm ở Anthropic, nhưng không phụ trách sản phẩm này
Giống như các bình luận khác, thứ này dành cho khoa học dữ liệu, nhưng có thể làm được nhiều việc hơn là vẽ biểu đồ và viết bài báo. Nó được tích hợp với nhiều cơ sở dữ liệu và công cụ tính toán, bao gồm cả cụm máy của tổ chức nghiên cứu
Chỉ riêng điều đó thôi cũng đã rất có giá trị. Tôi từng khổ sở với vấn đề này ở một startup công nghệ sinh học rồi đi lập startup vì nó; việc tích hợp những công cụ và cơ sở dữ liệu như vậy rất khó và tốn nhiều thời gian. Ngay cả nếu kết quả của sản phẩm này chỉ là xây dựng một API tuyệt vời cho LLM thì cũng sẽ tạo ra tác động tích cực rất lớn. Nhiều cơ sở dữ liệu dùng trong genomics tính toán đến giờ vẫn chỉ truy cập được qua FTP
LLM đặc biệt phù hợp để điều hướng các công cụ và cơ sở dữ liệu kiểu này. Chúng rất chuyên biệt, nhưng có nhiều tác vụ đơn giản phù hợp để xử lý bằng các kỹ năng học được trong ngữ cảnh. Sau khi thấy những khách hàng cũ là các nhà tin sinh học bắt đầu giải quyết vấn đề này bằng LLM, tôi đã gia nhập Anthropic vào năm 2024
Hơn nữa, mô thức này về bản chất không bị giới hạn trong khoa học dữ liệu. Ở một số lĩnh vực khoa học, nó còn có thể tích hợp với phòng thí nghiệm ướt hoặc CRO, và hiện tôi đang dành thời gian cho hướng đó
Cách làm khoa học như vậy không giải quyết được mọi thứ, nhưng hữu ích trong một số lĩnh vực nhất định. Ví dụ, nhiều nghiên cứu về bệnh hiếm tiến triển chậm không phải vì thiếu đột phá căn bản mà vì nút thắt về mức độ quan tâm của giới nghiên cứu
https://x.com/phylo_bio/article/2029233694775624096
Để so sánh, sản phẩm khoa học Prism của OpenAI thực chất gần giống một trình biên tập LaTeX có được từ thương vụ mua lại Crixet
Phải đáp ứng chính sách của tổ chức, quy định áp dụng, các yêu cầu về truy cập và lưu trữ dữ liệu như kho dữ liệu NIH, và cũng có thể cần hợp đồng pháp lý giữa tổ chức với nhà cung cấp AI. Ít nhất hiện tại thì vẫn khó đụng vào
Nếu quan tâm thì tôi sẵn sàng trao đổi
Điểm thú vị nhất ở đây là Claude Science chạy trên một máy chủ cục bộ và một UI nền web trong trình duyệt kết nối tới máy chủ đó
Nó khá khác với cấu trúc như Claude Code hay Cowork, nơi UI gắn chặt hơn với máy chủ để có thể làm những việc như sử dụng máy tính
Có lẽ có thể nhìn ra chiến lược ở đây. Phần lớn các môi trường bị ràng buộc có kết nối tới dữ liệu thú vị đều bị khóa rất chặt, nên không thể cứ thế nối MacBook vào dữ liệu nguồn
Tương tự, việc truy cập các bộ dữ liệu biobank gen quy mô lớn như UK Biobank hay NIH All of Us chỉ được phép thông qua nền tảng phân tích dữ liệu từ xa gọi là Trusted Research Environment (TRE), và thường còn bị hạn chế cả truy cập Internet. Việc chạy ứng dụng desktop không hề dễ, nhưng các môi trường như vậy thường hỗ trợ chạy JupyterLab hoặc VS Code và tunnel UI tới người dùng cuối. Trước đây tôi từng dẫn dắt đội xây dựng TRE của All of Us
Claude Science dễ được hình dung không phải như một siêu ứng dụng Claude làm mọi thứ, mà là dạng chạy máy chủ bên trong những môi trường dữ liệu bị ràng buộc này rồi chỉ proxy UI ra trình duyệt của người dùng. Điều này sẽ rất quan trọng nếu muốn được chấp nhận trong các môi trường R&D có ràng buộc
Tuy vậy, với các nhà khoa học tính toán tầm trung đang dùng RStudio, JupyterLab và VS Code hằng ngày, Claude Science có thể là một dạng sản phẩm khá lạ. Tôi tò mò liệu nó sẽ thay thế các công cụ bàn làm việc khoa học dữ liệu hiện có, được dùng song song, hay cuối cùng trở thành lớp bao bọc bên ngoài
Tôi là nhà phân tích dữ liệu ở một công ty địa chất và xử lý dữ liệu cảm biến rất thú vị; khi cần phân tích nhanh hoặc trực quan hóa, Claude viết trong vài phút đoạn mã mà bình thường tôi phải mất khoảng một tiếng để sắp xếp. Việc tôi hiểu đủ các thư viện liên quan để đọc và kiểm chứng mã là điểm khác biệt quan trọng so với việc mù quáng dùng AI như một hộp đen
Tuy nhiên hiện tại Claude Code và Jupyter trong VS Code không phối hợp tốt. Mỗi lần Claude sửa gì đó là nó khiến toàn bộ notebook phải chạy lại từ đầu. Vì vậy tôi đang lùi bớt khỏi notebook, để Claude viết các script độc lập, rồi sau đó dành thời gian ghép chúng lại thành notebook đẹp hơn
Nếu không thể kết nối từ Mac, thì cũng rất có thể sẽ không cho phép agent trên máy chủ gửi yêu cầu ra ngoài
Tôi đã thử xem nó hoạt động thế nào trong thiết kế tính toán thuốc trừ sâu sinh học dựa trên RNAi, lĩnh vực của tôi
Tôi yêu cầu nó tạo ngay một thiết kế nhắm vào bản phiên mã DvSnf7 của sâu rễ ngô phương Tây, và cách tiếp cận khá ngây thơ. Kiểu như một nghiên cứu sinh năm nhất tiến sĩ sẽ làm, nhưng dù sao nó cũng hoàn thành được việc
Nó cũng chỉ ra các giới hạn như dùng quy tắc thiết kế cho động vật có vú hoặc kiểm tra off-target còn hạn chế. Không quá tệ nhưng cũng không xuất sắc. Khi tôi chỉ ra các khiếm khuyết, tôi nghĩ AI có thể hiểu và tiếp cận tốt hơn. Sau đó hệ thống an toàn Opus 4.8 đã gắn cờ phiên làm việc
Tôi khuyên nên gom 10 bài báo cốt lõi của chủ đề này và 10 giáo trình phổ thông của lĩnh vực, chuyển chúng thành văn bản thuần bằng OCR hoặc trích xuất văn bản, rồi thử làm cùng tác vụ đó với một agent harness tốt hơn như omp.sh
/goal set create biopesticide targeting the DvSnf7 transcript of western corn rootwormĐừng làm sai
Khi họ nói “Science” thì tôi không nghĩ là khoa học dữ liệu, nhưng UI đầy mã pandas và biểu đồ lại trông đúng như vậy
Ngay cả nếu họ nhắm vào các lĩnh vực khoa học nói chung, xét đến việc nó trông như Jupyter Notebook 2.0 thì đây có lẽ là phần kém giá trị hơn của công bố
Các trường hợp dùng để hiểu trực quan hóa dữ liệu dưới dạng hình ảnh từ trước đến nay bị bỏ qua, và các LLM hiện đại cũng ngày càng làm tốt phân tích dữ liệu khám phá một cách tử tế. Dù vậy có lẽ tôi cũng nên cập nhật CV
Chỉ dựa trên những gì tôi đã thấy, tôi sẽ chọn mã do Claude tạo ra thay vì mã của người làm toán, vật lý, sinh học hay ngôn ngữ học bất kỳ lúc nào. Tôi cũng từng thấy Claude mắc sai lầm rất lớn trong lúc phân tích dữ liệu, nhưng có lẽ nó vẫn đáng tin hơn phần lớn học giả hiện đang tự viết code
Một ngành khoa học là gì được quyết định bởi nội dung nó xử lý, chứ không phải chuỗi công cụ
Trước thời LLM, các nhóm kỹ thuật tôi theo dõi thường tranh luận rất sôi nổi về việc nên dùng chủ đề nào, khi nào và cho việc gì, và tôi nghĩ chính những cuộc tranh luận đó đã sinh ra rất nhiều framework và công cụ theo kiểu “nghe có vẻ là ý hay, làm thử cũng chẳng mất gì”
Đáng tiếc là giờ mọi thứ đều xoay quanh LLM, và chỉ bàn cách làm cho LLM chạy theo cách này hay cách khác. Những chủ đề mà các nhóm đó vốn được lập ra để thảo luận thì hầu như không còn được đụng tới
Tôi sợ khoa học rồi cũng sẽ gặp chuyện tương tự. Câu chuyện về LLM có thể chiếm chỗ của những chủ đề thực sự cần được bàn tới
Nếu không tìm ra cách tận dụng các tài sản hiện có thì tỷ suất sinh lời trên vốn đầu tư sẽ chẳng thể trông đẹp được
Đây không phải lập luận ủng hộ, chỉ là rốt cuộc ban điều hành phải trả lời các cổ đông đang nhìn vào những chỉ số lợi nhuận đó
Có vẻ nhờ công bố này mà Claude Desktop cho Linux đã được mở ra: https://code.claude.com/docs/en/desktop-linux
Tôi đã dùng vài công cụ tương tự, và dù khá ấn tượng, LLM quá thường xuyên tạo ra dữ liệu giả nhưng nghe rất hợp lý rồi cư xử như thể đó là dữ liệu thật
Nó còn dựng cả các đầu nối cơ sở dữ liệu giả để trông như đang lấy dữ liệu từ đúng chỗ, nhưng thực tế lại dùng dữ liệu tổng hợp — tức là mức độ ngụy tạo khá sâu
Tôi muốn biết sản phẩm này ngăn chuyện đó thế nào
Sang phía khoa học sinh học thì chẳng phải đây là công ty từng làm cho LLM trông như một mô hình bị tha hóa sao?
Không biết đây có phải kiểu Claude Cowork cho khoa học không, tức là sản phẩm dành cho người dùng ít rành kỹ thuật hơn
Nếu là nhà khoa học có nền tảng lập trình thì có lẽ họ sẽ thích dùng Claude Code theo cách thông thường và tích hợp với stack do chính họ chọn hơn, nhưng sự tiện lợi và khả năng dùng của Claude Science cuối cùng cũng có thể thắng
Tôi hoàn toàn có thể hình dung một nhóm từng ở phòng thí nghiệm quốc gia sẽ tích hợp thứ này vào hệ thống của họ và bỏ hẳn việc dùng Claude Code
Có lẽ nên gọi nó là Claude-bio-big-bucks
Thế còn khoa học Trái Đất, vật lý và kỹ thuật thì sao? Các connector và công nghệ đều chỉ xoay quanh sinh học và dược phẩm
Trước thời Trump, ngân sách thường niên của NSF vào khoảng 6–8 tỷ USD, còn ngân sách thường niên của NIH là khoảng 50 tỷ USD. Chênh lệch là ở đó