Claude 3.7 Sonnet và Claude Code ra mắt

(anthropic.com)

1 điểm bởi GN⁺ 2025-02-25 | 2 bình luận | Chia sẻ qua WhatsApp

Anthropic công bố Claude 3.7 Sonnet là mô hình thông minh nhất của hãng và là mô hình suy luận lai đầu tiên trên thị trường, hỗ trợ cả phản hồi tức thì lẫn suy nghĩ từng bước hiển thị cho người dùng trong cùng một mô hình
Mô hình mới cho phép chọn chế độ tiêu chuẩn và extended thinking mode; trong API, ngân sách suy nghĩ có thể được kiểm soát theo đơn vị N token, lên tới 128K token, tức giới hạn đầu ra
Cải thiện mạnh ở lập trình và phát triển web front-end; trong các thử nghiệm khách hàng ban đầu, mô hình cho thấy thế mạnh ở xử lý codebase phức tạp, cập nhật full-stack, workflow agent, tạo ứng dụng web và sinh mã sẵn sàng cho production
Claude Code được công bố cùng lúc là công cụ lập trình dạng agent chạy trên dòng lệnh, được cung cấp dưới dạng bản xem trước nghiên cứu giới hạn; có thể giao cho công cụ việc khám phá, chỉnh sửa, kiểm thử mã, thao tác GitHub và sử dụng công cụ dòng lệnh
Claude 3.7 Sonnet có mặt trên Free·Pro·Team·Enterprise và các nền tảng phát triển lớn; chế độ suy nghĩ mở rộng khả dụng ngoại trừ tier Claude miễn phí, và giá vẫn giữ ở mức $3 cho mỗi 1 triệu token đầu vào, $15 cho mỗi 1 triệu token đầu ra

Suy luận lai của Claude 3.7 Sonnet

Claude 3.7 Sonnet là mô hình thông minh nhất mà Anthropic công bố, có thể tạo cả phản hồi tức thì lẫn suy nghĩ từng bước mở rộng
Quá trình suy nghĩ mở rộng được hiển thị cho người dùng, và người dùng API có thể kiểm soát chi tiết thời gian mô hình suy nghĩ
Anthropic chọn cách xem suy luận không phải là một mô hình riêng, mà là một tính năng tích hợp của mô hình frontier
- Ở chế độ tiêu chuẩn, mô hình hoạt động như một phiên bản nâng cấp của Claude 3.5 Sonnet
- Trong extended thinking mode, mô hình tự phản tư trước khi trả lời, giúp nâng cao hiệu năng trong nhiều tác vụ như toán học, vật lý, tuân thủ chỉ dẫn và lập trình
- Cách prompt cho hai chế độ nhìn chung hoạt động tương tự nhau
Trong API, có thể chỉ định ngân sách suy nghĩ bằng N token, với N có thể đặt lên tới 128K token, tức giới hạn đầu ra
- Cơ chế kiểm soát này được dùng để đánh đổi tốc độ và chi phí lấy chất lượng câu trả lời

Hiệu năng lập trình tập trung vào công việc thực tế

Claude 3.7 Sonnet cho thấy cải thiện đặc biệt lớn trong lập trình và phát triển web front-end
Anthropic cho biết họ đã giảm một phần trọng số tối ưu hóa cho các bài thi cạnh tranh toán học và khoa học máy tính, đồng thời tập trung hơn vào những tác vụ mà doanh nghiệp thực sự dùng LLM
Trong thử nghiệm ban đầu, nhiều khách hàng đã đánh giá hiệu năng lập trình
- Cursor đánh giá Claude một lần nữa đạt mức hàng đầu trong các tác vụ lập trình thực tế, từ xử lý codebase phức tạp đến sử dụng công cụ nâng cao
- Cognition đánh giá mô hình tốt hơn đáng kể so với các mô hình khác trong việc lập kế hoạch thay đổi mã và xử lý cập nhật full-stack
- Vercel nhấn mạnh độ chính xác cao trong các workflow agent phức tạp
- Replit cho biết họ đã dùng Claude để xây dựng từ đầu các ứng dụng web và dashboard tinh vi trong những tình huống mà các mô hình khác bị dừng lại
- Trong đánh giá của Canva, Claude nhất quán tạo ra mã sẵn sàng cho production với cảm quan thiết kế tốt hơn và giảm lỗi đáng kể

Bản xem trước nghiên cứu giới hạn của Claude Code

Claude Code là công cụ lập trình agent đầu tiên của Anthropic, được cung cấp dưới dạng bản xem trước nghiên cứu giới hạn
Nhà phát triển có thể ủy thác cho Claude các công việc kỹ thuật đáng kể ngay trong terminal
Claude Code thực hiện các tác vụ sau trong khi vẫn giữ nhà phát triển tham gia vào quá trình
- Tìm kiếm và đọc mã
- Chỉnh sửa tệp
- Viết và chạy kiểm thử
- Commit và push mã lên GitHub
- Sử dụng công cụ dòng lệnh
Trong nội bộ Anthropic, công cụ này đặc biệt hữu ích cho phát triển theo hướng kiểm thử, debug các vấn đề phức tạp và refactor quy mô lớn
Trong thử nghiệm ban đầu, Claude Code hoàn thành một lượt các tác vụ thường mất trên 45 phút nếu làm thủ công, giúp giảm thời gian phát triển và overhead
Trong vài tuần tới, các cải tiến được lên kế hoạch gồm nâng cao độ ổn định khi gọi công cụ, hỗ trợ lệnh chạy lâu, cải thiện kết xuất trong ứng dụng và mở rộng hiểu biết của chính Claude về năng lực của mình
Thông qua tham gia bản xem trước, có thể truy cập công cụ mà Anthropic dùng để xây dựng và cải thiện Claude; phản hồi sẽ được đưa vào định hướng tương lai của Claude Code

Tích hợp Claude.ai với codebase GitHub

Trải nghiệm lập trình trên Claude.ai cũng được cải thiện, và tích hợp GitHub được cung cấp cho mọi gói Claude
Nhà phát triển có thể kết nối trực tiếp kho mã với Claude
Claude 3.7 Sonnet hiện là mô hình lập trình tốt nhất của Anthropic, có thể hiểu sâu hơn các dự án cá nhân, công việc và mã nguồn mở để dùng cho sửa lỗi, phát triển tính năng và viết tài liệu

Phạm vi cung cấp và giá

Claude 3.7 Sonnet có mặt trên tất cả các gói Claude
- Free
- Pro
- Team
- Enterprise
Claude 3.7 Sonnet cũng có mặt trên Claude Developer Platform, Amazon Bedrock và Google Cloud Vertex AI
extended thinking mode khả dụng trong tất cả môi trường cung cấp, ngoại trừ tier Claude miễn phí
Cả chế độ tiêu chuẩn lẫn chế độ suy nghĩ mở rộng đều có giá giống mô hình trước
- $3 cho mỗi 1 triệu token đầu vào
- $15 cho mỗi 1 triệu token đầu ra
- Giá đầu ra bao gồm cả token suy nghĩ

Đánh giá an toàn và system card

Claude 3.7 Sonnet đã trải qua thử nghiệm và đánh giá rộng rãi cùng các chuyên gia bên ngoài, với mục tiêu xác minh đáp ứng các tiêu chuẩn về bảo mật, an toàn và độ tin cậy
Bằng cách phân biệt chi tiết hơn giữa yêu cầu gây hại và yêu cầu bình thường, mô hình giảm 45% các lần từ chối không cần thiết so với mô hình trước {p:45}
system card bao gồm các kết quả an toàn mới ở nhiều hạng mục và chi tiết đánh giá Responsible Scaling Policy
System card đề cập đến các rủi ro mới phát sinh từ việc sử dụng máy tính, đặc biệt là tấn công prompt injection
- Anthropic bao gồm cách đánh giá lỗ hổng này và huấn luyện Claude kháng cự, giảm thiểu nó
Các lợi ích an toàn tiềm năng của mô hình suy luận cũng được đề cập
- Khả năng hiểu cách mô hình đưa ra quyết định
- Liệu suy luận của mô hình có thực sự đáng tin cậy và ổn định hay không

Scaffolding đánh giá và chi tiết SWE-bench

Điểm TAU-bench được thu được bằng cách thêm một đoạn prompt phụ vào Airline Agent Policy để chỉ dẫn tốt hơn việc sử dụng planning tool
- Tách biệt với thinking mode thông thường, đoạn này khuyến khích mô hình ghi lại suy nghĩ trong quá trình giải quyết vấn đề
- Do có thêm bước suy nghĩ, số bước tối đa được tăng từ 30 lên 100
- Phần lớn quỹ đạo kết thúc dưới 30 bước, và chỉ có một quỹ đạo vượt quá 50 bước
- Điểm TAU-bench của Claude 3.5 Sonnet là giá trị chạy lại trên bộ dữ liệu đã được cập nhật sau khi dataset được cải thiện
Trong SWE-bench Verified, có nhiều cách giải các tác vụ agent khác nhau; Agentless sử dụng tìm kiếm tệp, xác định vị trí patch và lấy mẫu từ chối best-of-40 dựa trên kiểm thử hồi quy
Đánh giá cơ bản của Claude 3.7 Sonnet và Claude 3.5 Sonnet sử dụng scaffolding tối thiểu đơn giản hơn
- Mô hình quyết định trong một phiên duy nhất sẽ chạy lệnh nào và chỉnh sửa tệp nào
- Sử dụng công cụ bash, công cụ chỉnh sửa tệp dựa trên thay thế chuỗi và planning tool được nhắc đến trong TAU-bench
Do hạn chế hạ tầng nội bộ, trong 500 bài SWE-bench Verified chỉ có 489 bài thực sự có thể giải được, và 11 bài còn lại được tính là thất bại để đảm bảo công bằng với leaderboard chính thức
Kết quả high compute sử dụng các lần thử song song, loại bỏ các patch làm hỏng kiểm thử hồi quy hiển thị được, và lựa chọn cuối cùng dựa trên mô hình chấm điểm
- Cách này đạt điểm 70,3% trên tập con 489 tác vụ xác minh chạy được trên hạ tầng nội bộ
- Trên cùng tập con 489 bài, Claude 3.7 Sonnet đạt 63,7% khi không dùng scaffolding

2 bình luận

GN⁺ 2025-02-25

Các ý kiến trên Hacker News

Claude 3.7 Sonnet đạt 60,4% khi không dùng thinking trên bảng xếp hạng đa ngôn ngữ của aider
Đồng hạng 3 với o3-mini-high, và đã giành lấy điểm số không suy luận cao nhất trước đó thuộc về Sonnet 3.5
aider 0.75.0 đã bổ sung hỗ trợ 3.7 Sonnet, còn hỗ trợ thinking và kết quả benchmark được nói là sẽ sớm có
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- Với 225 bài tập lập trình của Exercism, tôi tò mò liệu đã có nỗ lực nào nhằm giảm rò rỉ dữ liệu trong tập kiểm thử hay chưa
  Có vẻ các bài này đã ở trên Internet từ trước năm 2023, nên khả năng cao chúng đã nằm trong dữ liệu huấn luyện của các mô hình hiện đại
- Khi dùng tối đa 32k token thinking, Sonnet 3.7 lập kỷ lục cao nhất với 64,9%
  65% Sonnet 3.7, 32k thinking / 64% R1+Sonnet 3.5 / 62% o1 high / 60% Sonnet 3.7, không dùng thinking / 60% o3-mini high / 57% R1 / 52% Sonnet 3.5
- Điều thú vị là điểm định dạng diff đúng từ 99,6% ở Claude 3.5 đã giảm xuống 93,3% ở Claude 3.7
  Qua việc dùng claude-code, tôi thường xuyên phải thử nhiều lần mới có được diff đúng, và hy vọng điều này sẽ cải thiện khi ổn định hơn
- Tôi đã theo dõi dự án aider khoảng một năm, cố gắng hiểu cách xây dựng agent kỹ nghệ phần mềm
  Tuần trước tại AI Engineering Summit ở New York, tôi gặp một kỹ sư AI cấp staff rất senior, người đang làm những việc khá khó tin với aider, và tôi thực sự kinh ngạc
  Vì có thể không phù hợp để đăng lên diễn đàn công khai, tôi muốn biết liệu nếu được phép thì có cách nào để chia sẻ trực tiếp những câu chuyện dự án aider thực tế như vậy không
Tôi là Boris từ nhóm Claude Code, cùng với @eschluntz, @catherinewu, @wolffiex, @bdr, chúng tôi sẽ cố gắng trả lời các câu hỏi liên quan đến sản phẩm trong khoảng một giờ tới
- Có một điều tôi rất mong được sửa. Khi nhập prompt, mô hình đã tạo ra 90% hoặc 100% câu trả lời rồi, nhưng hệ thống lại hiện lỗi rằng quá tải dung lượng nên không thể tạo câu trả lời, đồng thời xóa luôn cả phản hồi đã có
  Tôi mong vẫn có thể truy cập phần phản hồi đã được cung cấp, dù nó chưa hoàn chỉnh
- Phàn nàn lớn nhất của tôi là trong UI, chỉ cần hỏi vài truy vấn hơi nặng một chút là liên tục bị chạm giới hạn sử dụng
  Có thể dùng console API, nhưng như vậy lại mất các tính năng như Projects
  Tôi muốn biết liệu các giới hạn này có khả năng được tăng trong thời gian tới không
- Claude là LLM mặc định tôi dùng cho mọi việc, và nghe có vẻ sáo rỗng, nhưng thực sự nó đang mở rộng phạm vi những gì tôi có thể học một cách hợp lý lên nhiều lần
  Dạo này tôi đang đọc các văn bản triết học cũ mà không có kiến thức nền liên quan; nếu không có Claude giúp diễn giải các câu khó hiểu, thảo luận ý tưởng, cung cấp bối cảnh lịch sử, giải thích vì sao chúng được viết theo cách đó, cũng như so sánh với các tư tưởng mới, chắc tôi đã bỏ cuộc nhiều lần
  Trong công việc, tôi cũng dùng nó nhiều lần mỗi ngày cho phát triển phần mềm, và chế độ súc tích thực sự rất mới mẻ so với các LLM khác
  Nó giúp tôi tìm bug trong codebase xa lạ, giải thích stack công nghệ, viết script bash, tiết kiệm hàng chục giờ và rất nhiều căng thẳng
  Tuy nhiên, độ ổn định của dịch vụ có vẻ kém hơn một chút so với nơi khác, nên đôi khi tôi phải chuyển sang mô hình khác; tôi muốn biết có kế hoạch cải thiện phần này không
- Tôi đang refactor rất lộn xộn một đoạn code component React dạng class cũ đã 6 năm không đụng tới, và sau vài ngày dùng Aider thì bị kẹt
  Tôi vừa đang lục mã nguồn Aider trên GitHub để lấy prompt ra và tự làm một script trợ lý nhỏ, nên thời điểm phát hành lần này thật hoàn hảo
  Sau khi cài Claude Code, nó đang xử lý công việc này rất nhanh, và tôi cũng thích giao diện cùng các biểu hiện tính cách như “Ruminating”, “Schlepping”
  Nhìn chung là một sản phẩm rất tuyệt
- Tôi vừa bắt đầu thử công cụ dòng lệnh, và ấn tượng đầu tiên sau 5 phút là sẽ rất tốt nếu claude-code cũng có hiển thị chi phí theo từng truy vấn và tổng chi phí phiên như điều tôi thích ở aider
  Tôi đã dùng aider với Claude 3.5 hằng ngày, và việc có thể theo dõi chi phí một cách tự nhiên là rất hữu ích
  Ngoài ra, tôi cũng mong nó được viết bằng một ngôn ngữ có thể biên dịch như Go hay Rust, nhưng tôi hiểu chi phí viết lại có thể lớn
  Sau khoảng 10 phút dùng thử, có vẻ nó gặp vấn đề lớn với việc patch code Go cơ bản. Sau khi thêm một dòng thụt lề sai, nó cố sửa ba lần thành thụt lề đúng nhưng lần nào cũng báo "String to replace not found in file"
  Aider dùng Claude 3.5 xử lý việc này rất tốt, nên có lẽ nên tham khảo prompt và định dạng patch của nó
Benchmark LLM của Kagi đã được cập nhật để phản ánh chế độ phổ thông và chế độ thinking của Sonnet 3.7
https://help.kagi.com/kagi/ai/llm-benchmark.html
Trong số các LLM phổ thông đã thử, có vẻ nó đứng thứ 2, sau Gemini 2.0 Pro và trước gpt-4o
Chế độ thinking kém ấn tượng hơn, ở mức khoảng o1-mini và o3-mini với ngân sách thinking 8192 token
Nhìn chung đây là một bản cập nhật tốt: cùng mức giá nhưng có mô hình chất lượng cao hơn và nhanh hơn, hy vọng có thể bật trong Kagi Assistant trong vòng 24 giờ
- Cảm ơn đội ngũ Kagi vì đã cho dùng LLM mới trong Assistant nhanh đến vậy
  Giá trị của Kagi Assistant với cá nhân tôi là khỏi cần phải đắn đo
- Giờ Gemini 2.0 đứng số 1 thật đáng ngạc nhiên
  Tôi nhớ các mô hình của Google từng có hiệu năng thấp trong benchmark của Kagi
- Tôi tò mò không biết ngân sách thinking 8192 token được chọn như thế nào
  Tôi thường thấy DeepSeek R1 dùng nhiều hơn thế rất nhiều
- Đã thấy nó trong Kagi Assistant rồi, chưa tới 24 giờ nữa. Tốt
- Điều tôi không hiểu là Claude 3.5 Haiku, vốn không phải mô hình thinking, lại nằm trong mục non-thinking nhưng được hiển thị là có ngân sách thinking 8192
Dùng cái này để phân tích hồ sơ HN thì khá buồn cười :)
https://hn-wrapped.kadoa.com/
Tôi đang dùng nó để kiểm tra khiếu hài hước của mô hình mới
- Nó châm chọc tôi ra trò, kiểu tôi nói về “bộ phát hiện Carnatic raga” còn nhiều hơn là thực sự làm nó, và với tốc độ này thì LLM sẽ sáng tác raga trước khi bộ phát hiện của tôi kịp nhận diện raga
  Nó còn nói tôi mua bộ xử lý 7950X nhưng không biết làm gì với nó, như phiên bản điện toán của việc lái Ferrari đi chợ mỗi tuần một lần
  Nó nói tôi nghỉ sabbatical vì lo cân bằng công việc-cuộc sống, nhưng lại dùng thời gian đó để bình luận về sự nghiệp của người khác trên HN
  Nếu ai tìm tôi thì tôi đang khóc trong phòng
- “Lương của bạn thấp đến mức cả mã legacy cũng thấy thương hại”
  “Bạn là người duy nhất trên HN nghĩ 800 đô/tháng là lương chứ không phải hóa đơn cloud computing”
  Đau
- Bị lột sạch: “Bạn dành nhiều thời gian giải thích vì sao xử lý lỗi của Go tệ hơn thời gian các lập trình viên Go thực sự dành cho xử lý lỗi”
  “Mối quan hệ của bạn với ngôn ngữ lập trình giống một show hẹn hò. Bạn tìm ra khuyết điểm ở tất cả mọi người nhưng không thể ổn định với một người”
  “Nếu xử lý lỗi là một tôn giáo thì bạn là nhà truyền giáo nhiệt thành nhất, đang cải đạo từng exception unchecked một”
- “Là người từng làm ở Reddit mà bạn dành quá nhiều thời gian trên HN. Giống như rời Facebook rồi dành cả ngày trên Twitter để phàn nàn về mạng xã hội”
  Chính xác đến đau
- “Bạn phàn nàn về sự xao nhãng số trong khi viết tiểu thuyết trong các thread bình luận HN. Giống như phê phán đồ ăn nhanh trong lúc chờ ở hàng drive-thru”
  “Bạn sẽ viết một bài luận sâu sắc về ‘chủ nghĩa tối giản số’, đưa nó lên trang nhất HN, rồi trớ trêu thay sẽ dành nhiều thời gian hơn để trả lời bình luận về nó so với tổng thời gian bạn dành cho HN cả năm”
  Nó đang nhìn tôi. Không được
Ngay từ lần tương tác đầu tiên với Claude 3.7 Sonnet, tôi đã khá ấn tượng
Tôi nhờ nó tìm vấn đề trong codebase khiến một Cloudflare Pages function trả về 500, lỗi vô lý và phản hồi rỗng trên production; đó là vấn đề tôi đã không tìm ra suốt cả thứ Sáu
Script chết trước khi in ra bất cứ thứ gì, nên tôi thật sự bực vì không có cách thêm logging hay có thêm khả năng quan sát
o1, o3, Claude 3.5 hoàn toàn không giúp được gì, nhưng Claude 3.7 sau 39 giây thinking đã tìm đúng vấn đề ngay trong câu trả lời đầu tiên, và ở prompt thứ hai còn viết cho tôi một function chạy được để đi vòng qua nó
Vì tôi đã nối kho GitHub vào cuộc trò chuyện nên có vẻ không chia sẻ được phần thảo luận, tôi đã sao chép sang gist: https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- Một trong các câu trả lời cho thấy Claude về cơ bản vẫn ngây thơ với tư duy thực tế
  Nó đề xuất chuyển phần làm sạch HTML sang frontend, nhưng tôi đặt nó trong CF function vì nếu để ở frontend thì quá dễ bị vượt qua, cho phép đưa gần như bất cứ thứ gì vào DB
  Đây là điều ngay cả lập trình viên junior cũng hiểu
Tôi đã làm cho nó hoạt động trong công cụ LLM của mình, và phiên bản plugin mới là llm-anthropic 0.14
Trong quá trình đó tôi đã tìm hiểu được nhiều điều về mô hình, ghi chú chi tiết ở đây: https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
Một trong những tính năng mới thú vị nhất là giới hạn đầu ra tăng từ 8.000 token của Claude 3.5 Sonnet trước đây lên 120.000 token
Mô hình này có vẻ có thể dùng hiệu quả giới hạn đầu ra đó, và kết quả dài nhất của tôi cho đến nay mất 27 phút để hoàn tất: https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- Không phải tôi muốn hạ thấp Sonnet 3.7, nhưng nói rằng nó cao hơn rất nhiều so với bất kỳ mô hình nào khác trong lĩnh vực này thì có vẻ không chính xác
  o1 và o3-mini cũng lên tới 100.000 token đầu ra
  https://platform.openai.com/docs/models#o1
- Tôi tò mò không biết Simon đã từng viết ở đâu về việc làm sao ông ấy có thể năng suất đến vậy, vừa làm công cụ lập trình, viết blog, vừa làm việc
  Không biết ông ấy lấy thời gian và năng lượng ở đâu
- Tôi tò mò không biết chi phí là bao nhiêu
Việc Anthropic tập trung hơn vào code là hợp lý
So với các mô hình khác, code vốn là thế mạnh của họ
Nghĩ đến những khó khăn của Devin thì tôi tò mò sản phẩm cạnh tranh Devin của họ sẽ ra sao
- Đây là mô hình vận hành phần lớn việc sử dụng Cursor/Windsurf và họ cũng đang đẩy MCP, nên nếu chỉ cần làm tốt trải nghiệm người dùng thì có vẻ sẽ ổn
- Rõ ràng đó là thế mạnh, nhưng đôi khi tôi ước chat đừng quá muốn viết code
  Ngay cả khi tôi chỉ muốn câu trả lời mang tính khái niệm hoặc ở mức cao, nó vẫn hay ném code vào, nên giờ tôi có thói quen nói trước là đừng viết code
- Tôi cũng nghĩ vậy, và đến nay có 3 vấn đề thật sự khó mà Claude hay bất kỳ mô hình nào khác đều chưa giải được, nên rất mong thử hôm nay
- Hơi buồn cười là trong bài blog họ trích dẫn Cognition, tức công ty tạo ra Devin
Việc “trong khi phát triển mô hình suy luận, chúng tôi đã giảm bớt phần tối ưu cho các bài toán thi học sinh giỏi toán/khoa học máy tính, và chuyển trọng tâm sang các tác vụ thực tế phản ánh tốt hơn cách doanh nghiệp thật sự dùng LLM” là tin tốt
OpenAI có vẻ nhắm tới “mô hình thông minh nhất”, nhưng trên thực tế LLM chủ yếu được dùng làm trợ lý học tập, công cụ chuyển đổi dữ liệu và công cụ viết code
Điểm cân bằng giữa “trí thông minh” và “khả năng hoàn thành việc” có vẻ là sweet spot, và có lẽ là một trong những lý do các công cụ dành cho developer hiện nay (Cursor, Windsurf, v.v.) chuộng Claude 3.5 Sonnet hơn 4o
- Tất cả chúng tôi đều dùng Claude trực tiếp trong công việc hằng ngày, và việc giải quyết nỗi đau của chính mình thú vị hơn các benchmark trừu tượng
  Để hoàn thành việc cần rất nhiều kiến thức sách vở, nhưng cũng cần nhiều cảm giác thực địa để biết khi nào nên trả lời nhanh và khi nào phải quay lại xem xét
- Đôi khi tôi có cảm giác các mô hình đang bị overfit vào benchmark. DeepSeek đặc biệt cho cảm giác đó
  Dù thứ hạng thực tế ở đâu, chat mà tôi vẫn quay lại dùng vì chủ quan thấy câu trả lời tốt hơn là Claude
- Claude 3.5 rất tuyệt trong Windsurf nhưng tốn credit
  DeepSeek V3 hiện được cung cấp trong Windsurf mà không tốn credit, và với công ty tôi đó là thay đổi lớn
  Dù thế nào thì có nhiều lựa chọn hơn vẫn là tốt
  Tôi rất khuyên nên thử tính năng Cascade của Windsurf cho việc viết code và khám phá theo kiểu agent. Nó tiết kiệm rất nhiều thời gian khi tìm hiểu codebase mới và lần theo luồng dữ liệu
Cuộc đua AI đang diễn ra thật sự rất nhanh
Là một nhà phát triển/kỹ sư phần mềm, tôi lo về triển vọng việc làm, và có lẽ phải chờ thời gian trả lời
Tôi cũng tò mò bong bóng nhà ở bờ Tây sẽ ra sao nếu mức lương cao của kỹ sư phần mềm biến mất
Có lẽ làn sóng lao động tri thức tiếp theo sẽ đến và thay thế vị trí đó
- Đúng là thị trường việc làm phát triển phần mềm đang rung lắc mạnh, nhưng vẫn có những việc có thể làm để đứng ở vị thế có lợi
  Đó là học thêm toàn bộ stack, đặc biệt là backend và DevOps, chấp nhận mức tăng năng suất để phát hành nhiều sản phẩm và dự án cá nhân hơn, dùng thời gian sản xuất một cách rất chọn lọc, đồng thời có một hệ thống quản lý tri thức cá nhân tốt và trợ lý agent
- Thực ra tôi thấy tốc độ có vẻ đang chậm lại
  Năm ngoái khá dữ dội cho đến khoảng trước/sau Llama 3, nhưng các cải thiện gần đây tương đối nhỏ
  Các mô hình suy luận cũng chỉ tốt hơn một chút so với những gì trước đây đã có thể làm bằng agent với kế hoạch rõ ràng, và giống như được đóng gói phù hợp mục đích kèm tinh chỉnh nhẹ hơn
  DeepSeek có cải thiện lớn về hiệu quả, nhưng thay đổi mà người dùng nhìn thấy thì không lớn lắm
  Vì vậy tôi nghĩ cuộc đua AI gần đây đang hơi bước vào trạng thái cao nguyên
- Tác động có thể rộng hơn rất nhiều so với Silicon Valley hay bờ Tây, và ngược lại Silicon Valley có thể là một trong số ít khu vực còn tương đối có hy vọng nhờ phát triển AI
  Các mô hình này có khả năng làm chao đảo việc làm trong ngành trên toàn cầu
  Trớ trêu là những nghề thật sự thay đổi có thể chỉ là kỹ sư phần mềm và một vài lĩnh vực như viết lách, thiết kế đồ họa
  Việc các phòng thí nghiệm AI đặc biệt nhắm vào kỹ sư phần mềm thể hiện rõ chỉ riêng qua thông báo “Claude 3.7 and Code”, và hầu như không nhắc tới các lĩnh vực khác
  Với những người không ở Silicon Valley và chưa từng hưởng mức đãi ngộ cao, kỹ thuật phần mềm thường chỉ là một công việc bình thường, nhiều áp lực và đòi hỏi học hỏi liên tục
  Vì vậy họ có lẽ cũng ít khả năng đầu tư/tiết kiệm bằng thu nhập khả dụng cao, nên nỗi đau và bất an do tự động hóa sẽ lớn hơn
  Ai mà biết công việc đầu tiên AI tự động hóa sẽ không phải lao động chân tay hay xe tự lái, mà là chính phần mềm
  Các ngành khác có vẻ khó hơn vì đã đụng ngõ cụt hoặc có rào cản như quy định, tri thức khép kín
  Kỹ sư phần mềm coi như đã làm gương cho các ngành khác: đừng đưa AI vào, hoặc nhốt nó trong nội bộ càng lâu càng tốt, tức là hãy ở lại với nguồn đóng
  Nhìn lại thì thật mỉa mai
- Trong ngắn và trung hạn thì tôi không quá lo
  Tôi cảm thấy có quá nhiều edge case và ngữ cảnh tinh tế mà hệ thống AI sẽ bỏ sót
  Ví dụ, hệ thống không phải lúc nào cũng hoạt động đúng như tài liệu. AI sẽ phân biệt bug của dịch vụ với bug trong code của chính nó thế nào? Ngay từ đầu nó biết có bug bằng cách nào? Nó phân biệt báo cáo bug với nỗ lực xâm nhập của hacker ra sao?
  Thế giới rất phức tạp, và nếu chưa có trí tuệ nhân tạo thật sự, vẫn cần người hướng dẫn AI trong những tình huống khó nhằn như vậy
  Lời khuyên là hãy quen với AI và các công cụ AI mới, đồng thời hiểu chúng khớp vào quy trình làm việc thông thường như thế nào
  Tôi nghĩ các kỹ sư phần mềm giỏi sẽ không biến mất
- Nếu mô hình cải thiện nhưng chưa đi tới điểm kỳ dị hoàn toàn, tôi nghĩ việc làm thậm chí sẽ tăng
  Ví dụ, nếu chi phí làm phần mềm giảm 5 lần, trong khi hiện nay nguồn cung bị hạn chế rất lớn, thì nhu cầu sẽ tăng hơn 5 lần
  Có nhiều công ty muốn phần mềm tốt hơn nhưng chi phí quá cao
  Khi đó sẽ có thêm nhiều việc làm
  Tuy nhiên sẽ gõ phím ít hơn, và quản lý sản phẩm, tương tác con người, kiểm thử edge case sẽ nhiều hơn
  Có lẽ cũng sẽ xuất hiện khá nhiều công việc rất kỹ thuật để debug khi mô hình thất bại
  Vì vậy lời khuyên là hãy học các kỹ năng giúp tạo ra phần mềm hữu ích cho con người và doanh nghiệp, từ nghiên cứu người dùng đến quản lý sản phẩm. Kỹ thuật cũng vẫn cần đi kèm
Claude 3.7 đã làm lại một nửa luận văn cử nhân của tôi trong chưa đầy 30 giây :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
Hình đầu ra ở đây: https://i.imgur.com/0c65Xfk.png
Gemini Flash 2 thì thất bại thảm hại: https://g.co/gemini/share/10437164edd0
- Phần lớn các chủ đề thường được đề cập ở bậc đại học đều được tư liệu hóa tốt và đã được hiểu rõ, nên khả năng cao là đã có trong dữ liệu huấn luyện AI
  Từ trình độ cao học trở lên, phạm vi tài liệu hiếm hơn và mang tính ngách hơn một chút, nhưng nhìn chung vẫn chưa đến mức đột phá
  Ở trình độ tiến sĩ, mục tiêu là mở rộng tri thức hiện có của lĩnh vực đó và có nhiều chủ đề được khám phá lần đầu, nên tôi cho rằng phần lớn gần như không có độ phủ
- Tiếp theo là đến lượt thạc sĩ và tiến sĩ!
- Tôi tò mò liệu nội dung này hoặc thứ tương tự có từng có thể tìm thấy trong tài liệu truy cập mở hoặc ở một số thư viện hay không

riskatcher 2025-02-25

So với flash 2 thì chênh lệch giá quá lớn để đem ra so.. đúng kiểu nằm giữa o1pro và o3-mini.