1 điểm bởi GN⁺ 2024-03-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Anthropic công bố dòng sản phẩm Claude 3, giới thiệu lineup mô hình mới gồm Haiku, Sonnet và Opus để lựa chọn sự cân bằng giữa trí tuệ, tốc độ và chi phí
  • Opus vượt các mô hình cùng hạng trong những bài đánh giá chính như MMLU, GPQA, GSM8K, còn toàn bộ Claude 3 được cải thiện ở khả năng phân tích, dự đoán, sinh mã và hội thoại không phải tiếng Anh
  • Khác biệt về tốc độ là một trục trọng tâm: Haiku có thể đọc một bài báo arXiv khoảng 10k token trong chưa đầy 3 giây, còn Sonnet nhanh gấp 2 lần Claude 2·2.1 trên phần lớn workload
  • Claude 3 xử lý được đầu vào thị giác như ảnh, biểu đồ, đồ thị và sơ đồ kỹ thuật, đồng thời khi ra mắt có cửa sổ ngữ cảnh 200K và khả năng nhận đầu vào vượt 1 triệu token
  • Opus và Sonnet có thể dùng ngay trên claude.ai và Claude API, API được cung cấp tại 159 quốc gia, còn Haiku sẽ sớm ra mắt

Cấu hình mô hình và tình trạng cung cấp

  • Họ Claude 3 gồm Claude 3 Haiku, Claude 3 Sonnet, Claude 3 Opus theo thứ tự hiệu năng tăng dần
  • Mỗi mô hình được thiết kế để cho phép chọn sự cân bằng giữa trí tuệ, tốc độ và chi phí tùy theo ứng dụng
  • Opus và Sonnet hiện dùng được trên claude.ai và Claude API
    • Claude API đang ở trạng thái phát hành công khai và được cung cấp tại 159 quốc gia
    • Haiku sẽ sớm được cung cấp
  • Trải nghiệm miễn phí trên claude.ai chạy bằng Sonnet, còn Opus dành cho người đăng ký Claude Pro
  • Sonnet cũng dùng được trên Amazon Bedrock và đang có bản xem trước riêng tư trong Vertex AI Model Garden của Google Cloud
    • Opus và Haiku cũng sẽ sớm được thêm lên hai nền tảng này

Trí tuệ, tốc độ và hiệu năng đa phương thức

  • Opus là mô hình thông minh nhất của Anthropic, vượt các mô hình cùng hạng trên nhiều benchmark đánh giá hệ thống AI như MMLU, GPQA và GSM8K
  • Các mô hình Claude 3 cho thấy năng lực được cải thiện trong phân tích và dự đoán, tạo nội dung tinh vi, sinh mã và hội thoại không phải tiếng Anh như tiếng Tây Ban Nha, tiếng Nhật và tiếng Pháp
  • Phạm vi ứng dụng được mở rộng cho các công việc cần phản hồi thời gian thực
    • chat chăm sóc khách hàng trực tiếp
    • tự động hoàn thành
    • trích xuất dữ liệu
  • Haiku là mô hình nhanh nhất và hiệu quả chi phí nhất trong phân khúc trí tuệ đó, có thể đọc một bài báo arXiv khoảng 10k token có chứa biểu đồ và đồ thị trong chưa đầy 3 giây
  • Sonnet nhanh gấp 2 lần Claude 2 và Claude 2.1 trên phần lớn workload, đồng thời mang lại mức trí tuệ cao hơn
    • truy xuất tri thức
    • tự động hóa bán hàng
  • Opus duy trì tốc độ tương tự Claude 2 và Claude 2.1 trong khi mang lại mức trí tuệ cao hơn

Đầu vào thị giác, giảm từ chối và cải thiện độ chính xác

  • Các mô hình Claude 3 có khả năng thị giác ở mức tương đương các mô hình dẫn đầu khác
    • ảnh
    • biểu đồ
    • đồ thị
    • sơ đồ kỹ thuật
  • Với một số khách hàng doanh nghiệp, tới 50% cơ sở tri thức được lưu ở các định dạng như PDF, flowchart và slide thuyết trình, nên tầm quan trọng của dạng đầu vào mới là rất lớn
  • Các mô hình Claude trước đây thường từ chối không cần thiết, trông như do thiếu hiểu ngữ cảnh, nhưng Opus, Sonnet và Haiku của Claude 3 giảm mạnh khả năng từ chối trả lời với các prompt nằm gần ranh giới của guardrail hệ thống so với thế hệ trước
  • Claude 3 được cải thiện để hiểu yêu cầu tinh vi hơn và nhận diện tác hại thực sự, từ đó giảm việc từ chối các prompt vô hại
  • Đánh giá độ chính xác dùng tập câu hỏi thực tế phức tạp nhằm vào những điểm yếu đã biết của các mô hình hiện tại
    • Câu trả lời được phân loại thành đúng, sai hoặc ảo giác, và thừa nhận sự không chắc chắn
    • Opus cải thiện gấp 2 tỷ lệ trả lời đúng trên các câu hỏi mở khó so với Claude 2.1, đồng thời cũng giảm mức độ trả lời sai
  • Các mô hình Claude 3 sẽ sớm được bổ sung tính năng trích dẫn, cho phép chỉ ra chính xác câu trong tài liệu tham chiếu để kiểm chứng câu trả lời

Ngữ cảnh dài và khả năng hồi tưởng

  • Họ Claude 3 cung cấp cửa sổ ngữ cảnh 200K ngay khi ra mắt
  • Cả ba mô hình đều có thể nhận đầu vào vượt 1 triệu token và có thể được cung cấp cho một số khách hàng cần năng lực xử lý cao hơn
  • Để xử lý tốt prompt ngữ cảnh dài, cần có khả năng hồi tưởng mạnh
  • Bài đánh giá Needle In A Haystack (NIAH) đo khả năng hồi tưởng chính xác thông tin từ một kho dữ liệu khổng lồ
    • Để tăng độ vững của đánh giá, mỗi prompt sử dụng một trong 30 cặp needle/question ngẫu nhiên
    • Được thử nghiệm trên nhiều kho tài liệu crowdsourcing với quy mô khác nhau
  • Claude 3 Opus đạt khả năng hồi tưởng gần như hoàn hảo trong NIAH với độ chính xác trên 99%
  • Trong một số trường hợp, mô hình còn nhận ra rằng câu “needle” trông như được con người chèn nhân tạo vào văn bản gốc, qua đó phát hiện giới hạn của chính bài đánh giá

Thiết kế an toàn và xử lý thiên lệch

  • Anthropic tập trung vào việc khiến họ Claude 3 đáng tin cậy tương xứng với năng lực của nó
  • Các nhóm chuyên trách theo dõi và giảm thiểu nhiều loại rủi ro
    • thông tin sai lệch
    • CSAM
    • lạm dụng sinh học
    • can thiệp bầu cử
    • khả năng tự sao chép tự chủ
  • Công ty tiếp tục phát triển các phương pháp như Constitutional AI để tăng độ an toàn và tính minh bạch của mô hình
  • Mô hình cũng được tinh chỉnh để giảm thiểu các vấn đề quyền riêng tư có thể phát sinh từ dạng đầu vào mới
  • Theo chuẩn Bias Benchmark for Question Answering (BBQ), Claude 3 ít thiên lệch hơn các mô hình trước
  • Họ Claude 3 đã tiến bộ hơn các mô hình trước trên các thước đo chính về tri thức sinh học, tri thức liên quan đến an ninh mạng và tính tự chủ, nhưng vẫn ở AI Safety Level 2 (ASL-2) theo Responsible Scaling Policy
  • Đánh giá red team kết luận rằng khả năng gây rủi ro thảm họa của các mô hình hiện tại là không đáng kể
  • Có thể xem thêm chi tiết an toàn trong Claude 3 model card

Khả năng sử dụng, giá theo từng mô hình và mục đích dùng

  • Các mô hình Claude 3 tuân theo các chỉ dẫn phức tạp nhiều bước tốt hơn
  • Chúng phù hợp hơn để tuân thủ brand voice và hướng dẫn phản hồi, đồng thời tạo ra trải nghiệm tiếp xúc khách hàng đáng tin cậy
  • Khả năng tạo đầu ra có cấu trúc như JSON được cải thiện, giúp việc chỉ dẫn Claude cho các trường hợp như phân loại ngôn ngữ tự nhiên và phân tích cảm xúc trở nên dễ dàng hơn
  • Claude 3 Opus

    • Claude 3 Opus là mô hình thông minh nhất, cho hiệu năng hàng đầu trong các tác vụ cực kỳ phức tạp
    • Mô hình xử lý các prompt mở và tình huống chưa từng gặp với độ trôi chảy cao và mức độ thấu hiểu gần con người
    • Giá là 15 USD cho mỗi 1 triệu token đầu vào và 75 USD cho mỗi 1 triệu token đầu ra
    • Cửa sổ ngữ cảnh là 200K, và với một số trường hợp sử dụng cụ thể có thể đạt 1 triệu token
    • Trường hợp sử dụng tiềm năng
      • lập kế hoạch và thực thi các tác vụ phức tạp trên API và cơ sở dữ liệu, lập trình tương tác
      • rà soát nghiên cứu, brainstorming, tạo giả thuyết, khám phá thuốc
      • phân tích nâng cao về biểu đồ và đồ thị, tài chính, xu hướng thị trường và dự báo
  • Claude 3 Sonnet

    • Claude 3 Sonnet hướng đến sự cân bằng giữa trí tuệ và tốc độ, đặc biệt phù hợp với workload doanh nghiệp
    • Mô hình mang lại hiệu năng mạnh với chi phí thấp hơn các mô hình cùng hạng, và được thiết kế để đạt tính bền bỉ cao trong triển khai AI quy mô lớn
    • Giá là 3 USD cho mỗi 1 triệu token đầu vào và 15 USD cho mỗi 1 triệu token đầu ra
    • Cửa sổ ngữ cảnh là 200K
    • Trường hợp sử dụng tiềm năng
      • RAG hoặc tìm kiếm và truy vấn trên khối tri thức lớn
      • gợi ý sản phẩm, dự đoán, marketing nhắm mục tiêu
      • sinh mã, kiểm soát chất lượng, phân tích văn bản từ hình ảnh
  • Claude 3 Haiku

    • Claude 3 Haiku là mô hình nhỏ nhất và nhanh nhất để có độ phản hồi gần như tức thì
    • Mô hình trả lời rất nhanh các truy vấn và yêu cầu đơn giản, hướng tới xây dựng trải nghiệm AI mượt mà mô phỏng tương tác của con người
    • Giá là 0,25 USD cho mỗi 1 triệu token đầu vào và 1,25 USD cho mỗi 1 triệu token đầu ra
    • Cửa sổ ngữ cảnh là 200K
    • Trường hợp sử dụng tiềm năng
      • hỗ trợ khách hàng và dịch thuật nhanh, chính xác trong các tương tác trực tiếp
      • kiểm duyệt nội dung để phát hiện hành vi rủi ro hoặc yêu cầu của khách hàng
      • tối ưu logistics, quản lý tồn kho, trích xuất tri thức từ dữ liệu phi cấu trúc

Tính năng sắp ra mắt và cập nhật

  • Anthropic cho rằng trí tuệ mô hình vẫn chưa tiến gần giới hạn, và có kế hoạch phát hành các bản cập nhật thường xuyên cho họ Claude 3 trong vài tháng tới
  • Nhiều tính năng nhằm tăng cường năng lực mô hình cho các trường hợp sử dụng doanh nghiệp và triển khai quy mô lớn đang được lên kế hoạch
    • sử dụng công cụ, tức function calling
    • lập trình tương tác, tức REPL
    • khả năng agent nâng cao hơn
  • Công ty giữ lập trường vừa mở rộng ranh giới năng lực AI vừa duy trì guardrail an toàn tương ứng với các cải tiến hiệu năng
  • Điểm bắt đầu để phát triển với Claude là anthropic.com/claude

1 bình luận

 
GN⁺ 2024-03-05
Ý kiến trên Hacker News
  • Vừa phát hành một plugin bổ sung hỗ trợ các mô hình Claude 3 cho công cụ dòng lệnh LLM của tôi
    Có thể thiết lập bằng pipx install llm, llm install llm-claude-3, llm keys set claude, rồi chạy kiểu như llm -m claude-3-opus '3 fun facts about pelicans'
    Mã nguồn: https://github.com/simonw/llm-claude-3
    Mô tả LLM: https://llm.datasette.io/

    • Trên Mac, tôi tạo một Quick Action trong Automator để nhận văn bản đã chọn, chuyển cho llm -m gpt-4, rồi hiển thị kết quả trong hộp thoại osascript; rất hữu ích
      Giờ có thể bôi đen văn bản trong bất kỳ ứng dụng nào rồi chạy LLM từ menu Services, còn gán cả phím tắt để dùng cho việc diễn giải lỗi terminal, tra cứu nhanh, và nhập prompt trực tiếp trong trình soạn thảo văn bản/IDE
    • Tôi đã chuyển script tóm tắt Hacker News sang Claude 3 Opus, phần mô tả ban đầu ở đây: https://til.simonwillison.net/llms/claude-hacker-news-themes
      Script lấy bài viết và bình luận từ API hn.algolia.com, bung ra bằng jq, rồi đưa vào llm -m claude-3-opus để tạo bản tóm tắt Markdown theo chủ đề kèm trích dẫn trực tiếp
      Kết quả khi chạy trên luồng có hơn 300 bình luận này: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
    • Việc tạo khóa API Anthropic trông có vẻ miễn phí, nên tôi nghĩ liệu có thể tự động hóa đến bước nhập khóa bằng headless Chrome không
      Khi cài bằng pip hoặc apt thì sẽ có thêm nhiều phần mềm chạy được ngay, nhưng hiện vẫn còn bước phiền phức là con người phải dán khóa API vào
      Cũng có thể đùa rằng khi gần chạm giới hạn API, phần mềm sẽ dùng GPU đào một ít Bitcoin để tự động thanh toán thêm dung lượng API, đúng chất thời đại AI
    • Nếu dùng Raycast trên Mac, có thể tạo script người dùng để trò chuyện với LLM CLI trong giao diện Raycast: https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
  • Opus và các mô hình Claude trước đó vẫn chưa giải đúng bài toán Sally
    Với câu hỏi “Sally có 3 anh/em trai và mỗi anh/em trai có 2 chị/em gái, vậy Sally có bao nhiêu chị/em gái?”, Claude kết luận rằng không có chị/em gái nào ngoài chính Sally, nên trả lời là 0
    https://imgur.com/a/EawcbeL

    • GPT-4 API và ChatGPT về cơ bản cũng sai và trả lời rằng “Sally có 2 chị/em gái”, nhưng nếu thêm system prompt yêu cầu suy nghĩ từng bước thì trả lời đúng là 1
      Do tầm quan trọng của cách prompt, việc so sánh hiệu năng tối đa của các mô hình trở nên khá khó, và mỗi mô hình cũng có phong cách prompt khác nhau để đạt hiệu năng tốt nhất
    • LLama 13B Q5 chạy cục bộ trả lời rằng trong bài này Sally có 1 chị/em gái là chính mình, và mỗi người trong 3 anh/em trai có 3 chị/em gái, nên tổng là 9 người, trừ phần của Sally còn 8 người
    • Cha mẹ của Sally và cha mẹ của các anh/em trai có thể khác nhau do tái hôn, v.v.; nếu quan hệ anh/chị/em trai-gái được xem là hợp lệ chỉ cần chung một phụ huynh thì có thể không có đáp án duy nhất
      Ví dụ, Sally và ba anh/em trai cùng mẹ nhưng khác cha; các anh/em trai có hai chị/em gái là Sally và Mary, nhưng Mary và Sally có tập cha mẹ khác nhau nên có thể không phải là chị/em gái của nhau
    • Những ví dụ như thế này khiến tôi nghi ngờ các quảng cáo thổi phồng về AI
      Họ nói là trí tuệ cấp tiến sĩ, nhưng còn không suy luận đúng bài toán trên; lượng thông tin cấp tiến sĩ khác với suy luận cao cấp, và có vẻ nhiều người không phân biệt được sự khác nhau đó
      Với xe tự lái cũng vậy: đi theo làn thì dễ, nhưng nhận diện làn đường và nhận diện vật thể thì khó; việc xe thực hiện được thao tác cơ bản không có nghĩa là nó thật sự hiểu tình huống. LLM trông cũng tương tự
    • Đây rõ ràng là một vấn đề, nhưng cũng là câu hỏi mà nếu hỏi một người lớn bình thường ngoài đường thì khá nhiều người sẽ trả lời sai
      Thay vì chỉ bám vào những chỗ mô hình mắc lỗi, cũng nên nhìn cả những điều đáng kinh ngạc mà chúng làm được đúng
  • Kết quả 70,2% của Claude 3 Opus trên benchmark APPS cho thấy nó có thể khá hữu ích cho lập trình
    APPS đo khả năng chuyển mô tả bài toán thành mã Python, với độ dài trung bình của bài toán gần 300 từ
    Điều thú vị là các mô hình hàng đầu khác không công bố kết quả benchmark này
    Thẻ mô hình Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
    Bảng 1: https://twitter.com/karinanguyen_/status/1764666528220557320
    Bộ dữ liệu APPS: https://huggingface.co/datasets/codeparrot/apps
    Bài báo APPS: https://arxiv.org/abs/2105.09938v3

    • Nhìn vào kết quả AMC 10, AMC 12 2023 ở Bảng 2, Claude 3 Opus có vẻ làm tốt hơn học sinh trung học trung bình tham gia kỳ thi toán này
      Điểm trung bình của học sinh lần lượt là 64,4 và 61,5, còn Opus 3 đạt 72 và 63
      Số người tham gia AMC 12 có khả năng dưới 100.000 trong tổng 3–4 triệu học sinh lớp 12 ở Mỹ; ngay cả nếu giả định chỉ một nửa nhóm học sinh top đầu tham gia, điểm trung bình AMC vẫn có thể đại diện cho top 2–4% học sinh trung học Mỹ
      https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
    • Theo David Rein, tác giả đầu tiên của benchmark GPQA, Claude 3 đạt độ chính xác khoảng 60% trên GPQA, và các câu hỏi này thật sự khó
      Ông giải thích rằng các tiến sĩ ở lĩnh vực khác, dù dùng Internet và dành hơn 30 phút để giải, cũng chỉ đạt 34%, còn các tiến sĩ cùng lĩnh vực dù dùng Internet cũng chỉ đạt độ chính xác 65–75%
      https://twitter.com/idavidrein/status/1764675668175094169
      GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
    • Nói từ góc độ một người làm việc tại Anthropic, gần đây Opus đang viết giúp tôi một phần đáng kể mã nguồn phục vụ công việc
    • Sau khi xem benchmark và những lời khen, hôm nay tôi đã đăng ký Pro, nhưng trong quy trình làm việc thường ngày thì đó là một thảm họa hoàn toàn
      So với ChatGPT-4, tôi cảm thấy nó tệ hơn vài bậc độ lớn, và trải nghiệm sử dụng thực tế như một bước lùi rất xa về quá khứ
    • APPS có ba tập con theo độ khó: introductory, interview, competition, nhưng không rõ Claude 3 được đo trên tập con nào
      Chỉ riêng introductory thôi cũng đã là kết quả tốt, nhưng sẽ tốt hơn nếu biết đó là theo tiêu chí nào
  • Trong phần mô tả Claude 3, đoạn nói rằng số lần từ chối không cần thiết đã giảm so với các mô hình trước cứ khiến tôi khó chịu
    Tôi hiểu rằng công ty không muốn bán một sản phẩm cho phép bất kỳ ai học cách chế tạo ma túy hay bom, nhưng nếu một mô hình chạy trên máy tính của tôi từ chối việc tôi yêu cầu thì thật khó chịu
    Tôi phải thuyết phục hoặc đánh lừa mô hình để đạt được kết quả mong muốn, và việc một công cụ từ chối mệnh lệnh của chủ sở hữu khiến tôi cảm thấy như một sự xúc phạm đối với mối quan hệ giữa con người và công cụ
    Nếu tôi muốn dùng búa để vặn vít thì đó là lựa chọn của tôi, không phải việc để cái búa quyết định; tôi không hiểu vì sao người ta lại ám ảnh với việc khiến công cụ AI từ chối mệnh lệnh của chủ sở hữu chỉ vì “an toàn” do một bên thứ ba định nghĩa

    • Họ hành động theo nguyên tắc tương tự như việc nhiều nhà phát triển từ chối hỗ trợ phát triển vũ khí
      Họ không muốn hành vi của người khác khi dùng công cụ của mình trở thành gánh nặng lương tâm
      Tuy nhiên, vì nhiều người tin vào tội phạm tư tưởng và có niềm tin kiểu Thanh giáo về tình dục, nếu không chiều theo điều đó thì sẽ phải trả giá về danh tiếng và chi phí gọi vốn
      Nếu người dùng dùng mô hình để phạm tội thì hệ thống pháp luật xử lý là được, tôi cho rằng không cần Big Brother giám sát cả tội phạm tư tưởng
    • Ví von với cái búa là dở, và ví von rằng “nếu tôi muốn dùng vũ khí hạt nhân thì đó là lựa chọn của tôi và trách nhiệm lạm dụng cũng thuộc về tôi” cũng dở tương tự
      Hiện tại, phép ví von với cái búa nhìn chung có thể có vẻ đúng, nhưng phía AI alignment cho rằng các hệ thống này sẽ sớm, chậm nhất trong vòng 10 năm nữa, tăng năng lực rất mạnh
      Trạng thái mặc định của công cụ là trung lập về đạo đức, nó giúp cả người tốt lẫn kẻ xấu trở nên hiệu quả hơn; nếu tấn công và phòng thủ đối xứng thì vấn đề nhỏ, nhưng không có lý do gì để tin là như vậy
      Lý do tồn tại quy định với súng máy tự động công suất cao cũng là vì tính bất đối xứng giữa năng lực tấn công của một kẻ đơn độc làm ác và việc không thể phòng thủ là quá lớn; nếu tấn công bằng AI trở nên dễ hơn phòng thủ rất nhiều, hệ tư tưởng hướng tới sự mở có thể thất bại trong thực tế
      Tuy vậy, việc một nhóm thiểu số quyết định các guardrail là vấn đề, và có vẻ là tác dụng phụ của việc AI xuất hiện quá nhanh
    • Nếu một công ty sản xuất búa có thể, gần như không tốn chi phí, khiến búa không bị dùng để tấn công con người, tôi nghĩ nhiều công ty sẽ thêm tính năng như vậy
      Điều đó có thể xảy ra vì áp lực từ chính phủ hoặc vì marketing cạnh tranh kiểu “búa của chúng tôi không vô tình làm trẻ sơ sinh bị thương”; việc búa không có tính năng như vậy có thể không phải là lựa chọn mà chỉ là hệ quả phụ của giới hạn kỹ thuật
    • Tôi nghĩ đó là ý thức về quyền lợi quá mức
      Việc Photoshop không cho chỉnh sửa hình ảnh tiền cũng khiến bạn khó chịu à? Mô hình đó không thuộc về người dùng, và người dùng cũng không phải người đã bỏ ra hàng tỷ đô la để phát triển nó
      Như phần mềm thương mại vẫn luôn vậy, hoặc dùng theo điều kiện do nhà phát triển đặt ra, hoặc không dùng
    • Những người nổi giận vì bị từ chối dường như không hiểu khách hàng thực sự của thị trường AI là ai và tiền nằm ở đâu
      Thị trường mục tiêu là các tập đoàn lớn muốn tự động hóa nhiều công việc để tiết kiệm hàng trăm triệu đến hàng tỷ đô la chi phí nhân công; thứ họ muốn là một mô hình đáng tin cậy, có thông tin chính xác và guardrail tốt
      Một công ty bảo hiểm đa quốc gia lớn chắc chắn sẽ không chấp nhận rủi ro rằng chatbot hỗ trợ khách hàng của họ, khi bị khách hàng dụ chơi khăm, lại viết truyện khiêu dâm cho người đó
      Người dùng quan trọng không phải cá nhân, mà là các nhà tuyển dụng muốn thay thế nhân viên hỗ trợ khách hàng làm lao động cảm xúc; họ muốn một thứ thay thế con người được kiểm soát, thân thiện và có guardrail
  • Opus đã áp đảo Gemini Pro và GPT-4 trong các câu hỏi phức tạp
    Đó là nhiệm vụ tìm nhiều con số trong một PDF đầu tư bảo hiểm nhân thọ dài 43 trang, và các mô hình khác còn không tới gần
    Chỉ Claude 3 Sonnet là gần, ở mức bỏ sót một câu hỏi

    • Tôi tò mò liệu đã so sánh với cửa sổ ngữ cảnh 1 triệu token của Gemini Pro 1.5 chưa
      Nó có thể lý tưởng cho PDF 43 trang, và tôi có quyền truy cập nên có thể thử kiểm tra bằng Pro 1.5
    • Tôi đã hỏi Sonnet một câu liên quan đến GAN, kết quả khá ổn và có vẻ tốt hơn GPT-3.5
    • Tôi đã dùng thử Sonnet nhưng thấy không hay lắm
  • Tôi đăng ký Claude Pro để thử Opus, đặt các câu hỏi phức tạp liên quan đến hình ảnh và fine-tuning SDXL, rồi yêu cầu tính so sánh chi phí giữa RTX 6000 Ada và H100, nhưng nó mắc nhiều lỗi
    Khi tôi đưa ảnh chụp màn hình giá GPU trên Runpod, nó đọc nhầm giá RTX 6000 Ada là $0.114 thay vì $1.14, và trong các phép tính sau đó, các biểu thức như .278 * $0.114 hay .116 * $4.69 cũng không khớp với tổng tiền nó đưa ra
    Ngược lại, ChatGPT 4 đọc đúng giá từ cùng ảnh chụp màn hình, tự nhận ra RTX 6000 Ada không khả dụng rồi thay bằng 4090, và tính toán nhất quán hơn

    • Có vẻ GPT chạy một hàm phụ riêng cho token đầu vào/đầu ra để sửa vấn đề token hóa
      Ngoài cách tìm các mục công thức rồi gửi chúng tới parser và hàm tự chế, sau đó chèn kết quả trở lại token đầu ra, tôi không thấy cách nào để khắc phục vấn đề này
      Tham khảo: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
    • Với tư cách CISO của Anthropic, cảm ơn phản hồi của bạn; nếu có thể chia sẻ chi tiết hình ảnh thì rất mong bạn gửi qua tin nhắn riêng
      Chưa có LLM nào từng có máy tính nổi lên tự phát cả
    • Tôi thắc mắc chính xác OpenAI có ý gì khi nói GPT-4 có thị giác thông minh hơn GPT-4 không có thị giác
      Ý là năng lực thị giác làm tăng trí thông minh ngay cả trong các tác vụ không có đầu vào hình ảnh sao?
    • Khác biệt có lẽ phát sinh ở khâu đọc ảnh chụp màn hình, còn nếu chỉ đưa văn bản thì có vẻ ngang tầm GPT-4
      Ví dụ, với một biểu thức số học phức tạp, đáp án đúng từ máy tính là 22.08555452004, GPT-4 không dùng Python cho ra 22.3038, còn Claude 3 Opus cho ra 22.0492
    • Kẻ phá hủy kinh tế thực sự có lẽ sẽ xuất hiện khi có thể ra lệnh kiểu “hãy đầu tư 1.000 đô la này để tối đa hóa lợi nhuận và biến nó thành gấp 100 lần”
      Sau đó là tha hồ chạy bot r/wallStreetBets
  • Tôi đã thử một prompt lập trình đơn giản có liên quan giữa DB và frontend, và Claude 3 Sonnet, một model miễn phí và yếu hơn, lại cho câu trả lời tốt hơn ChatGPT Classic
    Nó dùng đúng method của một thư viện SQL ORM ít được biết đến hơn, còn GPT-4 thì dùng sai method
    Tuy nhiên, với prompt tạo SQL thì nó đưa ra câu trả lời tệ hơn ChatGPT Classic; trông có vẻ đúng nhưng dài hơn nhiều
    Link ChatGPT 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
    Link ChatGPT 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba

    • Có vẻ cuộc chat đó đang dùng GPT-3 hoặc một model yếu hơn
      Biểu tượng màu xanh lá nghĩa là model ChatGPT thế hệ 1, nhiều khả năng là GPT-3.5 Turbo
      Chạy bằng GPT-4 thì ra kết quả như kỳ vọng: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
      Đây là một ví dụ hay để cho thấy khá nhiều trường hợp ChatGPT thất bại trên Internet thực ra là kết quả từ model yếu
      Biểu tượng OpenAI nền xanh lá là GPT-3.5, biểu tượng đen hoặc tím là GPT-4; GPT-4 Turbo qua API làm tốt hơn một chút, có lẽ vì có nhiều kiến thức hơn về Drizzle
  • Sau khi dùng thử Opus một chút, tôi bắt đầu nghi ngờ rằng benchmark có đang lệch một cách có hệ thống so với hiệu năng thực tế hay không
    Thực tế trông nó không tốt hơn GPT-4, thậm chí có vẻ hơi kém hơn
    Trong câu hỏi cơ bản về giải tích/vật lý, dù đã nói rõ gia tốc chậm dần tỉ lệ với vận tốc, nó vẫn giả định gia tốc chậm dần là hằng số; trong bài test mô phỏng giao thông, nó quên khái niệm hướng đã trao đổi trước đó, còn kém hơn cả kết quả vốn đã tệ của GPT-4
    Bài test dạy trong ngữ cảnh rồi kiểm tra khả năng hiểu màu cơ bản của ánh sáng cũng tệ hơn, và trong coding thì hơi tụt sau GPT-4 ở bài toán tính thuế lãi vốn dài hạn

    • AI Explained trên YouTube từng đăng một video nói rằng các bài test dùng để đánh giá LLM đầy đáp án sai nên gần như vô dụng
    • Có vẻ sau khi huấn luyện model và có được các con số, đội an toàn lại dùng RLHF để mài giũa nó đến kiệt quệ
  • Tôi đã thêm Claude 3 vào Chat của https://double.bot, nên có thể dùng thử cho coding
    Hiện tại đang miễn phí, và chiều nay tôi dự định đưa Claude 3 vào cả tính năng autocomplete
    Theo thử nghiệm ban đầu, đây có vẻ là phương án thay thế API đầu tiên cho GPT-4, và là một sự kiện lớn

    • Double giống Copilot nhưng miễn phí à? Tôi tò mò cái bẫy là gì
    • Tôi muốn biết nó so với Codeium thế nào, và có kế hoạch hỗ trợ tích hợp Vim/Neovim không
      Codeium hiện đã hỗ trợ khá ổn
      https://www.codium.ai
      https://github.com/Exafunction/codeium.vim
    • Tôi cũng muốn biết Double có kế hoạch hỗ trợ model mã nguồn mở được host local hoặc trên cloud instance không
      Tôi đang xây một sản phẩm trong cùng lĩnh vực và đã nhận được yêu cầu kiểu này vài lần; nếu là extension IDE thì có vẻ có thể kết nối tới bất kỳ model AI nào đang chạy ở đâu đó
    • API hiện có vẻ kém ổn định hơn GPT-4, nhưng nếu endpoint vừa ra mắt đang được dùng nhiều thì cũng dễ hiểu
    • Nói chính xác thì tôi muốn biết đây là model Claude 3 Opus hay Sonnet
  • Bất kỳ model nào vượt qua GPT-4 cũng là chuyện lớn, và việc họ làm được điều đó rất ấn tượng
    Tuy nhiên GPT-4 là model đã 1 năm tuổi, còn OpenAI vẫn chưa công bố model thế hệ tiếp theo

    • Việc dự đoán model tiếp theo của OpenAI sẽ giành lại vị trí dẫn đầu là điều tự nhiên, nhưng việc Anthropic bắt kịp đến mức này thật sự rất ấn tượng
      Bài paper GPT-3 ra đời năm 2020, còn Anthropic mãi đến 2021 mới được thành lập, nên trong khi OpenAI đã có kinh nghiệm ba thế hệ, Anthropic về cơ bản bắt đầu từ con số không và đã tạm thời vượt lên ở một số benchmark
      Model thế hệ tiếp theo của OpenAI có lẽ đã huấn luyện xong và đang trong giai đoạn fine-tuning cùng đánh giá an toàn, nhưng vì lý do tồn tại của Anthropic là an toàn, khó có thể cho rằng họ đã làm qua loa phần đó chỉ để vội tung model này ra
    • ChatGPT-4 vẫn liên tục được cập nhật, và các phiên bản gần đây là GPT-4-1106-previewGPT-4-0125-preview
      Tham khảo: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
    • Theo chú thích trong blog, các kỹ sư đã tối ưu prompt đánh giá và mẫu few-shot báo cáo điểm số cao hơn trên model GPT-4T mới hơn
    • Những người đóng vai trò cốt lõi trong sự ra đời của GPT hiện đang làm việc tại Anthropic
    • Trong bảng đó, chỉ số thực sự quan trọng về cơ bản là MMLU, vì nó có tương quan lớn với năng lực suy luận đa tác vụ
      Ở đây nó vượt GPT-4 một chút, và trước giờ có vẻ chưa model nào khác làm được vậy, nên bản thân điều đó đã rất ấn tượng