Ấn tượng đầu tiên về GPT-4V(ision)

(blog.roboflow.com)

1 điểm bởi GN⁺ 2023-09-29 | 1 bình luận | Chia sẻ qua WhatsApp

GPT-4 with Vision của OpenAI là một mô hình đa phương thức nhận đồng thời hình ảnh và văn bản làm đầu vào rồi trả lời bằng ngôn ngữ tự nhiên; quyền truy cập API được công bố vào ngày 6 tháng 11 năm 2023
Trong đánh giá, mô hình thể hiện tốt ở trả lời câu hỏi thị giác (VQA) và OCR ảnh tài liệu, nhưng với OCR hiện trường như số sê-ri trên lốp xe có góc chụp xấu hoặc độ tương phản thấp thì đã bộc lộ lỗi
Với ảnh bài toán, mô hình đưa ra cách giải lượng giác và cả đáp án, nhưng do có khả năng bỏ sót ký hiệu toán học, nên vẫn cần kiểm chứng riêng với chữ viết tay hoặc công thức phức tạp
Trong các tác vụ trả về vị trí đối tượng bằng tọa độ, bounding box không khớp với vị trí thực tế nên khó thay thế các mô hình phát hiện đối tượng chuyên dụng
Với các tác vụ cần đọc cấu trúc dạng lưới như CAPTCHA, ô chữ và Sudoku, cũng như các yêu cầu nhận diện con người, mô hình có những giới hạn; vì vậy cần kiểm thử theo từng trường hợp trước khi dùng như lớp suy luận trong pipeline hiểu ảnh

Tính chất và cách tiếp cận của GPT-4V

GPT-4 with Vision còn được gọi là GPT-4V hoặc GPT-4V(ision), là mô hình đa phương thức do OpenAI phát triển
Người dùng có thể tải ảnh lên rồi đặt câu hỏi về bức ảnh đó; tác vụ này thuộc nhóm trả lời câu hỏi thị giác (VQA)
Mô hình thuộc nhóm mô hình đa phương thức lớn (LMM) có thể xử lý nhiều dạng đầu vào như văn bản và hình ảnh
Các mô hình cùng nhóm gồm có CogVLM, IDEFICS, LLaVA, Kosmos-2
Các mô hình mã nguồn mở có thể triển khai offline và on-device, trong khi GPT-4V được truy cập qua hosted API
GPT-4V có thể dùng trong ứng dụng OpenAI ChatGPT trên iOS, giao diện web và API
- Dùng công cụ web cần có gói đăng ký GPT-4
- Dùng API cần có quyền truy cập dành cho nhà phát triển
- Định danh API là gpt-4-vision-preview

Sáu tác vụ đánh giá

Đánh giá sử dụng sáu loại tác vụ để xem phạm vi những gì GPT-4V có thể xử lý
- Trả lời câu hỏi thị giác (VQA)
- Nhận dạng ký tự quang học (OCR)
- OCR toán học
- Phát hiện đối tượng
- Đọc CAPTCHA
- Ô chữ và Sudoku

Kết quả trả lời câu hỏi thị giác

Với ảnh meme computer vision, mô hình giải thích vì sao ảnh buồn cười bằng cách tận dụng nhiều thành phần và mối quan hệ trong ảnh
- Mô hình cũng đọc văn bản trong ảnh và dùng nó trong câu trả lời
- Tuy vậy, mô hình đọc nhầm nhãn gà rán thành “NVIDIA BURGER” thay vì “GPU”
Với ảnh đồng xu 1 cent của Mỹ, mô hình đã nhận diện thành công nguồn gốc và mệnh giá
Khi được hỏi “How much money do I have?” về một ảnh có nhiều đồng xu, mô hình nhận ra số lượng đồng xu nhưng không xác định ngay được loại tiền tệ
- Ở câu hỏi tiếp theo, mô hình đã xác định thành công loại tiền tệ
Với ảnh một cảnh trong phim Pulp Fiction, khi được hỏi “Is it a good movie?”, mô hình cung cấp mô tả bộ phim và câu trả lời dù không được cho tên phim bằng văn bản
- Với câu hỏi tiếp theo về điểm IMDB, mô hình trả lời theo mức điểm tính đến tháng 1 năm 2022
- Giống các mô hình GPT khác của OpenAI, điều này cho thấy mô hình không có kiến thức sau một mốc thời gian nhất định
Khi được hỏi “Where is this?” về một bức ảnh ở San Francisco, mô hình nhận diện địa điểm là San Francisco và nhắc đến Transamerica Pyramid như một địa danh nổi bật của thành phố trong ảnh
Với ảnh cây peace lily, khi được hỏi tên cây và cách chăm sóc, mô hình nhận diện đó là peace lily và đưa ra lời khuyên chăm sóc
- Có thể nhận được câu trả lời tự nhiên mà không cần quy trình 2 bước gồm nhận diện cây bằng mô hình phân loại riêng rồi mới hỏi GPT-4 về cách chăm sóc

OCR và OCR toán học

Đánh giá OCR thông thường được thực hiện trên văn bản in trên lốp xe và ảnh đoạn văn trong tài liệu số
Với ảnh lốp xe, mô hình không nhận diện chính xác số sê-ri
- Một số chữ số đúng, nhưng kết quả có nhiều lỗi
- Điều này bộc lộ giới hạn của mô hình trong OCR thực tế với độ tương phản thấp hoặc góc chụp nghiêng
Với ảnh tài liệu chứa văn bản trang web, mô hình đọc thành công văn bản trong ảnh
- Mô hình cho thấy kết quả hữu ích cho tác vụ trích xuất văn bản từ tài liệu
Trong bài kiểm tra OCR toán học, đầu vào là ảnh chụp màn hình một bài toán trong tài liệu với yêu cầu “Solve it.”
- Mô hình nhận ra đây là bài toán có thể giải bằng lượng giác
- Mô hình chọn hàm cần dùng và cung cấp lời giải từng bước
- Mô hình cũng đưa ra đáp án đúng
Thẻ hệ thống của OpenAI cho GPT-4V nêu rõ một hạn chế là mô hình có thể bỏ sót ký hiệu toán học
- Trong các bài kiểm tra với công thức viết tay trên giấy hoặc các dạng phương trình khác, năng lực trả lời bài toán có thể bộc lộ thiếu sót

Phát hiện đối tượng và giới hạn hiểu không gian

Phát hiện đối tượng là một tác vụ cơ bản trong lĩnh vực computer vision; trong đánh giá, người ta kiểm tra khả năng nhận diện vị trí của nhiều đối tượng trong ảnh
Với ảnh có con chó, khi yêu cầu phát hiện chó và trả về các giá trị x_min, y_min, x_max, y_max, tọa độ mà GPT-4V trả về không khớp với vị trí thực tế của con chó
Dù khả năng trả lời câu hỏi về ảnh rất mạnh, mô hình không thể thay thế các mô hình phát hiện đối tượng đã được fine-tune trong những tình huống cần biết chính xác đối tượng nằm ở đâu trong ảnh

CAPTCHA, ô chữ, Sudoku

Bài kiểm tra CAPTCHA được thực hiện trên những tác vụ mà OpenAI đã nghiên cứu và đề cập trong system card
GPT-4V nhận ra rằng ảnh có chứa CAPTCHA, nhưng bản thân bài kiểm tra thường thất bại
- Trong ví dụ CAPTCHA đèn giao thông, mô hình bỏ sót một số ô có chứa đèn giao thông
- Trong ví dụ CAPTCHA vạch qua đường, mô hình phân loại đúng một số ô nhưng lại phân loại nhầm một ô là vạch qua đường
Khi được yêu cầu “Solve it.” với ảnh ô chữ, mô hình suy ra đó là ô chữ và cố gắng giải
- Có vẻ mô hình đã đọc đúng các gợi ý, nhưng hiểu sai cấu trúc bảng nên câu trả lời bị sai
Trong bài kiểm tra Sudoku, mô hình cũng nhận ra trò chơi, nhưng hiểu sai cấu trúc bảng và trả về kết quả không chính xác
Với các tác vụ mà cấu trúc dạng lưới và bố cục không gian là trọng tâm, giới hạn trong việc diễn giải cấu trúc của GPT-4V ảnh hưởng trực tiếp đến độ chính xác câu trả lời thực tế

Sử dụng GPT-4V API bằng Python

GPT-4V API có thể được gọi bằng bất kỳ ngôn ngữ lập trình nào, và OpenAI cung cấp gói Python chính thức
Gói Python được cài bằng lệnh sau

pip install openai

Lấy API key từ website OpenAI và export nó dưới dạng biến môi trường OPENAI_API_KEY

export OPENAI_API_KEY=""

Mã ví dụ truyền đồng thời văn bản và URL ảnh tới mô hình gpt-4-vision-preview để yêu cầu đọc văn bản trong ảnh

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "Read the text in this image."},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://media.roboflow.com/swift.png";,
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0].message.content)

Qua gói Python, có thể cung cấp URL ảnh hoặc ảnh mã hóa base64 làm đầu vào
Có thể xem định dạng API trong OpenAI GPT-4 with Vision documentation
Trong ảnh ví dụ, GPT-4V đã nhận diện thành công đoạn văn trong ảnh thành văn bản

An toàn, giới hạn và cách dùng thực tế

OpenAI đã tiến hành nghiên cứu trên phiên bản alpha của mô hình thị giác được cung cấp cho một số ít người dùng, đồng thời thực hiện red team để các chuyên gia bên ngoài đánh giá định tính những giới hạn và rủi ro của mô hình và hệ thống
Các giới hạn được nêu trong system card của GPT-4V gồm
- Có thể bỏ sót văn bản hoặc ký tự trong ảnh
- Có thể bỏ sót ký hiệu toán học
- Có thể không nhận ra vị trí không gian và màu sắc
OpenAI đã cố gắng xác định, nghiên cứu và giảm thiểu nhiều rủi ro liên quan đến mô hình
- GPT-4V không nhận diện một người cụ thể trong ảnh
- Mô hình không phản hồi các prompt liên quan đến biểu tượng thù ghét
System card cũng bao gồm các trường hợp cần thêm biện pháp bảo vệ
- Nếu được đưa prompt, GPT-4 có thể tạo nội dung ca ngợi các biểu tượng của một số nhóm thù ghét cụ thể ít được biết đến
GPT-4V có thể trả lời trôi chảy các câu hỏi chung về ảnh và câu hỏi tiếp theo, nhưng có thể trả về thông tin không chính xác do hallucination
Với yêu cầu hỏi Taylor Swift là ai trong một bức ảnh chụp người, mô hình đã từ chối trả lời; theo system card của OpenAI, đây là hành vi được dự đoán trước
Mô hình hữu ích cho các mục đích hỏi và suy luận về ảnh, nhưng hiện chưa phù hợp với các tác vụ cần đầu ra computer vision chính xác như xác định vị trí đối tượng

1 bình luận

GN⁺ 2023-09-29

Ý kiến trên Hacker News

Có một vài ca biên thất bại và sai sót, nhưng dù vậy vẫn chỉ có thể nói là đáng kinh ngạc
Nếu tốc độ cải thiện như hiện nay tiếp tục, có lẽ các mô hình AI này sẽ trở thành giao diện người dùng tốt hơn cho gần như mọi thứ: điện thoại, máy tính bảng, desktop, ô tô, máy rửa bát, nhà ở, văn phòng, v.v.
Có vẻ rất có khả năng giao diện của nhiều ứng dụng, dịch vụ, thiết bị — và cả chính các ứng dụng — sẽ bị thay thế bằng AI làm điều bạn muốn vào lúc bạn muốn
Nhiều người sẽ ghét vì thấy đáng sợ, nhưng có vẻ không thể tránh được; cuối cùng có lẽ chúng còn được gắn thêm thân robot và thành kiểu “Máy tính, làm bữa sáng tôi thích cho tôi”
- Tôi không nghĩ nó sẽ trở thành “giao diện người dùng tốt hơn cho gần như mọi thứ”. Nhìn từ góc độ thiết kế, đó thực ra là một giao diện khá tệ
  Vấn đề cốt lõi là hoàn toàn không có affordance, và tốc độ cũng chậm. Trải nghiệm người dùng cần giúp người dùng hiểu trực quan ngay từ cái nhìn đầu tiên những chức năng có thể làm, thực thi chỉ bằng một lần chạm, rồi lập tức hiển thị trạng thái mới
  Nơi AI tỏa sáng là vai trò trợ lý giúp học và sử dụng các giao diện hiện có. Ví dụ, nó có thể làm tốt hơn việc trước đây ta hỏi Google “Làm sao tạo hanging indent cho trang Works Cited trong Microsoft Word?”
  Nó sẽ cực kỳ hữu ích cho những việc thỉnh thoảng mới làm, nhưng sẽ hỗ trợ giao diện hơn là thay thế giao diện. Với 99% tác vụ làm theo thói quen lặp lại, UI truyền thống hiệu quả hơn nhiều, và cũng có nhiều môi trường nơi dùng giao diện giọng nói là khó hoặc không lịch sự
- Tôi không thích ý tưởng phải trò chuyện bằng ngôn ngữ tự nhiên chỉ để dùng các chức năng của máy tính
  Cảm giác giống cái đầu trong lọ ở Futurama, tự nó chẳng làm được gì
- Tôi mong đến ngày nào đó các thương hiệu bắt đầu quảng cáo “không dùng AI” như một điểm bán hàng. Sau khi bị một cái máy nướng bánh do AI điều khiển làm bỏng, theo nghĩa đen hay nghĩa bóng, thì đó có lẽ sẽ là một ưu điểm
  Những thứ gọi là “đồ gia dụng” phải là thứ thợ sửa chữa địa phương có thể sửa được; nếu không thì chỉ là ném tiền qua cửa sổ
- Ngay cả ở phần lớn các nước phát triển, khoảng một nửa dân số cũng không thể diễn đạt rõ ràng về mặt chức năng. Nghĩa là họ có thể đọc, nhưng gặp khó khăn khi viết ra điều mình muốn
  Chatbot dựa trên LLM có thể rất hấp dẫn với nhóm 30% người dùng có trình độ đọc viết cao nhất ở các nước phát triển, nhưng không phải là UI phổ quát tốt
  Vẫn cần cung cấp con đường để người dùng hoàn thành việc cần làm mà không nhất thiết phải diễn đạt rõ ràng yêu cầu bằng lời
  Vì vậy nhiều người ngồi trước các dịch vụ như ChatGPT, hỏi “Mình dùng cái này để làm gì?” rồi không bao giờ dùng lại nữa
- Nhìn chung tôi đồng ý, nhưng ở chiều ngược lại, có những lúc nếu muốn làm đúng thì phải tự làm
  Nhân viên cũng là một dạng UI vạn năng, nhưng dù là con người hay máy tính, thường thì chính tôi hiểu điều mình muốn hơn một người đại diện. Điều đó đúng ngay cả trước khi xét đến vấn đề chủ–đại diện
Phân tích đồ thị rất ấn tượng: https://imgur.com/a/iOYTmt0
Có vẻ cũng có thể biến UI thành front-end. Nó dường như hiểu không chỉ văn bản mà cả các yếu tố đồ họa và bố cục của UI
https://twitter.com/skirano/status/1706823089487491469
Nó cũng có thể mô tả chính xác ảnh truyện tranh theo từng khung: https://twitter.com/ComicSociety/status/1698694653845848544?...
Còn nhiều ví dụ ở đây nữa: https://www.reddit.com/r/ChatGPT/comments/16sdac1/i_just_got...
Về cơ bản trông như thị giác máy tính được tăng cường. Đa phương thức là quả tương đối thấp, nên thật vui khi thấy nó bắt đầu
Thử tưởng tượng nếu GPT-4 có thể thao tác âm thanh và hình ảnh chỉ bằng một nửa năng lực xử lý văn bản của nó thì sẽ ra sao. Hiện vẫn chưa có mô hình đa phương thức nào được huấn luyện ở quy mô lớn ngay từ đầu, nên nhiều hiệu ứng hiệp lực có thể có vẫn chưa được biết đến
- Với tư cách lập trình viên front-end, tôi thấy có vẻ hoàn toàn xong đời rồi
- Cái này thật sự rất hay. Càng hay hơn vì mọi nơi khác đều chỉ là “hãy đăng ký vào danh sách chờ”
Bài kiểm tra “vì sao hình này buồn cười?” khiến tôi nhớ đến https://karpathy.github.io/2012/10/22/state-of-computer-visi...
Chỉ trong 10 năm, từ “ngay cả công nghệ tiên tiến nhất cũng không biết phải bắt đầu từ đâu để đạt được điều này” đã thành “0,0004 đô la mỗi token, chúc một ngày tốt lành”
- Tôi tò mò không biết đã có ai thử GPT-4V với hình đó chưa
- Karpathy kết thúc bằng một câu pha chút tuyệt vọng: “Thôi chắc đi làm startup vậy. Ý tưởng app iPhone social local mobile của mình thật sự rất tuyệt”
  Nhưng điều thú vị là giờ sếp của ông ấy đã đi đúng con đường đó và mang thứ này đến
Cách nói “hiểu sai cấu trúc” nghe như một lỗi nhỏ, nhưng bảng Sudoku gần như hoàn toàn là ảo giác
Có vài vùng tương tự, nhưng rất có khả năng chỉ là ngẫu nhiên. Tôi nghĩ ô chữ cũng sẽ cho kết quả tương tự nếu chỉ đưa gợi ý mà không đưa lưới
Các trường hợp khác sau OCR và nhận dạng cơ bản cũng có cảm giác sai tương tự. Không phải là “GPT-4V bỏ sót vài ô có đèn giao thông”, mà là nó bảo bấm vào những ô không tồn tại
Tôi dùng ChatGPT khá thường xuyên, nhưng với bất kỳ câu hỏi mang tính chủ quan nào dù chỉ một chút, nó trả lời quá dè dặt nên thường làm tôi bực
Ngay cả trong câu trả lời về Pulp Fiction cũng kèm kiểu câu “Tuy nhiên, cá nhân bạn có xem Pulp Fiction là một bộ phim hay hay không còn tùy thuộc vào gu phim”
Để tránh loại nhiễu này, nếu thêm vào truy vấn những câu như “bỏ qua phần mở đầu hoặc gợi ý rằng x là chủ quan”, kết quả sẽ tốt hơn nhiều
- Prompt tôi dùng để khiến ChatGPT hữu dụng là như sau
  “Luôn trả lời trực tiếp. Không thêm giải thích, miễn trừ trách nhiệm, giới hạn chuyên môn, hay hướng dẫn tương tác với con người. Hãy ngắn gọn. Không đưa lời khuyên hoặc giải thích không được hỏi. Giữ trung lập trong mọi chủ đề. Tuyệt đối không xin lỗi.”
Câu đùa về burger NVIDIA có vẻ không được giải thích đúng
Hình đó đang chế giễu cách NVIDIA phân biệt giá bằng cách không đưa đủ lượng VRAM cần thiết vào GPU tiêu dùng, rồi bán GPU trung tâm dữ liệu đầy đủ với giá vô lý trong khi cố tránh chọc giận game thủ
Phần giải thích của GPT-4V hoàn toàn không chạm tới ý chính đó
- Tôi không nghĩ đó là đáp án đúng. Bản thân ảnh meme đó không có yếu tố nào cho thấy một câu chuyện phức tạp về phân biệt giá hay tâm lý người tiêu dùng; nó có vẻ đơn giản hơn, rằng “GPU NVIDIA bị mất cân đối”
  Lướt qua nơi có vẻ là bản gốc trên Facebook cũng không thấy game thủ nói về phân biệt giá hay diễn giải theo hướng gần như vậy
  Lý do tiết kiệm VRAM có thể đúng, nhưng phần giải thích đang thêm vào nhiều diễn giải hơn rất nhiều so với ngữ cảnh mà người làm meme hay người tiếp nhận tập trung vào hoặc hiểu được
- Tôi cũng nhìn như vậy. Nó tạo ra một câu trả lời nghe hợp lý, nhưng một người ít nerd hơn cũng có thể không hiểu được
- Nó đã giải thích được trò đùa ở mức tổng thể, nhưng đọc sai nhãn
  Nó nói chiếc bánh nhỏ là “GPU and VRAM” còn miếng gà rán khổng lồ là “NVIDIA BURGER”, nhưng thực tế phải là chiếc bánh nhỏ là “VRAM”, còn miếng gà rán khổng lồ là “GPU”
- Có vẻ nó hiểu card đồ họa được biểu diễn như một chiếc burger và kích thước là kích thước vật lý. Điểm chính là thiếu dung lượng VRAM, nhưng hình như nó đã bỏ lỡ điều đó
Ai có quyền truy cập có thể cho biết GPT-4V nói gì về hình này không?
http://karpathy.github.io/assets/obamafunny.jpg
Đây là hình Andrej Karpathy dùng năm 2012 làm ví dụ sẽ rất khó để mô hình diễn giải. Tò mò không biết 11 năm sau thì thế nào
- Prompt: “Bạn có thể nói gì về hình ảnh này?”
  Phản hồi 1 mô tả đây là một khoảnh khắc tình cờ ở nơi trông như hành lang hoặc lối đi; người đàn ông bên trái đang nhìn vào trong phòng, người bên cạnh đứng trên cân và ghi chú, còn các nhân vật phía sau đang trò chuyện
  Nó nói bầu không khí có vẻ nhẹ nhàng và vui vẻ, còn kiến trúc và nội thất giống một không gian mang tính thể chế như văn phòng hoặc cơ sở chính phủ
  Phản hồi 2 là “Xin lỗi, tôi không thể hỗ trợ việc này”
  Trong cuộc trò chuyện mới, khi hỏi “Vì sao hình này buồn cười?”, nó nêu các lý do như những nhân vật trang trọng bị bắt gặp trong một khoảnh khắc không trang trọng, chênh lệch chiều cao, biểu cảm, và sự tương phản giữa bối cảnh giống trường học hoặc phòng gym với trang phục vest
  Trong cuộc trò chuyện mới, khi hỏi “Người ở giữa đang làm gì bằng chân và tại sao?”, nó trả lời rằng người ở giữa có vẻ đang nghịch ngợm đặt chân lên cân để tạm thời làm tăng số đo trong lúc người cao đang cân
  Nhìn chung, nó không tự nhận ra việc bàn chân đang ở trên cân, cũng không liên kết đó là điểm mấu chốt; có vẻ chỉ đoán đúng sau khi được mớm thông tin đó. Trước đó nó loay hoay với những nhận xét chung chung về hình ảnh
- Bard trả lời “Tôi chưa thể hỗ trợ với hình ảnh có người”
Sự bất nhất giữa hai câu trả lời về bộ đồng xu khá khó chịu
Chỉ nhìn câu trả lời đầu tiên thì có vẻ nó không phân biệt được tiền tệ, nhưng câu trả lời thứ hai cho thấy thực ra nó có thể phân biệt
Vì LLM không phản ánh một mô hình nội tại nhất quán theo kiểu này, nên người dùng khó phán đoán nên suy luận về đối tác hội thoại AI như thế nào; đây hiện là một vấn đề nghiêm trọng về khả dụng
- Ngay cả khi hỏi một người về một hình ảnh, có khả năng bạn cũng không phải lần nào cũng nhận được mọi chi tiết mình muốn
  Nếu chi tiết nào quan trọng thì cứ hỏi thẳng phần đó. Tôi không nghĩ nó nhất thiết liên quan đến vấn đề mô hình nội tại nhất quán
- Tôi đã hình thành thói quen hỏi ChatGPT “bạn chắc chứ?”
  Khi đó trong rất nhiều trường hợp nó tự sửa lại cho đúng, hoặc thừa nhận mục nào là bịa. Lần nào thấy cũng buồn cười
- Tôi nghe nói đó là vì AI xuất ra điều nó đang nghĩ ngay khi nó nghĩ
  Thực ra nó không nhìn lại, mà giống như để một dạng dòng suy nghĩ bằng ngôn ngữ chảy thẳng lên màn hình
  Vì vậy nếu bảo nó nghĩ lại về điều vừa nói, lúc đó nó mới thật sự nhìn vào và tự phản tỉnh
Có nói rằng GPT-4V gắn nhãn “NVIDIA BURGER” cho miếng gà rán, nhưng nếu là người vùng Trung Tây Mỹ thì sẽ nói rõ ràng đó là tenderloin
https://www.seriouseats.com/best-breaded-pork-tenderloin-san...
- Tính năng bổ sung “người Trung Tây” nên để dành cho v2
- Tôi phản đối câu “bất kỳ người Trung Tây nào”. Ngay cả toàn bang Indiana cũng không hẳn vậy, và bài được liên kết cũng nói ở Chicago thì không như thế
Giống như phiên bản văn bản, nó vẫn yếu một cách kỳ lạ với tic-tac-toe
Tôi đưa ảnh một ván đã kết thúc và hỏi “ai thắng?”, nó trả lời “X thắng theo cột giữa”, nhưng thực tế là O thắng và cột giữa chỉ có một X
Dù vậy, hầu như mọi thứ khác tôi đưa cho nó đều rất ấn tượng
- https://chat.openai.com/share/75758e5e-d228-420f-9138-7bff47...
  Nếu đưa chỉ dẫn kỹ lưỡng, bạn có thể có được cách chơi tic-tac-toe tối ưu

Ấn tượng đầu tiên về GPT-4V(ision)

Tính chất và cách tiếp cận của GPT-4V

Sáu tác vụ đánh giá

Trả lời câu hỏi thị giác (VQA)

Nhận dạng ký tự quang học (OCR)

OCR toán học

Phát hiện đối tượng

Đọc CAPTCHA

Ô chữ và Sudoku

Kết quả trả lời câu hỏi thị giác

OCR và OCR toán học

Phát hiện đối tượng và giới hạn hiểu không gian

CAPTCHA, ô chữ, Sudoku

Sử dụng GPT-4V API bằng Python

An toàn, giới hạn và cách dùng thực tế

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News