OpenAI DevDay: Mô hình mới và các sản phẩm dành cho nhà phát triển

(openai.com)

1 điểm bởi GN⁺ 2023-11-07 | 1 bình luận | Chia sẻ qua WhatsApp

Tại DevDay, OpenAI đã mở rộng mô hình trung tâm của nền tảng API thành GPT‑4 Turbo, đồng thời công bố Assistants API, các tính năng đa phương thức và việc giảm giá, qua đó mở rộng đáng kể bộ sản phẩm cho nhà phát triển
GPT‑4 Turbo có ngữ cảnh 128K và kiến thức đến tháng 4/2023, được cung cấp với mức giá rẻ hơn GPT‑4 3 lần cho token đầu vào và 2 lần cho token đầu ra
Assistants API mới kết hợp Code Interpreter, Retrieval, function calling và các thread bền vững không giới hạn độ dài để có thể xây dựng AI assistant định hướng mục tiêu bên trong ứng dụng
API được bổ sung đầu vào thị giác, DALL·E 3, chuyển văn bản thành giọng nói (TTS), còn GPT‑3.5 Turbo hỗ trợ mặc định ngữ cảnh 16K, JSON mode và function calling song song
Giới hạn token mỗi phút cho khách hàng GPT‑4 trả phí sẽ tăng gấp đôi, còn Copyright Shield cung cấp cơ chế bảo vệ trước khiếu nại vi phạm bản quyền và chi trả chi phí cho ChatGPT Enterprise cùng các tính năng phát hành rộng rãi trên nền tảng dành cho nhà phát triển

Cập nhật GPT‑4 Turbo và GPT‑3.5 Turbo

GPT‑4 Turbo được phát hành dưới dạng bản preview của mô hình thế hệ tiếp theo của GPT‑4
- Mọi nhà phát triển trả phí đều có thể dùng qua API bằng cách truyền gpt-4-1106-preview
- Mô hình ổn định, sẵn sàng cho production, dự kiến ra mắt trong vài tuần tới
- Với cửa sổ ngữ cảnh 128K, có thể đưa vào một prompt lượng văn bản tương đương hơn 300 trang
- Kiến thức thế giới được cập nhật đến tháng 4/2023
Giá thấp hơn GPT‑4
- Token đầu vào GPT‑4 Turbo: $0.01/1,000 tokens
- Token đầu ra GPT‑4 Turbo: $0.03/1,000 tokens
- Đầu vào rẻ hơn GPT‑4 3 lần, đầu ra rẻ hơn 2 lần
Function calling giờ có thể gọi nhiều hàm trong một tin nhắn
- Ví dụ, yêu cầu như “mở cửa sổ xe và tắt điều hòa” có thể được xử lý trong một tin nhắn duy nhất thay vì phải qua lại nhiều lần như trước
- GPT‑4 Turbo có khả năng trả về tham số hàm chính xác cao hơn
JSON mode giới hạn phản hồi của mô hình ở JSON hợp lệ
- Với tham số API mới response_format, có thể buộc mô hình tạo ra đối tượng JSON đúng cú pháp
- Hữu ích cho các nhà phát triển tạo JSON bằng Chat Completions API ngoài function calling
- GPT‑4 Turbo cũng hoạt động tốt hơn các mô hình trước trong những tác vụ yêu cầu tuân thủ định dạng cụ thể như “luôn trả lời bằng XML”
Cũng được bổ sung đầu ra có thể tái lập và log probabilities
- Tham số seed hỗ trợ đầu ra có thể tái lập bằng cách trả về completion nhất quán trong đa số trường hợp
- Có thể dùng để debug phát lại request, kiểm thử đơn vị toàn diện hơn và kiểm soát hành vi mô hình
- Tính năng trả về log probabilities cho các token đầu ra có xác suất cao nhất của GPT‑4 Turbo và GPT‑3.5 Turbo dự kiến ra mắt trong vài tuần tới
- Hữu ích khi xây dựng các tính năng như tự động hoàn thành trong trải nghiệm tìm kiếm
GPT‑3.5 Turbo mới hỗ trợ cửa sổ ngữ cảnh 16K theo mặc định
- Có thể truy cập qua API bằng gpt-3.5-turbo-1106
- Hỗ trợ cải thiện khả năng tuân thủ chỉ dẫn, JSON mode và function calling song song
- Trong đánh giá nội bộ, hiệu năng ở các tác vụ tuân thủ định dạng như tạo JSON, XML, YAML được cải thiện 38%
- Mô hình hiện có gpt-3.5-turbo-0613 vẫn sẽ tiếp tục được truy cập đến ngày 13/6/2024
- Việc tự động nâng cấp cho các ứng dụng dùng tên gpt-3.5-turbo sẽ không còn được thực hiện nữa

Assistants API, Retrieval, Code Interpreter

Assistants API được phát hành như bước đầu tiên giúp nhà phát triển xây dựng trải nghiệm kiểu tác nhân bên trong ứng dụng
- Assistant là AI định hướng mục tiêu, có chỉ dẫn cụ thể, tận dụng kiến thức bổ sung và gọi mô hình cùng công cụ để thực hiện công việc
- Nhắm đến các trường hợp sử dụng như ứng dụng phân tích dữ liệu bằng ngôn ngữ tự nhiên, coding assistant, AI lập kế hoạch du lịch, DJ điều khiển bằng giọng nói, hay canvas thị giác thông minh
- Được xây dựng trên các tính năng như custom instructions, Code Interpreter, Retrieval và function calling, vốn cũng là nền tảng cho sản phẩm GPTs mới của OpenAI
Thay đổi cốt lõi là thread bền vững và không giới hạn độ dài
- Nhà phát triển có thể giao việc quản lý trạng thái thread cho OpenAI
- Cơ chế này hoạt động bằng cách thêm tin nhắn mới vào thread hiện có để vượt qua giới hạn cửa sổ ngữ cảnh
Assistants API có thể gọi nhiều công cụ
- Code Interpreter: viết và chạy mã Python trong môi trường thực thi sandbox, tạo đồ thị và biểu đồ, đồng thời xử lý file dữ liệu và file ở nhiều định dạng khác nhau
- Retrieval: tăng cường assistant bằng tri thức bên ngoài mô hình như dữ liệu domain độc quyền, thông tin sản phẩm hay tài liệu do người dùng cung cấp
- Khi dùng Retrieval, nhà phát triển không cần tự triển khai lưu trữ embedding tài liệu, chunking hay thuật toán tìm kiếm
- Function calling: assistant có thể gọi các hàm do nhà phát triển định nghĩa và phản ánh phản hồi của hàm vào tin nhắn
Dữ liệu và file được gửi qua API sẽ không được dùng để huấn luyện mô hình của OpenAI, và nhà phát triển có thể xóa chúng khi thấy phù hợp
Assistants API đang ở giai đoạn beta và mở cho mọi nhà phát triển, đồng thời có thể thử nghiệm không cần code trong Assistants playground
Giá của Assistants API và các công cụ được cung cấp trên trang giá của OpenAI

Các tính năng thị giác, hình ảnh và giọng nói được thêm vào API

GPT‑4 Turbo with vision có thể nhận hình ảnh làm đầu vào trong Chat Completions API
- Hỗ trợ các trường hợp sử dụng như tạo chú thích, phân tích chi tiết ảnh thực, hoặc đọc tài liệu có kèm hình minh họa
- BeMyEyes sử dụng công nghệ này để hỗ trợ người mù và người có thị lực kém trong các công việc hằng ngày như nhận diện sản phẩm và di chuyển trong cửa hàng
- Nhà phát triển có thể truy cập bằng gpt-4-vision-preview
- Hỗ trợ thị giác sẽ được tích hợp vào mô hình GPT‑4 Turbo chính như một phần của bản phát hành ổn định
- Giá thay đổi tùy theo kích thước ảnh đầu vào; chi phí để gửi 1 ảnh 1080×1080 vào GPT‑4 Turbo là $0.00765
DALL·E 3 có thể được tích hợp vào ứng dụng và sản phẩm qua Images API bằng cách chỉ định mô hình dall-e-3
- Snap, Coca-Cola và Shutterstock đang dùng DALL·E 3 để tạo hình ảnh và thiết kế theo lập trình cho khách hàng và chiến dịch của họ
- Tương tự các phiên bản DALL·E trước, API có moderation tích hợp để giúp ngăn chặn lạm dụng
- Có các tùy chọn định dạng và chất lượng, với giá khởi điểm từ $0.04 cho mỗi ảnh tạo ra
API chuyển văn bản thành giọng nói (TTS) tạo ra giọng nói đạt mức độ như con người từ văn bản
- Mô hình TTS mới cung cấp 6 preset voice
- Có hai biến thể mô hình là tts-1 và tts-1-hd
- tts-1 được tối ưu cho các trường hợp sử dụng thời gian thực, còn tts-1-hd tối ưu cho chất lượng
- Giá khởi điểm từ $0.015 cho mỗi 1.000 ký tự đầu vào

Tùy biến mô hình

OpenAI đang xây dựng chương trình truy cập thử nghiệm cho fine-tuning GPT‑4
- Kết quả ban đầu cho thấy, khác với mức cải thiện lớn đạt được từ fine-tuning GPT‑3.5, fine-tuning GPT‑4 cần nhiều công sức hơn để mang lại cải thiện có ý nghĩa so với base model
- Khi chất lượng và độ an toàn của fine-tuning GPT‑4 được cải thiện, các nhà phát triển đang tích cực dùng fine-tuning GPT‑3.5 sẽ nhận được tùy chọn đăng ký chương trình GPT‑4 trong fine-tuning console
Custom Models program dành cho các tổ chức cần mức độ tùy biến lớn hơn so với fine-tuning
- Đặc biệt phù hợp với các domain có bộ dữ liệu độc quyền rất lớn, quy mô ít nhất hàng tỷ token
- Các tổ chức được chọn có thể hợp tác cùng nhóm chuyên trách các nhà nghiên cứu OpenAI để huấn luyện GPT‑4 tùy chỉnh cho domain cụ thể
- Có thể điều chỉnh mọi giai đoạn của quy trình huấn luyện mô hình, từ pre-training chuyên biệt cho domain bổ sung đến RL post-training tùy chỉnh phù hợp domain cụ thể
- Tổ chức sẽ có quyền truy cập độc quyền vào custom model của mình
- Custom model sẽ không được cung cấp hay chia sẻ cho khách hàng khác, cũng không được dùng để huấn luyện mô hình khác
- Dữ liệu độc quyền được cung cấp để huấn luyện custom model sẽ không bị tái sử dụng trong bối cảnh khác
- Ban đầu đây sẽ là chương trình rất hạn chế và có chi phí cao

Giảm giá và mở rộng rate limit

OpenAI giảm giá ở nhiều mảng trên nền tảng
- Mọi mức giá đều tính theo 1,000 tokens
Giá GPT‑4 Turbo
- GPT‑4 8K: đầu vào $0.03, đầu ra $0.06
- GPT‑4 32K: đầu vào $0.06, đầu ra $0.12
- GPT‑4 Turbo 128K: đầu vào $0.01, đầu ra $0.03
Giá GPT‑3.5 Turbo
- GPT‑3.5 Turbo 4K cũ: đầu vào $0.0015, đầu ra $0.002
- GPT‑3.5 Turbo 16K cũ: đầu vào $0.003, đầu ra $0.004
- GPT‑3.5 Turbo 16K mới: đầu vào $0.001, đầu ra $0.002
- Mức giá mới chỉ áp dụng cho GPT‑3.5 Turbo mới được giới thiệu trong ngày hôm đó
- Người dùng GPT‑3.5 Turbo 4K hiện tại sẽ được giảm 33% giá token đầu vào
Giá fine-tuning GPT‑3.5 Turbo
- Fine-tuning GPT‑3.5 Turbo 4K cũ: huấn luyện $0.008, đầu vào $0.012, đầu ra $0.016
- Fine-tuning GPT‑3.5 Turbo 4K·16K mới: huấn luyện $0.008, đầu vào $0.003, đầu ra $0.006
- Token đầu vào rẻ hơn 4 lần, token đầu ra rẻ hơn 2.7 lần
- Trên mô hình GPT‑3.5 Turbo mới, fine-tuning ngữ cảnh 16K được hỗ trợ với cùng mức giá như 4K
- Mức giá mới cũng áp dụng cho các mô hình fine-tuned gpt-3.5-turbo-0613
Rate limit cũng được mở rộng
- Giới hạn token mỗi phút cho mọi khách hàng GPT‑4 trả phí tăng gấp đôi
- Có thể xem rate limit mới trên trang rate limit
- Các usage tier dùng để quyết định việc tự động tăng rate limit đã được công bố
- Có thể yêu cầu tăng hạn mức sử dụng trong phần cài đặt tài khoản

Copyright Shield và các bản phát hành mã nguồn mở

Copyright Shield là cơ chế theo đó OpenAI sẽ đứng ra bảo vệ khách hàng nếu họ đối mặt với khiếu nại pháp lý liên quan đến vi phạm bản quyền, đồng thời chi trả các chi phí phát sinh
- Áp dụng cho ChatGPT Enterprise và các tính năng phát hành rộng rãi trên nền tảng dành cho nhà phát triển
- OpenAI giữ quan điểm sẽ bảo vệ khách hàng bằng các biện pháp bảo vệ bản quyền được tích hợp trong hệ thống
Whisper large-v3 đã được công bố
- Đây là phiên bản tiếp theo của mô hình nhận dạng giọng nói tự động ASR mã nguồn mở của OpenAI
- Hiệu năng được cải thiện trên nhiều ngôn ngữ
- OpenAI dự định sẽ hỗ trợ Whisper v3 trong API trong tương lai gần
Consistency Decoder cũng được phát hành mã nguồn mở
- Đây là drop-in replacement cho Stable Diffusion VAE decoder
- Cải thiện mọi hình ảnh tương thích với Stable Diffusion 1.0+ VAE
- Mang lại cải thiện lớn ở văn bản, khuôn mặt và các đường thẳng

1 bình luận

GN⁺ 2023-11-07

Ý kiến trên Hacker News

Phần lớn các sản phẩm được công bố và việc giảm giá có vẻ thiên về hướng làm tăng sự phụ thuộc vào nền tảng API của OpenAI; trong bối cảnh cạnh tranh đã trở nên gay gắt, điều này cũng không đáng ngạc nhiên
Đặc biệt, các bản demo GPTs/GPT Agents và Assistants trông như hộp đen bên trong hộp đen không thể chuyển sang nơi khác
Đánh giá về buổi công bố khá trái chiều, và có lẽ cần xem thêm chi tiết trong tài liệu API vừa được cập nhật: https://platform.openai.com/docs/api-reference
Trang giá cũng đã được cập nhật: https://openai.com/pricing
Đặc biệt API DALL-E 3 có giá $0,04 mỗi ảnh, đắt hơn khoảng một bậc so với các dịch vụ khác trong lĩnh vực này
Một điểm thú vị trong cấu trúc giá mới không được nhắc đến trong keynote là ChatGPT 3.5 đã fine-tune giờ đã giảm xuống còn gấp 3 lần chi phí của ChatGPT 3.5 cơ bản. Từ mức gấp 8 lần trước đây, fine-tuning trở thành một lựa chọn thuyết phục hơn
- Đây là một chiến lược hay. Để tránh con hào, hoặc phải giảm chất lượng đáng kể và rốt cuộc đi vào con hào của công ty khác, hoặc vừa giảm chất lượng đáng kể vừa phải chi nhiều tiền hơn rất nhiều
  Tự tìm hiểu thì cấu hình end-to-end thực tế nhất để sở hữu trọn vẹn LLM của mình có lẽ là cắm vài card 3090 vào bo mạch chủ tiêu dùng và chạy 24/7, nhưng chi phí vận hành khá lớn, hiệu năng cũng chưa đủ mà lại khá đắt
  Chi thêm một chút có thể mua cấu hình Apple Silicon 128GB/192GB để cải thiện chất lượng và chi phí vận hành, nhưng vẫn chậm hơn rất, rất nhiều so với dịch vụ “Turbo” của OpenAI
  Lý do lớn nhất khiến tôi rời xa OpenAI là cảm giác trải nghiệm chat được trợ giá nhiều hơn API rất nhiều, nhưng lần công bố này dường như đã thu hẹp khoảng cách đó khá đáng kể
  Nói ngắn gọn, OpenAI đang đưa ra các điều kiện quá hấp dẫn nên khó mà phớt lờ; đây là một dịch vụ được trợ giá quy mô lớn. Có lẽ chi phí chuyển đổi về sau cũng sẽ không vượt quá lợi ích nhận được hiện tại
- Tôi không hiểu lắm lập luận về sự phụ thuộc ở đây. Nếu có đối thủ cạnh tranh xuất hiện thì đúng là sẽ có chi phí chuyển đổi vì phải học lại, nhưng nhìn từ góc độ code thì đó chỉ là một hàm của key và một API tương đối nhỏ
  Nếu không có quy định mới, tôi không rõ điều gì ngăn việc chuyển từ OpenAI sang nơi như Anthropic, ngoài chi phí học cách dùng Anthropic hiệu quả cho một use case cụ thể
  OpenAI cũng đâu có một feed xuất dữ liệu riêng nào đó để lấy dữ liệu ra khỏi database
- Tôi lại nhìn nhận ngược lại với nhận xét rằng “demo Assistants là hộp đen bên trong hộp đen không thể chuyển sang nơi khác”
  Giao diện Threads mới trong màn hình quản trị của OpenAI cho thấy chính xác cách họ diễn giải input và output, nhằm giảm hiệu ứng hộp đen
  Nguồn: nhìn vào https://platform.openai.com/docs/api-reference/runs/listRunS... sẽ thấy chính xác chuỗi được thực hiện qua những bước nào. Mức độ hiển thị đã cao hơn trước
- Có lẽ cộng đồng chỉ cần làm 2 tuần trên Mistral là được. Chắc sẽ không tốt bằng, nhưng có thể dùng miễn phí ở chế độ riêng tư, và hiệu năng có lẽ sẽ theo sau OpenAI khoảng 6–12 tháng
- Dù vậy bản thân sản phẩm rất ấn tượng. Tôi đã thử các lựa chọn thay thế, nhưng ngay cả Claude cũng không tốt bằng ChatGPT
  Claude cứ khoảng hai câu trả lời lại giảng đạo đức một lần, lần nào cũng tốn chi phí và khiến người ta khó muốn nhúng nó vào sản phẩm
Nếu từ ngày 29/11/2022, tức ngày trước khi ChatGPT ra mắt theo Wikipedia, bạn không tiếp xúc với xã hội rồi hôm nay quay lại xem keynote của OpenAI, chắc hẳn bạn sẽ phát điên
Tốc độ phát triển và mức độ hữu ích của các sản phẩm này thật sự đáng kinh ngạc
- Tôi đang ở trong tù khi ChatGPT ra mắt. Tôi chỉ thấy nó qua một dòng tiêu đề lướt rất nhanh trên CNN, rồi gọi cho bạn và hỏi “Chat OPT rốt cuộc là cái gì vậy?”
  Đúng lúc đó tôi cũng vừa đọc xong The Singularity is Near lần thứ hai
- Tôi không rõ ở đây người ta thấy tính năng đột phá nào
  Code interpreter và function calling vốn đã có thể làm được với một LLM cao cấp đủ giỏi trong việc làm theo chỉ dẫn để xuất token ở định dạng có thể parse nghiêm ngặt. Chỉ cần đưa output đó vào parser rồi đưa kết quả lại vào LLM. Làm với API online như ChatGPT thì vụng về, nhưng hoàn toàn khả thi
  Chatbot tùy chỉnh cũng đã dễ tạo từ trước, và các dịch vụ tạo như Poe.com cũng đã có rồi
  JSON output cũng chỉ cần một AI có thể đưa ra xác suất token và làm theo chỉ dẫn tốt, cùng một schema validator chọn token sao cho thành JSON đúng schema
  GPT-4 128k trông có vẻ mang tính cách mạng, nhưng Claude 100k đã có rồi, và việc đánh giá LLM tăng theo bình phương kích thước ngữ cảnh, nên có lẽ họ đang dùng mẹo nào đó để mở rộng ngữ cảnh. Tôi không nghĩ đó là các token “đầy đủ”. Nếu sai thì tôi sẵn sàng thừa nhận
  Ngữ cảnh lớn rất hữu ích, nhưng trong lập trình, nếu cung cấp đúng ngữ cảnh bằng cách lấp ngữ cảnh với kết quả “go to definition” đệ quy 2–3 bước cho một symbol cụ thể, thì ngữ cảnh 8k cũng có thể làm được ở mức nào đó
  DALL-E 3 có vẻ đổi mới nhất, nhưng khi dùng thử, dù khả năng bố cục đã tốt hơn SD nhiều, nó vẫn có lúc sụp đổ
  Nhìn chung, buổi công bố hôm nay có cảm giác giống sự trau chuốt và tinh chỉnh trên nền tảng đột phá kiểu bom tấn của năm ngoái hơn
- Tối hôm đó tôi mở Twitter và thấy rất nhiều người trong giới công nghệ mà tôi theo dõi chia sẻ ảnh chụp màn hình các cuộc trò chuyện với một biểu tượng nhỏ màu xanh lá
  Tôi đã nghĩ “Ồ, lại thêm một trào lưu chatbot dùng thử 5 phút rồi thôi”, và tôi đã sai hoàn toàn
- Có ai khác cũng thấy lạ rằng ChatGPT ra mắt chưa đầy 1 năm không? Cảm giác như nó đã tồn tại lâu hơn nhiều
- Tôi vẫn luôn tiếp xúc với xã hội mà đến giờ vẫn thấy như sắp phát điên
Whisper V3 đã ra mắt: https://github.com/openai/whisper/commit/c5d42560760a05584c1...
Có vẻ là checkpoint mới của mô hình large. Sẽ tốt nếu các mô hình nhỏ hơn cũng được cập nhật, nhưng có vẻ sẽ dễ tích hợp vào những thứ đang dùng Whisper V2
Tôi cũng định thêm vào AI giọng nói chạy cục bộ của mình nên khá mong chờ: https://www.microsoft.com/store/apps/9NC624PBFGB7
Tôi đoán giọng nói của ChatGPT hẳn đã dùng Whisper V3 rồi, nhưng vẫn thấy lỗi ảo giác kiểu Whisper điển hình là “Thank you for watching!”. Có vẻ đây là cải tiến tiệm tiến hơn là một thay đổi mang tính cách mạng
- Những ảo giác như vậy có xuất hiện cả trong đoạn im lặng không?
  Dữ liệu huấn luyện có nhiều video kèm phụ đề, trong đó một số video/âm thanh bị cắt, còn phụ đề vẫn giữ nguyên câu kết, nên tôi tự hỏi liệu giờ nó có nhận diện sự im lặng như lời chào kết thúc của chương trình TV hay không
  Cá nhân tôi thấy nút thắt của giọng nói hiện nay là hạ tầng xung quanh nó. Chẳng hạn như cách phát hiện thời điểm người dùng bắt đầu và kết thúc phát ngôn, hay cách duy trì trạng thái sẵn sàng để người dùng nói trong khi vẫn phát âm thanh hoặc giọng nói
  Đây là những yếu tố thiết yếu nhưng nhìn chung vẫn hoạt động chưa tốt, và thật sự cần tích hợp phần cứng/phần mềm
- Tôi thích việc Sama chỉ dành đúng 16 giây theo nghĩa đen cho Whisper trong bài trình bày dài 45 phút: https://app.reduct.video/o/eca54fbf9f/p/250fab814f/share/9d9...
- Vẫn có tách người nói chứ?
- Thật tiếc là Whisper API vẫn chưa được nâng cấp. Tôi muốn sớm đưa nó vào dùng trên https://whispermemos.com
Nhìn chung có khá nhiều công bố: ngữ cảnh 128.000 token, Assistants API, chế độ JSON, mốc kiến thức đến tháng 4/2023, GPT-4 Turbo, giá thấp hơn, cho đến GPTs tùy chỉnh
https://openai.com/pricing
- Tôi cứ tưởng GPT-4 giờ có thể truy cập Internet
Giờ bạn có thể trả 2–3 triệu USD cho [1] tiền huấn luyện mô hình gpt-n tùy chỉnh. Không được chú ý nhiều, nhưng trông khá hay
Nếu một startup có thể chi số tiền đó thì chắc chắn có vẻ sẽ tạo lợi thế cạnh tranh
[1] https://openai.com/form/custom-models
Quên liên kết nên thêm vào
- Tôi không nghĩ vậy. Vì họ sẽ dùng mô hình mà bạn trả tiền và lấy mất khách hàng của bạn
- Wow, điều này có vẻ sẽ ảnh hưởng trực tiếp đến công ty chúng tôi trong ngắn hạn. Chúng tôi đã cố làm toàn bộ trong nội bộ nhưng gần như không thành công
  Dù khoảng 3 triệu USD, đây có vẻ vẫn là một lựa chọn hấp dẫn
- Nếu là khách hàng cuối của OpenAI, bạn tiền huấn luyện một mô hình gpt-n cho hoạt động kinh doanh của mình thì có lẽ ổn
  Nhưng nếu bạn là một trung gian OpenAI tiền huấn luyện mô hình gpt-n cho khách hàng khác, tôi không hiểu vì sao bạn nghĩ OpenAI cuối cùng sẽ không đi vòng qua bạn
  Cứ nhìn các startup xây trên API và nền tảng mà xem: với mỗi câu chuyện thành công là đầy những nấm mồ do thay đổi quy tắc của API và nền tảng gây ra
Nói với những người hoài nghi trong phần bình luận, con voi trong phòng mà không ai muốn thừa nhận là GPT-4 vẫn tốt hơn mọi thứ khác rất nhiều
- Tôi đã hủy đăng ký GPT-4. Với lập trình thì Claude hữu ích hơn, còn với các tác vụ tiếng Trung thì Qwen tốt hơn
  Trung bình có thể nó tốt hơn, nhưng tôi không cho rằng nó tốt hơn ở mọi tác vụ
  Các mô hình khác cũng sẽ tiếp tục tốt lên
- Thứ duy nhất tôi dùng bổ trợ cho GPT-4 là Phind, và chỉ riêng nó đã khá ấn tượng rồi
- Có thứ gì hứa hẹn không?
  Huấn luyện bằng crowdsourcing vẫn chưa khả thi à?
  Tôi nhớ thế giới mô hình khuếch tán đã chuyển động nhanh thế nào trong năm đầu tiên, nhưng sau Midjourney, khi so với DALL-E 3 thì có vẻ hơi chững lại. Các mô hình văn bản cũng đang ở tình trạng tương tự sao?
- Grok? Đùa thôi
Playbook mà OpenAI đang theo khá giống AWS. Họ bắt đầu từ các năng lực thô như sinh văn bản, sinh ảnh để tạo nền móng giống EC2, S3, RDS, rồi xây các dịch vụ giá trị gia tăng như Assistants API lên trên đó
Ở khía cạnh này, họ đang đi trước AWS và các đối thủ khác rất xa
- Họ sẽ cạnh tranh với chính khách hàng của mình như Amazon. Ở khía cạnh này họ cũng đã đi trước rất xa rồi. Về cơ bản là lấy tài sản số của mọi người rồi bán lại
- Tôi không chắc có nên nói là “đi trước rất xa” không
  AWS thực tế không có cạnh tranh trong khoảng 7 năm, và tất cả các đám mây lớn khác ngày nay khi đó đều đang phớt lờ thực tế
  OpenAI thì đã có nhiều đối thủ rồi. Hiện tại họ có thể kém hơn trên bảng xếp hạng, nhưng không phải là tình huống đã bỏ qua lĩnh vực này suốt nhiều năm rồi mới muộn màng đuổi theo
Từ kinh nghiệm dùng các công cụ kiểu này, liệu chúng có giúp ích cho việc bảo trì codebase không? Tôi tò mò cả theo cách trực tiếp lẫn gián tiếp, thông qua việc tạo ra mã dễ đọc hơn và được tổ chức tốt hơn
Những công cụ này có vẻ xuất sắc trong việc viết mã mới. Theo kinh nghiệm của tôi, có một giới hạn trên đối với lượng mã mà một lập trình viên có thể bảo trì. Cuối cùng bạn không thể giữ mọi thứ trong đầu nữa, phải dừng lại để hiểu một điều gì đó, và việc bảo trì trở nên khó khăn hơn
Nếu những công cụ này giúp viết nhiều mã hơn nhưng không giúp bảo trì, tôi tự hỏi liệu có đến lúc một lượng lớn mã mới được viết rất nhanh, rồi không ai thật sự hiểu sâu nội dung của nó, khiến mọi thứ đình trệ hay không
- Công cụ lập trình AI mã nguồn mở aider của tôi khá độc đáo ở chỗ nó được thiết kế để hoạt động cùng codebase hiện có. Bạn có thể vào thẳng một kho git hiện có và yêu cầu thay đổi, thêm tính năng mới, v.v.
  https://github.com/paul-gauthier/aider
  Nó phân tích cây cú pháp trừu tượng của toàn bộ mã trong kho để tạo một “bản đồ kho mã”, qua đó giúp GPT hiểu các codebase lớn hơn
  Tất cả những thứ này được xây dựng bằng tree-sitter, cùng công cụ đang vận hành chức năng tìm kiếm và điều hướng mã của GitHub cũng như nhiều IDE phổ biến
  https://aider.chat/docs/repomap.html
- Đúng vậy. Các công ty “tăng cường” lập trình viên junior bằng LLM sẽ nhận được nhiều bài báo tích cực, nhưng cần chờ xem thị trường sẽ liên tục tưởng thưởng hành vi này đến mức nào
  Người tiêu dùng có lẽ sẽ nhận ra ngay, còn phía B2B có thể bị qua mặt trong vài năm rồi cuối cùng rời đi, chuyển sang các đối thủ truyền thống chất lượng cao hơn, vốn thuê nhân sự senior
  Tuy nhiên cũng có thể sẽ xuất hiện các mô hình giỏi trong việc phát triển và bảo trì một codebase nhất quán. Nhìn vào vị trí hiện tại thì đây không giống một nhiệm vụ bất khả thi. Nhưng như bạn đã chỉ ra, hiện vẫn còn khá xa
- Tôi đã nghĩ về chuyện này một thời gian dưới hai góc nhìn
  Thứ nhất, kỷ nguyên của kỹ sư phần mềm truyền thống có thể kết thúc và kỷ nguyên của debugger sẽ đến. Các debugger con người sẽ ngồi cả ngày đặt breakpoint và tìm lỗi trong biển mã do LLM tạo ra
  Thứ hai, tuyển dụng sẽ chuyển từ các bài Leetcode sang “hãy mở debugger và tìm xem đoạn mã này sai ở đâu”
- Có các plugin CodeGPT khá ổn cho IntelliJ và VS Code. Về cơ bản bạn có thể chọn mã rồi yêu cầu nó phê bình, refactor, tối ưu, tìm lỗi, viết tài liệu, giải thích, v.v.
  Ngữ cảnh lớn hơn đồng nghĩa với việc về tiềm năng có thể đưa cả codebase vào. Phần lớn mọi người còn khó giữ trong đầu ngay cả các chi tiết của một codebase nhỏ
  Bước tiếp theo là tích hợp sâu hơn với công cụ để đảm bảo dù thay đổi gì thì test vẫn pass và mã vẫn compile được. Viết test cũng là một trong những việc công cụ này có thể làm
  Vì vậy việc cứu các codebase legacy bằng hỗ trợ AI, vốn bình thường khó xử lý về mặt kinh tế, có thể trở nên khả thi
  Tôi kỳ vọng năng suất của các lập trình viên được AI hỗ trợ sẽ tăng mạnh trong vài năm tới. Cá nhân tôi nghĩ nó sẽ hoạt động tốt hơn với các ngôn ngữ kiểu tĩnh, vì công cụ sẽ dễ suy luận hơn nhiều
- Hiện chúng tôi đang làm việc này cho kiểm thử API. Bạn có thể xem website của chúng tôi
  https://ai.stepci.com
“Trong vài tuần tới, chúng tôi cũng sẽ ra mắt khả năng trả về xác suất log của các token đầu ra có khả năng cao nhất do GPT-4 Turbo và GPT-3.5 Turbo tạo ra; tính năng này sẽ hữu ích để xây dựng các chức năng như tự động hoàn thành trong trải nghiệm tìm kiếm.”
Điều này khá đáng ngạc nhiên. Họ không lo mọi người không chỉ học từ đầu ra của GPT-4 để đánh cắp năng lực của mô hình, mà còn thực hiện chưng cất tri thức bằng logit một cách nghiêm túc sao?
Mọi người vốn nghĩ đó là lý do ban đầu họ chặn quyền truy cập logit
- Cần bao nhiêu GB logit để reverse-engineer mô hình? Và nếu họ đang dùng một tập hợp nhiều mô hình, bạn sẽ đi vào ngõ cụt
- Tôi cũng nghĩ vậy. Tôi đoán là họ đã phân tích nhiều và kết luận rằng nó đủ an toàn
  “Có khả năng cao nhất” theo nghĩa đen có thể chỉ là vài token, và có thể chỉ bao phủ một phần rất nhỏ của toàn bộ phân phối
- Trong mắt họ, có vẻ như sắc lệnh hành pháp đã giải quyết vấn đề đó. Bằng cách biến các mô hình mở thành bất hợp pháp
  Có lẽ nhận định đó của họ cũng đúng

OpenAI DevDay: Mô hình mới và các sản phẩm dành cho nhà phát triển

Cập nhật GPT‑4 Turbo và GPT‑3.5 Turbo

Assistants API, Retrieval, Code Interpreter

Các tính năng thị giác, hình ảnh và giọng nói được thêm vào API

Tùy biến mô hình

Giảm giá và mở rộng rate limit

Copyright Shield và các bản phát hành mã nguồn mở

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News