Mọi thứ được công bố tại Google I/O 2024

xguru · 2024-05-15T08:34:19+09:00

Công bố mô hình Gemini 1.5 Flash Mô hình đa phương thức mới mạnh gần như Gemini 1.5 Pro, nhưng được tối ưu cho các tác vụ hẹp, thường xuyên và có độ trễ thấp Phù hợp hơn cho việc tạo phản hồi nhanh Khả năng dịch, suy luận và lập trình của Gemini 1.5 cũng được cải thiện Cửa sổ ngữ cảnh của Gemini 1.5 Pro (lượng thông tin có thể hấp thụ) đã tăng gấp đôi từ 1 triệu token lên 2 triệu token Project Astra: tầm nhìn AI kiểu Star Trek của Google Một trợ lý AI đa phương thức, hướng tới việc nhìn và hiểu qua camera của thiết bị, ghi nhớ vị trí của đồ vật và thực hiện công việc thay cho người dùng Được áp dụng cho phần lớn các bản demo ấn tượng nhất tại I/O năm nay Mục tiêu là trở thành một AI agent thực sự có thể làm việc thay cho người dùng, vượt xa việc chỉ trò chuyện Veo: tạo video kiểu Sora của Google Mô hình AI tạo sinh mới của Google để đối đầu với Sora của OpenAI, có thể xuất video 1080p bằng prompt dựa trên văn bản, hình ảnh và video Có thể tạo video theo nhiều phong cách như quay trên không hoặc timelapse, và có thể tinh chỉnh bằng prompt bổ sung Đang được cung cấp cho một số nhà sáng tạo để dùng trong sản xuất video YouTube, đồng thời được quảng bá là cũng có thể ứng dụng cho làm phim Tích hợp Gemini vào Workspace Gemini 1.5 Pro, mô hình ngôn ngữ thế hệ tiếp theo, được tích hợp vào thanh bên của Docs, Sheets, Slides, Drive và Gmail Dự kiến sẽ được cung cấp cho người dùng trả phí vào tháng tới và đóng vai trò trợ lý đa năng trong Workspace Có thể lấy thông tin từ mọi nội dung trong Drive Có thể thực hiện các tác vụ như soạn email bằng cách tổng hợp thông tin từ tài liệu đang xem, hoặc nhắc người dùng phản hồi email mà họ đang đọc sau đó Mở rộng tính năng của Google Lens Giờ đây có thể tìm kiếm không chỉ bằng hình ảnh mà còn bằng video Đã bổ sung tính năng cho phép vừa quay video vừa đặt câu hỏi để AI của Google tìm câu trả lời liên quan trên web Gemini tận dụng Google Photos Tính năng "Ask Photos" dự kiến ra mắt vào mùa hè này sẽ phân tích thư viện Google Photos của người dùng để trả lời câu hỏi Không chỉ tìm ảnh chó hay mèo, mà còn có thể trả lời các câu hỏi phức tạp như biển số xe của chính mình, như CEO Sundar Pichai đã trình diễn Gems: thêm tính năng tạo chatbot tùy chỉnh cho Gemini Tương tự GPT của OpenAI, Gems cho phép người dùng đưa chỉ dẫn cho Gemini để tùy biến cách phản hồi và lĩnh vực chuyên môn Ví dụ, nếu muốn một huấn luyện viên chạy bộ tích cực và bền bỉ cung cấp động lực và kế hoạch chạy hằng ngày, điều đó sẽ sớm khả thi (đối với người đăng ký Gemini Advanced) Cải thiện khả năng hội thoại của Gemini Tính năng Gemini Live mới nhằm làm cho trò chuyện bằng giọng nói với Gemini trở nên tự nhiên hơn Giọng nói của chatbot được tăng thêm cá tính, và người dùng có thể ngắt lời giữa chừng hoặc yêu cầu nó cung cấp thông tin theo thời gian thực thông qua camera điện thoại thông minh Gemini được tích hợp với Google Calendar, Tasks và Keep để cập nhật hoặc lấy thông tin, đồng thời tận dụng khả năng đa phương thức như thêm chi tiết từ tờ rơi vào lịch cá nhân Circle to Search hỗ trợ giải bài toán Giờ đây trên điện thoại hoặc máy tính bảng Android, người dùng có thể khoanh tròn bài toán để nhận trợ giúp giải AI của Google sẽ không giải trực tiếp để tránh tiếp tay cho việc gian lận bài tập về nhà của học sinh, nhưng sẽ chia nhỏ thành từng bước để dễ hoàn thành hơn Cải tổ AI cho Google Search "AI Overviews" (trước đây được gọi là "Search Generative Experience") dự kiến ra mắt trên toàn nước Mỹ trong tuần này Giờ đây, một mô hình Gemini "chuyên biệt" sẽ thiết kế trang kết quả tìm kiếm và lấp đầy bằng các câu trả lời tóm tắt từ web (tương tự những gì có thể thấy ở các công cụ tìm kiếm AI như Perplexity hoặc Arc Search) Phát hiện lừa đảo bằng AI trên Android Google cho biết Android có thể dùng Gemini Nano AI chạy trên thiết bị để phát hiện các dấu hiệu nguy hiểm như những mẫu hội thoại phổ biến của kẻ lừa đảo và hiển thị cảnh báo theo thời gian thực, giúp người dùng tránh các cuộc gọi lừa đảo Thông tin chi tiết hơn về tính năng này sẽ được cung cấp vào cuối năm nay Nâng cao trí thông minh AI của thiết bị Android Google cho biết Gemini sắp cho phép người dùng đặt câu hỏi về video đang hiển thị trên màn hình và sẽ trả lời dựa trên phụ đề tự động Với người dùng Gemini Advanced trả phí, nó cũng có thể hấp thụ PDF để cung cấp thông tin Các bản cập nhật đa phương thức này cùng những cập nhật khác cho Gemini on Android sẽ được cung cấp trong vài tháng tới Thêm trợ lý AI vào Google Chrome Google công bố sẽ thêm Gemini Nano, phiên bản nhẹ, vào Chrome trên desktop Trợ lý tích hợp sẽ dùng AI chạy trên thiết bị để hỗ trợ tạo văn bản trực tiếp trong Google Chrome cho bài đăng mạng xã hội, đánh giá sản phẩm và nhiều nội dung khác Nâng cấp watermark AI SynthID Google cho biết sẽ mở rộng khả năng của SynthID Họ sẽ chèn watermark vào nội dung được tạo bằng trình tạo video Veo mới, và giờ đây cũng có thể phát hiện video do AI tạo ra

(theverge.com)

19 điểm bởi xguru 2024-05-15 | 6 bình luận | Chia sẻ qua WhatsApp

Công bố mô hình Gemini 1.5 Flash

Mô hình đa phương thức mới mạnh gần như Gemini 1.5 Pro, nhưng được tối ưu cho các tác vụ hẹp, thường xuyên và có độ trễ thấp
Phù hợp hơn cho việc tạo phản hồi nhanh
Khả năng dịch, suy luận và lập trình của Gemini 1.5 cũng được cải thiện
Cửa sổ ngữ cảnh của Gemini 1.5 Pro (lượng thông tin có thể hấp thụ) đã tăng gấp đôi từ 1 triệu token lên 2 triệu token

Project Astra: tầm nhìn AI kiểu Star Trek của Google

Một trợ lý AI đa phương thức, hướng tới việc nhìn và hiểu qua camera của thiết bị, ghi nhớ vị trí của đồ vật và thực hiện công việc thay cho người dùng
Được áp dụng cho phần lớn các bản demo ấn tượng nhất tại I/O năm nay
Mục tiêu là trở thành một AI agent thực sự có thể làm việc thay cho người dùng, vượt xa việc chỉ trò chuyện

Veo: tạo video kiểu Sora của Google

Mô hình AI tạo sinh mới của Google để đối đầu với Sora của OpenAI, có thể xuất video 1080p bằng prompt dựa trên văn bản, hình ảnh và video
Có thể tạo video theo nhiều phong cách như quay trên không hoặc timelapse, và có thể tinh chỉnh bằng prompt bổ sung
Đang được cung cấp cho một số nhà sáng tạo để dùng trong sản xuất video YouTube, đồng thời được quảng bá là cũng có thể ứng dụng cho làm phim

Tích hợp Gemini vào Workspace

Gemini 1.5 Pro, mô hình ngôn ngữ thế hệ tiếp theo, được tích hợp vào thanh bên của Docs, Sheets, Slides, Drive và Gmail
Dự kiến sẽ được cung cấp cho người dùng trả phí vào tháng tới và đóng vai trò trợ lý đa năng trong Workspace
Có thể lấy thông tin từ mọi nội dung trong Drive
Có thể thực hiện các tác vụ như soạn email bằng cách tổng hợp thông tin từ tài liệu đang xem, hoặc nhắc người dùng phản hồi email mà họ đang đọc sau đó

Mở rộng tính năng của Google Lens

Giờ đây có thể tìm kiếm không chỉ bằng hình ảnh mà còn bằng video
Đã bổ sung tính năng cho phép vừa quay video vừa đặt câu hỏi để AI của Google tìm câu trả lời liên quan trên web

Gemini tận dụng Google Photos

Tính năng "Ask Photos" dự kiến ra mắt vào mùa hè này sẽ phân tích thư viện Google Photos của người dùng để trả lời câu hỏi
Không chỉ tìm ảnh chó hay mèo, mà còn có thể trả lời các câu hỏi phức tạp như biển số xe của chính mình, như CEO Sundar Pichai đã trình diễn

Gems: thêm tính năng tạo chatbot tùy chỉnh cho Gemini

Tương tự GPT của OpenAI, Gems cho phép người dùng đưa chỉ dẫn cho Gemini để tùy biến cách phản hồi và lĩnh vực chuyên môn
Ví dụ, nếu muốn một huấn luyện viên chạy bộ tích cực và bền bỉ cung cấp động lực và kế hoạch chạy hằng ngày, điều đó sẽ sớm khả thi (đối với người đăng ký Gemini Advanced)

Cải thiện khả năng hội thoại của Gemini

Tính năng Gemini Live mới nhằm làm cho trò chuyện bằng giọng nói với Gemini trở nên tự nhiên hơn
Giọng nói của chatbot được tăng thêm cá tính, và người dùng có thể ngắt lời giữa chừng hoặc yêu cầu nó cung cấp thông tin theo thời gian thực thông qua camera điện thoại thông minh
Gemini được tích hợp với Google Calendar, Tasks và Keep để cập nhật hoặc lấy thông tin, đồng thời tận dụng khả năng đa phương thức như thêm chi tiết từ tờ rơi vào lịch cá nhân

Circle to Search hỗ trợ giải bài toán

Giờ đây trên điện thoại hoặc máy tính bảng Android, người dùng có thể khoanh tròn bài toán để nhận trợ giúp giải
AI của Google sẽ không giải trực tiếp để tránh tiếp tay cho việc gian lận bài tập về nhà của học sinh, nhưng sẽ chia nhỏ thành từng bước để dễ hoàn thành hơn

Cải tổ AI cho Google Search

"AI Overviews" (trước đây được gọi là "Search Generative Experience") dự kiến ra mắt trên toàn nước Mỹ trong tuần này
Giờ đây, một mô hình Gemini "chuyên biệt" sẽ thiết kế trang kết quả tìm kiếm và lấp đầy bằng các câu trả lời tóm tắt từ web (tương tự những gì có thể thấy ở các công cụ tìm kiếm AI như Perplexity hoặc Arc Search)

Phát hiện lừa đảo bằng AI trên Android

Google cho biết Android có thể dùng Gemini Nano AI chạy trên thiết bị để phát hiện các dấu hiệu nguy hiểm như những mẫu hội thoại phổ biến của kẻ lừa đảo và hiển thị cảnh báo theo thời gian thực, giúp người dùng tránh các cuộc gọi lừa đảo
Thông tin chi tiết hơn về tính năng này sẽ được cung cấp vào cuối năm nay

Nâng cao trí thông minh AI của thiết bị Android

Google cho biết Gemini sắp cho phép người dùng đặt câu hỏi về video đang hiển thị trên màn hình và sẽ trả lời dựa trên phụ đề tự động
Với người dùng Gemini Advanced trả phí, nó cũng có thể hấp thụ PDF để cung cấp thông tin
Các bản cập nhật đa phương thức này cùng những cập nhật khác cho Gemini on Android sẽ được cung cấp trong vài tháng tới

Thêm trợ lý AI vào Google Chrome

Google công bố sẽ thêm Gemini Nano, phiên bản nhẹ, vào Chrome trên desktop
Trợ lý tích hợp sẽ dùng AI chạy trên thiết bị để hỗ trợ tạo văn bản trực tiếp trong Google Chrome cho bài đăng mạng xã hội, đánh giá sản phẩm và nhiều nội dung khác

Nâng cấp watermark AI SynthID

Google cho biết sẽ mở rộng khả năng của SynthID
Họ sẽ chèn watermark vào nội dung được tạo bằng trình tạo video Veo mới, và giờ đây cũng có thể phát hiện video do AI tạo ra

6 bình luận

pinks 2024-05-16

Chỉ cần chatbot được cung cấp miễn phí là đủ, và vì tôi không dùng các tính năng liên quan đến hình ảnh, video hay âm thanh nên tôi rất vui khi thấy chúng được tích hợp vào các sản phẩm hiện có.

corelyai 2024-05-15

Những gì được công bố tại Google I/O 2024

Tiến bộ trong AI Project Astra và tạo video của Google

Mô hình Gemini của Google đang được hơn 1,5 triệu nhà phát triển sử dụng rộng rãi để gỡ lỗi mã, thu thập insight và xây dựng ứng dụng AI. Project Astra giới thiệu một tác tử AI có thể xử lý hiệu quả thông tin đầu vào video và giọng nói, cùng với mô hình video tạo sinh cao cấp mới là Vo. Vo có thể tạo video 1080p chất lượng cao từ prompt văn bản, hình ảnh và video, mang lại khả năng kiểm soát sáng tạo chưa từng có. Công nghệ này do DeepMind của Google phát triển, với mục tiêu hiện thực hóa những ý tưởng trước đây là điều không thể.

TPU thế hệ thứ 6 của Google và cuộc cải tổ AI mang tính đột phá

Google dự kiến ra mắt Trillium, TPU thế hệ thứ 6 với hiệu năng tính toán trên mỗi chip tăng 4,7 lần, vào cuối năm 2024 và cung cấp cho khách hàng đám mây. Ngoài ra, hãng cũng giới thiệu các CPU và GPU mới, bao gồm bộ xử lý Axion và GPU Envidia Blackwell, để hỗ trợ nhiều loại workload khác nhau; trong đó mẫu sau dự kiến sẽ được cung cấp vào đầu năm 2025. Google cũng ra mắt Gemini như một trải nghiệm tìm kiếm hoàn toàn mới dựa trên AI với mức độ hài lòng của người dùng cao hơn, trước tiên triển khai tại Mỹ. Mô hình tìm kiếm mới này cho phép xử lý các truy vấn phức tạp hơn và tìm kiếm bằng ảnh, đồng thời cung cấp kết quả có cấu trúc để mang lại trải nghiệm người dùng tốt hơn.

Các tính năng AI mới của Google và những đổi mới sắp tới

Google giới thiệu trang kết quả tìm kiếm mới được AI tổ chức, bắt đầu với đồ ăn và công thức nấu ăn rồi mở rộng sang các danh mục khác. AI có thể sử dụng các yếu tố ngữ cảnh như mùa trong năm để cung cấp tổng quan về nguyên nhân của vấn đề và các bước khắc phục. AI Gemini của Google cũng sẽ sớm mang đến trải nghiệm trực tiếp với các chuyên gia cá nhân hóa tùy chỉnh gọi là “gems”, đồng thời được tích hợp với Project Astra để bổ sung khả năng hiểu video.

Giới thiệu Gemini, trợ lý AI mới cho Android

Gemini là trợ lý AI mới cho Android, mang đến trải nghiệm AI trên thiết bị trong khi ưu tiên quyền riêng tư dữ liệu. Nó được thiết kế để đưa ra các gợi ý phù hợp với ngữ cảnh, như hỗ trợ việc học ở trường và cung cấp hướng dẫn từng bước cho các vấn đề khó. Gemini cũng có thể hỗ trợ các tác vụ như tìm hình ảnh và trả lời những câu hỏi cụ thể, đồng thời tích hợp liền mạch vào quy trình làm việc của người dùng.

Tác động của Gemini của Google đến việc sử dụng smartphone

Gemini của Google mang các tính năng AI đến cho người dùng smartphone, giúp dễ dàng truy cập thông tin trong tài liệu và nhận câu trả lời rõ ràng cho các câu hỏi cụ thể. Mô hình nền tảng trên thiết bị nâng cao trải nghiệm smartphone bằng cách cung cấp phản hồi nhanh hơn trong khi vẫn ưu tiên quyền riêng tư của người dùng. Mô hình Gemini Nano sắp ra mắt sẽ còn mở rộng thêm các khả năng này bằng cách giúp điện thoại hiểu thế giới thông qua văn bản, hình ảnh, âm thanh và ngôn ngữ nói.

Corely, nắm bắt nội dung cốt lõi trên YouTube chỉ trong 10 giây! - https://corely.ai/content/google-io-2024-everything-revealed

xguru 2024-05-15

Gemini Flash
Google DeepMind Veo

savvykang 2024-05-15

https://killedbygoogle.com
Tôi tự hỏi khi nào Gemini sẽ được đưa vào danh sách này. Nếu không kiếm ra tiền thì Google có thói quen dẹp bỏ không chút luyến tiếc, nên tôi không mấy thiện cảm.