Mistral AI bổ sung Deep Research, Voice, Projects và nhiều tính năng khác cho Le Chat

(mistral.ai)

3 điểm bởi GN⁺ 2025-07-18 | 1 bình luận | Chia sẻ qua WhatsApp

Mistral AI đã bổ sung 5 tính năng mới cho Le Chat, giúp việc khám phá, thể hiện và sắp xếp của người dùng trở nên tự nhiên và mạnh mẽ hơn
Chế độ Deep Research cung cấp khả năng nhanh chóng sắp xếp các câu hỏi phức tạp thành các báo cáo nghiên cứu có cấu trúc
Chế độ giọng nói cho phép hội thoại tự nhiên và nhanh chóng thông qua mô hình giọng nói mới Voxtral, có thể sử dụng mà không cần gõ phím
Tính năng suy luận đa ngôn ngữ dựa trên Magistral tạo ra các câu trả lời rõ ràng và sâu sắc bằng nhiều ngôn ngữ khác nhau, đồng thời hỗ trợ chuyển đổi ngôn ngữ trong cùng một câu
Tính năng Projects sắp xếp và ghi nhớ các cuộc trò chuyện, tài liệu và ý tưởng theo từng dự án, phù hợp cả với các công việc dài hạn

What’s new in Le Chat.

1. Chế độ Deep Research

Tính năng nghiên cứu nhanh các chủ đề phức tạp dưới dạng báo cáo có cấu trúc
Phân tách câu hỏi của người dùng thành các phần nhỏ, tìm kiếm nguồn đáng tin cậy và tạo thành báo cáo được sắp xếp gọn gàng
Dù sử dụng Deep Research agent dựa trên công cụ, trải nghiệm người dùng vẫn đơn giản, minh bạch và mang cảm giác cộng tác

2. Chế độ giọng nói

Sử dụng mô hình giọng nói mới mang tên Voxtral để hỗ trợ hội thoại bằng giọng nói tự nhiên
Phù hợp với nhiều tình huống như brainstorming ý tưởng khi đi dạo, hỏi đáp nhanh khi đang ra ngoài, ghi chép nội dung cuộc họp
Độ trễ thấp giúp theo kịp tốc độ nói của người dùng

3. Suy luận đa ngôn ngữ gốc

Dựa trên mô hình suy luận Magistral để trả lời rõ ràng các câu hỏi phức tạp bằng nhiều ngôn ngữ khác nhau
Hữu ích cho các tình huống đa ngôn ngữ như soạn thảo đề xuất bằng tiếng Tây Ban Nha hoặc giải thích khái niệm pháp lý bằng tiếng Nhật
Cũng hỗ trợ chuyển đổi ngôn ngữ trong cùng một câu (code-switching)

4. Projects

Sắp xếp các cuộc trò chuyện liên quan dưới dạng thư mục theo ngữ cảnh
Mỗi dự án ghi nhớ thư viện riêng và trạng thái cấu hình công cụ của nó
Duy trì môi trường làm việc nhất quán cùng với việc tải tài liệu lên, gọi nội dung từ thư viện, trò chuyện và ý tưởng
Hữu ích cho việc lập kế hoạch chuyển nhà, thiết kế tính năng sản phẩm và quản lý các dự án dài hạn

5. Chỉnh sửa hình ảnh nâng cao

Khác với các công cụ tạo ảnh từ văn bản thông thường, ngay cả hình ảnh đã tạo cũng có thể được chỉnh sửa trực tiếp
Ví dụ: có thể chỉnh sửa khung cảnh bằng các prompt như “xóa đối tượng”, “chuyển sang thành phố khác”
Có thể chỉnh sửa theo chuỗi trong khi vẫn giữ được tính nhất quán của nhân vật, đồ vật và các yếu tố thiết kế

1 bình luận

GN⁺ 2025-07-18

Ý kiến Hacker News

Có vẻ tính năng chỉnh sửa ảnh thực sự rất xuất sắc, thậm chí cảm giác đó mới là điểm cốt lõi nhưng lại không được thể hiện rõ. Các model của OpenAI thường thay đổi cả bức ảnh và làm hỏng cả chi tiết ở những phần không liên quan tới truy vấn, còn model này gây ấn tượng ở chỗ nó bảo toàn hoàn hảo các phần không liên quan đến truy vấn và chỉ áp dụng đúng phần chỉnh sửa mong muốn. Tuy vậy, độ phân giải đầu ra vẫn hơi đáng tiếc (ảnh đầu vào lớn hơn nhiều nhưng ảnh kết quả chỉ là 1184px). Tôi đã thử tải lên ảnh văn phòng tại nhà và yêu cầu "hãy khôi phục hoàn toàn các tấm panel màu xám hơi bị rách ở phía dưới để chúng trông như mới tinh", và kết quả khá xuất sắc. Chất lượng đầu ra chỉ kém bản gốc một chút rất nhỏ, và tôi kỳ vọng phần này cũng sẽ sớm được cải thiện
- Ảnh đầu vào: https://i.imgur.com/t0WCKAu.jpeg
- Ảnh kết quả: https://i.imgur.com/xb99lmC.png
- Công nghệ kiểu này có vẻ sẽ giáng một đòn mạnh vào Craigslist. Ví dụ, bạn tới xem một chiếc xe vì trong ảnh trông nó hoàn toàn ổn, nhưng khi đến nơi thì chắn bùn bị móp, nắp capo có lỗ, và cả đèn pha cũng vỡ.
  Từng có trường hợp một môi giới bất động sản dùng AI để dàn dựng lại hoàn toàn ảnh chụp nhà ở (khiến một căn nhà cũ kỹ trông như mới xây). Người ta đã tới tận nơi rồi vô cùng tức giận. Người môi giới nói đây chỉ là một bước trong khâu dàn dựng, nhưng trong trường hợp này thì hoàn toàn không hiệu quả. Cuối cùng căn đó bị gỡ khỏi danh sách rao bán, và rất nhiều người đã đến để sửa chữa nữa (có lẽ là người nhà, nhưng không chắc)
- Nhân tiện, liên kết ảnh đầu vào và ảnh kết quả bạn đăng lên giống hệt nhau. Lúc đầu tôi còn loay hoay tìm điểm khác nhau giữa hai bức ảnh nên bị rối luôn
- Có lẽ Kontext vẫn tốt hơn cho một số tác vụ nhất định, và có vẻ Mistral đang dùng nó. Trên hết, nó nhanh và rẻ.
  Nhưng OpenAI hôm qua cũng vừa bổ sung tính năng chỉnh sửa ảnh độ phân giải cao hơn. Tôi vẫn chưa rõ tính năng này chỉ áp dụng cho API hay cũng sẽ có trong giao diện chat. Kết quả với cùng prompt và ảnh đầu vào: https://i.imgur.com/w5Q0UQm.png
- Tin mới từ OpenAI: https://x.com/OpenAIDevs/status/1945538534884135132
- Họ đang dùng Flux Kontext của Black Forest Labs, và đó thực sự là một model rất xuất sắc
- Tiêu đề sách trong ảnh kết quả bị nhòe
Cuối cùng thì cũng có cảm giác EU đã tỉnh giấc. Tôi tự hào về điều đó. Ngay khi hết hợp đồng với OpenAI, tôi định chuyển sang Mistral ngay. Cần phải ủng hộ châu Âu, Viva La France
- Thực ra tôi chỉ đang chờ Mistral Large 3 thôi. Trước đó đã có những tín hiệu úp mở, và có vẻ nó sẽ sớm trở thành model ngôn ngữ mặc định cho Le Chat mới.
  Trong mục "One more thing" của bài blog Mistral Medium 3 hồi tháng 5 có nội dung này:
Tháng 3 là Mistral Small, hôm nay là Medium, và 'large' sẽ sớm ra mắt. Vì model Medium đã vượt trội rõ rệt so với các model mã nguồn mở tiêu biểu khác (như Llama 4 Maverick), nên rất háo hức chờ bước tiếp theo
Nếu là phiên bản này thì có lẽ khoảng cách với các model cỡ lớn tốt nhất giờ cũng không còn quá quan trọng nữa. Tốc độ cực nhanh của Cerebras đem lại trải nghiệm người dùng thật sự xuất sắc, kể cả khi so với ChatGPT
Tôi đang bị MRF, tức Model Release Fatigue (mệt mỏi vì model ra mắt liên tục). Mấy model lớn ra mắt dồn dập quá, nên tôi cứ liên tục đổi model trong IDE, rồi khi bật lại cái trước đó từng chạy tốt thì giờ lại thấy nó không còn ổn nữa.
Claude 4, gpt, llama, Gemini 2.5, pro-mini, mistral… cứ chuyển qua chuyển lại mãi như vậy làm tôi thấy đầu óc quay cuồng
Đó là kiểu mệt mỏi do phải liên tục đổi qua lại giữa các model LLM
- Tôi hiểu cảm giác của bạn, nhưng tôi lại nghĩ việc liên tục có nhiều lựa chọn như thế này là điều rất tốt. Tốc độ đổi mới cũng tuyệt vời. Nếu lúc nào cũng muốn chỉ dùng model tốt nhất thì đúng là một hành trình mệt mỏi, nhưng vẫn tốt hơn rất nhiều so với trì trệ hay độc quyền
- Vì thế nên tôi gần như không thử mấy công nghệ mới này nữa (dù chúng khá thú vị). Tôi định tới nửa cuối năm 2026 mới bắt đầu tự dùng. Lúc đó model cục bộ và phần cứng chắc cũng đã phát triển hơn rồi.
  Tôi thực sự nể những người đang gồng gánh các bản thử nghiệm hiện tại
- Chính kiểu cạnh tranh này mới thực sự là điều tốt. Tôi luôn chỉ dùng các model cao cấp, nhưng lại hầu như không tốn tiền. Lúc nào cũng có khuyến mãi hoặc những cơ hội gần như miễn phí
- Không nhất thiết phải chạy theo. Chỉ cần đều đặn dùng một model thực sự hợp với mình là đủ rồi
- Việc các phiên bản cũ kém đi là do nhà cung cấp dịch vụ dồn tài nguyên cho phiên bản mới. Ngoài ra còn có ảnh hưởng từ mốc cắt dữ liệu huấn luyện của bản cũ nữa (ví dụ: claude sonnet 3.5→3.7).
  Cá nhân tôi chỉ dùng Claude/Anthropic thôi. Nó hiểu tôi tốt hơn. Nó đủ thông minh nên tôi ít khi cần phải dùng bản mới nhất
Điều khiến việc ra mắt Voxtral trở nên thú vị là vì nó làm cho mảng transcription âm thanh mã nguồn mở cạnh tranh trở lại sôi động hơn. Tôi vẫn hơi nghi ngờ liệu có thật sự cần tới backbone LLM hay không, nhưng dù sao cách tiếp cận này cũng khá thú vị
- Thực ra có rất nhiều model nhận dạng giọng nói (STT) mã nguồn mở mạnh hơn nhiều.
  Thông cáo báo chí của Mistral khiến người ta có cảm giác như đây là thứ tốt nhất kể từ Whisper, nhưng trên thực tế đối tượng họ so sánh không nằm trong nhóm dẫn đầu.
  Benchmark mở: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
  Tham khảo thêm, Scribe mà Mistral đem ra so sánh đang đứng thứ 10.
  Dù đây là benchmark tiếng Anh, nhưng cũng có nhiều model đa ngôn ngữ nên vẫn đáng tham khảo (ví dụ: https://huggingface.co/nvidia/canary-1b-flash)
Giờ đây tôi quan tâm đến các model dữ liệu mở (và có thể kiểm chứng được về mặt đạo đức) hơn nhiều so với open code hay open weight.
Ví dụ, tôi muốn dùng một model có thể cho tôi biết liệu tài nguyên do tôi chỉ định có nằm trong dữ liệu huấn luyện của nó hay không
Gần đây tôi không thể bỏ được cảm giác rằng ngành AI chỉ đang sao chép dịch vụ của OpenAI.
Dịch vụ của các công ty khác nhìn chung cũng chỉ là cùng một loại dịch vụ với cấu trúc hơi khác.
Bản thân mức độ đổi mới cũng thực ra không cao đến vậy
- Nếu dùng thực tế thì chúng hoàn toàn không giống nhau. Trong các công việc hằng ngày như lập trình, khác biệt giữa các model là rất lớn
- Cả thế giới bây giờ giống như đang xây những dịch vụ mới trên nền hàm f(input: string): string. Nên việc chúng trông giống nhau cũng là điều khó tránh
- OpenAI cũng lấy tính năng Deep Research từ Google. Họ dùng đúng cái tên đó, và Mistral cũng vậy
- Đây lại chính là cạnh tranh thị trường lành mạnh. Những trường hợp như Apple duy trì đổi mới suốt hàng chục năm là sản phẩm của kiểu gác cổng mang tính độc quyền
- Cuối cùng thì gần như cùng một loại công nghệ đang được áp dụng rộng khắp. Khác biệt chủ yếu chỉ là dữ liệu huấn luyện và sức mạnh tính toán
Tôi đang dùng ChatGPT rất nhiều. Tôi cũng định thử LeChat xem sao, và muốn biết liệu có khác biệt lớn không hay gần như giống nhau
Nếu bạn vẫn chưa dùng tính năng Deep Research của OpenAI thì tôi thực sự khuyên nên thử. Tôi vẫn chưa tìm được dịch vụ thay thế nào dùng ổn. Tôi cũng đã thử của Google nhưng không thấy quá ấn tượng.
Với các kỹ sư nghiên cứu trade-off, nó có thể giúp tiết kiệm một lượng thời gian khổng lồ
- Tính năng Research của Anthropic cũng khá tốt. Tôi nghĩ nó ở tầm OpenAI.
  Bản trả phí của Google chính xác hơn đôi chút, nhưng báo cáo kết quả lại quá dài dòng nên đọc rất mệt. Nó giống bài báo cáo của sinh viên cố kéo dài nội dung cho đủ số từ hơn
- Tôi đặc biệt thấy nó rất hữu ích cho nghiên cứu thị trường (liên quan đến khởi nghiệp). Cảm giác như thuê được một trợ lý kế hoạch hóa/PM mới vào nghề nhưng rất thông minh
- Tôi cũng khuyên nên thử tính năng nghiên cứu của Kimi 2. Tôi đã bất ngờ vì kết quả tốt hơn mong đợi
- Kết quả từ OpenAI và Gemini khá khác nhau. Không thể nói bên nào tốt hơn, chỉ là chúng khác biệt rõ rệt
- Perplexities cũng không tệ. Chỉ là tôi không có gói trả phí của OpenAI nên không thể so sánh trực tiếp
Các ví dụ prompt không hay lắm. Ví dụ, với câu trả lời liên quan đến kế hoạch cá nhân thì việc trả lời thẳng không cần Deep Research lại tốt hơn hẳn (nó chỉ trả lời đúng phần visa thôi)
Không biết Voxtral có thể được áp dụng vào bàn phím Futo Android hay không

Mistral AI bổ sung Deep Research, Voice, Projects và nhiều tính năng khác cho Le Chat

What’s new in Le Chat.

1. Chế độ Deep Research

2. Chế độ giọng nói

3. Suy luận đa ngôn ngữ gốc

4. Projects

5. Chỉnh sửa hình ảnh nâng cao

Bài viết liên quan

1 bình luận

Ý kiến Hacker News