阿里发布全模态大模型 Qwen3.5-Omni,无缝理解文本、图片、音频及音视频输入

发布时间: 2026-03-30 热度: 2502

阿里千问发布全模态大模型Qwen3.5-Omni,该模型能够无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频Caption生成。在音频及音视频分析、推理、对话、翻译等任务上,Qwen3.5-Omni超过了Gemini3.1-Pro。它还支持语义打断、音色克隆及语音控制,让对话体验更自然,并支持256K超长上下文与113种语言识别,可处理10小时音频或1小时视频。此外,Qwen3.5-Omni原生支持WebSearch和复杂Function Call,能够执行智能任务。

——IT之家

在下方留下您的评论.加入TG群.打赏🍗