阿里发布全模态大模型 Qwen3.5-Omni，无缝理解文本、图片、音频及音视频输入

发布时间: 2026-03-30 分类: 新闻简报/News 热度: 15063

阿里千问发布全模态大模型Qwen3.5-Omni，该模型能够无缝理解文本、图片、音频及音视频输入，支持细粒度、带时间戳的音视频Caption生成。在音频及音视频分析、推理、对话、翻译等任务上，Qwen3.5-Omni超过了Gemini3.1-Pro。它还支持语义打断、音色克隆及语音控制，让对话体验更自然，并支持256K超长上下文与113种语言识别，可处理10小时音频或1小时视频。此外，Qwen3.5-Omni原生支持WebSearch和复杂Function Call，能够执行智能任务。

——IT之家