内容

阿里云提出的大型模型系列 Qwen(简称统一千文)的视觉多模态版本。Qwen-VL 接受图像、文本和边界框作为输入,输出文本和边界框。

总结
阿里云提出了一种名为Qwen(简称统一千文)的大型模型系列的视觉多模态版本。Qwen-VL接受图像、文本和边界框作为输入,输出文本和边界框。