阿里大模型開源讀圖識(shí)物基于通義千問7B打造可以商用

2023-08-28 14:52:48 編輯：滕唯愛來(lái)源：

導(dǎo)讀阿里再一次推出大規(guī)模視覺語(yǔ)言模型Qwen-VL，上線之后可以直接開源。Qwen-VL是基于通義千問-7B打造的多模態(tài)大模型，支持多種不同的輸入，包...

阿里再一次推出大規(guī)模視覺語(yǔ)言模型Qwen-VL，上線之后可以直接開源。Qwen-VL是基于通義千問-7B打造的多模態(tài)大模型，支持多種不同的輸入，包括圖像輸入、文本輸入以及檢測(cè)框輸入等等。除了文字輸出之外，也支持檢測(cè)框輸出。

這款模型可以支持多語(yǔ)言對(duì)話，端到端支持圖片里中英雙語(yǔ)的長(zhǎng)文識(shí)別。支持多圖輸入和比較，指定圖片問答，多圖文學(xué)創(chuàng)作等等。在視覺定位能力方面做得也比較完美，即使圖片當(dāng)中有非常復(fù)雜的人物，也能夠根據(jù)使用者的需求，精準(zhǔn)的找到對(duì)應(yīng)目標(biāo)。在模型架構(gòu)上引入視覺編碼器 ViT，通過(guò)位置感知的視覺語(yǔ)言適配器連接兩者，能夠讓大模型支持視覺信號(hào)輸入。引入高分辨率的多任務(wù)視覺語(yǔ)言數(shù)據(jù)，多項(xiàng)任務(wù)可以做聯(lián)合預(yù)訓(xùn)練。

標(biāo)簽：阿里大模型，通義千問