L'introduction de ces modèles, avec leur capacité à extraire du sens et des informations des images, pourrait révolutionner l'interaction avec le contenu visuel. Par exemple, grâce à leur capacité de compréhension des images et de réponse aux questions, les modèles pourraient à l'avenir fournir une aide aux personnes malvoyantes lors d’achats en ligne.
Qwen-VL est la version multimodale de Qwen-7B, le modèle à 7 milliards de paramètres d'Alibaba Cloud pour son LLM Tongyi Qianwen qui est également disponible sur ModelScope en open source. Capable de comprendre à la fois des images et des textes en anglais et en chinois, Qwen-VL peut effectuer diverses tâches telles que répondre à des questions ouvertes liées à différentes images et générer des légendes d'images. Qwen-VL peut traiter des images d'une résolution de 448*448, ce qui permet une meilleure reconnaissance et une meilleure compréhension des images.
Qwen-VL-Chat permet des interactions plus complexes, telles que la comparaison d'images multiples et la réponse à des questions ouvertes. S'appuyant sur des techniques d'alignement, cet assistant d'IA présente un éventail de capacités créatives, notamment la rédaction de poèmes et d'histoires à partir d'images, le résumé du contenu de plusieurs images et la résolution de questions mathématiques affichées sur des images.
Réponse aux questions ouvertes par Qwen-VL-Chat
Dans le but de démocratiser les technologies de l'IA, Alibaba Cloud partage en open-source avec des universitaires, des chercheurs et des institutions commerciales du monde entier via sa communauté de modèles d'IA d'Alibaba, ModelScope, et la plateforme collaborative d'IA, Hugging Face.
Publication de Cornell University - Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities
Qwen-VL est la version multimodale de Qwen-7B, le modèle à 7 milliards de paramètres d'Alibaba Cloud pour son LLM Tongyi Qianwen qui est également disponible sur ModelScope en open source. Capable de comprendre à la fois des images et des textes en anglais et en chinois, Qwen-VL peut effectuer diverses tâches telles que répondre à des questions ouvertes liées à différentes images et générer des légendes d'images. Qwen-VL peut traiter des images d'une résolution de 448*448, ce qui permet une meilleure reconnaissance et une meilleure compréhension des images.
Qwen-VL-Chat permet des interactions plus complexes, telles que la comparaison d'images multiples et la réponse à des questions ouvertes. S'appuyant sur des techniques d'alignement, cet assistant d'IA présente un éventail de capacités créatives, notamment la rédaction de poèmes et d'histoires à partir d'images, le résumé du contenu de plusieurs images et la résolution de questions mathématiques affichées sur des images.
Réponse aux questions ouvertes par Qwen-VL-Chat
Dans le but de démocratiser les technologies de l'IA, Alibaba Cloud partage en open-source avec des universitaires, des chercheurs et des institutions commerciales du monde entier via sa communauté de modèles d'IA d'Alibaba, ModelScope, et la plateforme collaborative d'IA, Hugging Face.
Publication de Cornell University - Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities
Autres articles
-
La sécurité de l’IA, une réelle préoccupation pour les entreprises
-
Alibaba Cloud propose une gamme de LLM de tailles variées dotée de fonctionnalités multimodales
-
Alibaba Cloud s’engage à nouveau aux côtés de de la communauté open source en offrant 7 milliard de paramètres LLM
-
Alibaba Cloud met à jour AnalyticDB avec un moteur de base de données vectoriel
-
Alibaba Cloud lance un nouveau modèle d'IA pour soutenir la transformation de l'intelligence des entreprises