Description
CM3leon est un modèle génératif de pointe qui permet à la fois la génération de texte vers image et d'image vers texte. C'est un modèle multimodal qui combine la fonctionnalité des modèles autorégressifs avec des coûts de formation bas et une efficacité d'inférence. Le modèle est formé à l'aide d'une recette adaptée des modèles de langage uniquement textuels, comprenant la préformation améliorée par le recouvrement et les étapes de fine-tuning supervisé multi-tâches. CM3leon atteint des performances de pointe en génération de texte vers image, même avec cinq fois moins de calcul que les méthodes précédentes basées sur des transformateurs. Il est capable de générer des séquences de texte et d'images conditionnées à des séquences arbitraires d'autres contenus texte et image, étendant ainsi la fonctionnalité des modèles précédents limités à la génération de texte vers image ou d'image vers texte. Le modèle a été adapté à des instructions multi-tâches pour la génération d'images et de texte, ce qui permet d'obtenir des améliorations significatives dans des tâches telles que la génération de légendes d'images, la réponse à des questions visuelles, l'édition basée sur le texte et la génération d'images conditionnées. CM3leon surpasse le modèle de texte à image de Google et obtient un impressionnant score de Distance Fréchet Inception (FID) de 4,88 sur le banc d'essai de génération d'images largement utilisé, établissant ainsi un nouvel état de l'art. Les capacités de CM3leon brillent dans la génération d'objets complexes et les tâches d'édition d'images guidées par le texte. Il excelle dans la génération d'imagerie cohérente qui suit les indications d'entrée, même lorsqu'il s'agit de contraintes et de structures compositionnelles. De plus, le modèle se comporte bien dans des tâches telles que l'édition d'images guidée par le texte, la génération de texte vers image avec des indications compositionnelles et la réponse à des questions sur les images. Malgré une formation sur un ensemble de données relativement restreint, les performances zéro-shot de CM3leon se comparent favorablement à celles de modèles plus importants formés sur des ensembles de données plus étendus. Il démontre le potentiel de l'augmentation par recouvrement et l'impact des stratégies d'échelle sur les performances des modèles autorégressifs. La polyvalence et l'excellente performance de CM3leon en font un outil précieux pour diverses tâches de vision par ordinateur et de langage.
Partagez Sur :

CM3leon by Meta

À partir de 9,99 $/mois
Partagez Sur :
Découvre des outils d'I.A similaires :

TheDream

Pas de tarification
Aucun outil similaire disponible.














