Language-Image model

Posted Apr 19, 2025 Updated May 10, 2025

By Weihua Kwong

1 min read

Language-Image model

CLIP(Contrastive Language-Image Pre-train)

2021.01

text encoder + image encoder -> 类似 transformer 中的 Q* K

Virtex ?

Llava

Survey, Vision model

This post is licensed under CC BY 4.0 by the author.