Home | Back to Courses

(Ken Cen出品)Generative AI第 31 部 多模態融合:視覺+語言模型深入解析 (上)

Course Image
Partner: Udemy
Affiliate Name:
Area:
Description: 一般 AI 模型都是只能處理某個功能。例如,語言模型 & 圖像模型。而隨著 AI 時代的發展,多模態模型誕生了。它能够同時處理多種不同的輸入信息。本課程將介紹如下將 用戶的 Prompt & 圖像輸入,分別用 Vison Transformer 和 Tokenizer 捕捉當中的內容,同時,結合兩種的Embedding ,並輸入到 Gemma 模型當中處理。課程內容如下:什麼是對比學習 & 為什麼需要SigLIP & 什麼是Vision Transformer如何 Pytorch 編寫Siglilp Vision Transformer如何處理 Embedding 到Patches & 什麼是 Batch Norm 和 Layer Norm如何編寫多模態模型的注意力機制代碼如何處理輸入 Image 和輸入 Prompt 並合併在一起如何製作 PaliGemma 多模態模型並導入權重為推理做準備
Category: Development > Data Science > Artificial Intelligence (AI)
Partner ID:
Price: 199.99
Commission:
Source: Impact
Go to Course