建置實現人臉辨識與驗證並達到高乘載的效能






從分類、偵測到語義分割,掌握 Vision Transformer 帶來的全新視覺處理模式

了解自駕車視覺系統如何識別道路環境、障礙與車輛動態

從圖像合成、風格轉換到數據增強,深入理解 GAN 如何打造新視覺可能

解析 AI 繪圖背後的數學機制,並應用於創意圖像生成與內容設計



帶領學員實際結合 Bird's-Eye-View (俯瞰圖) 與 Vision Transformer 模型,應用於自駕車領域,解決過去傳統模型一次僅能看到單一視角的痛點。透過建立鳥瞰視角,模擬真實世界的空間幾何關係,強化 AI 對車輛周遭環境的整體理解與預測能力,實現更智慧的路徑規劃與動態行車決策。



運用 hierarchy Loss 進一步的提升圖片分類模型精確率

結合追蹤功能即可針對影像中出現過場景且不同的車

協助駕駛輔助系統或自駕車決定行走方向

實作行車主流架構,提升物件偵測系統在夜間的強版本

運用各種 Stable Diffusion 微調的技巧,產生特定人物、物品或是風格的影像

卷積神經網路 (CNN) 是為影像任務量身打造的深度學習架構,透過局部感知與權重共享的設計,能有效擷取圖像中的局部特徵,從淺層到紋理層層提取,組成深層語意。
CNN 在圖像分類、物件偵測與醫學影像分析等任務中穩居主流,運算成本低、訓練效率也高,是對資源有限環境最為友善的選擇。

不再依賴固定視窗與鄰近像素,Vision Transformer (ViT) 運用自注意力機制,讓模型得以「全圖觀察」,同時關聯圖像中任意兩點的資訊,抓住全局語意與微妙互動。
Transformer 技術成功結合 CNN 的層級特徵與自身的建模能力,大幅提升影像分類、分割與生成任務的表現。


本課程將從深度學習的理論出發,在近年來最受歡迎的深度學習框架-PyTorch上使用Python撰寫模型訓練、測試以及佈署程式。實作的部份除了基本的影像分類外,還包括物件偵測、影像分割甚至是人臉生成等應用。這門課的最終目標是能讓學員具備打造深度學習模型的能力,以解決電腦視覺中的各種任務。

老師特別為「AI影像工程師特訓班」設計了「專屬提問時間」── 透過第五週2小時的提問時間,針對同學提出的問題一一解惑。為你深入解答難點,輕鬆應對專題實作。
無論是技術卡關還是實作疑惑,都能獲得即時有力協助,讓學習不留死角!


- 1-1 CNN圖片分類模型簡介: Alexnet, VGG, Googlenet, ResNet
- 1-2 基於注意力機制之Transformer在語言識別之原理與模型架構
- 1-3 基於Transformer的圖片分類模型:Vision Transformer(ViT)
- 1-4 預訓練(Pretraining)與自訓練(Self-training)
- 1-5 圖片分類模型的盲點
- 1-6 圖片分類模型於人臉辨識/醫學影像/瑕疵檢測之應用
- 1-7 圖片分類模型的超參數最佳化:Optuna
- 1-8 圖片分類模型超參數最佳化實作
- 1-9 進階圖片分類模型訓練:Hierarchy Loss
- 1-10 圖片分類模型實作1
- 1-11 圖片分類模型實作2
- 1-12 圖片分類模型實作3
- 1-13 圖片分類模型實作4:人臉辨識/人臉驗證模型實作
- 2-1 語義分割模型簡介: 從FCN到DeepLabv3+
- 2-2 Self-training及其在語義分割模型之應用
- 2-3 基於Transformer的語義分割模型: SETR
- 2-4 基於Transformer,可透過文字/UI介面實現的語義分割模型Segment Anything Model (SAM)
- 2-5 語義分割模型實作1:FCN
- 2-6 語義分割模型實作2:DeepLabv3
- 2-7 語義分割模型實作3:FCN超參數最佳化
- 2-8 語義分割模型實作4:DeepLabv3
- 2-9 語義分割模型實作5:SETR
- 2-10 語義分割模型實作6:SAM
- 3-1 物件偵測模型簡介:YOLOv1-v7
- 3-2 物件追蹤原理與物件計數
- 3-3 第一個基於Transformer的物件偵測模型: DETR
- 3-4 更為先進,基於Transformer的物件偵測模型: PETR
- 3-5 物件偵測模型實作1:YOLOv3物體偵測模型訓練
- 3-6 物件偵測模型實作2:基於YOLOv3的多標籤物體偵測模型訓練
- 3-7 物件追蹤原理與物件計數實作:使用YOLOv8+ByteTrack
- 3-8 物件追蹤原理與物件計數實作:使用YOLOv8+ByteTrack
- 3-9 物件偵測模型實作2:基於DETR的物體偵測模型訓練
- 4-1 Tesla AI day告訴我們的自駕車影像辨識系統開發趨勢
- 4-2 單攝影機車道線偵測模型設計
- 4-3 骨幹網路共享之多任務模型:物件偵測+語意分割+車道線偵測
- 4-4 如何BEV features: 2D-to-3D vs 3D-to-2D
- 4-5 多攝影機之鳥瞰物件語意分割模型:SimpleBEV
- 4-6 多攝影機之3D物件偵測模型:DETR3D
- 4-7 多攝影機之車道線偵測模型:Lift, Splat, Shoot
- 4-8 整合多任務的自駕車模型:UniAD
- 4-9 實作一:基於YOLO的多任務模型(物件偵測+語意分割+車道線偵測)
- 4-10 實作二:SimpleBEV實作
- 基於YOLO的多任務模型(物件偵測+語意分割+車道線偵測)
- 單元一到單元四學員問題回覆
- 6-1 生成式對抗網路基本原理
- 6-2 影像生成重要量化指標
- 6-3 成對與非成對GAN模型簡介:Pix2pix與CycleGAN
- 6-4 多領域GAN模型: StarGAN
- 6-5 結構一致GAN模型: AugGAN
- 6-6 基於GAN超解析度模型: SRGAN
- 6-7 基於GAN的去模糊模型: DeblurGAN
- 6-8 更為強大的影像生成模型:VAE, BigGAN與VQ-GAN
- 6-9 結合Transformer的GAN模型: VQ-GAN
- 6-10 基於Transformer與GAN的人臉模糊影像還原模型: CodeFormer
- 6-11 GAN模型實作1:日夜影像轉換
- 6-12 GAN模型實作2:CodeFormer
- 7-1 影像生成:DDPM, DDIM 與 Classifier-free guidance
- 7-2 影像轉換:Palette, Latent Diffusion Model
- 7-3 影像編輯: InstructPix2Pix
- 7-4 Stable Diffusion 及其微調:Controlnet, Dreambooth, LORA, Textual Inversion
- 7-5 專題實作:Stable Diffusion 生成模型微調(Textual Inversion)實作

提供刷卡3期0利率
超早鳥優惠:2025/7/21 ~ 2025/8/7
8/17 起開通專屬學習站台- 搶先預習所有線上課程內容
開通專屬學習站台後,可先預習 2 堂線上課程的內容,屆時參與直播課程時會更事半功倍,完整學期課表將於開訓日提供。
2025/9/17 ~ 2025/10/29
(線上課程觀看期限:2026/01/28止)
線上課程 + 直播實作
- 2堂線上課程 (約18.5小時)
- 6堂直播課程 (每堂2小時,共15小時)
- 2小時 專屬提問時間
- 1項大型專題+6大領域實作作業 一次帶走
- 學員 LINE 專屬交流社群
- 隨課專案助教
緯育TibaMe專業學程進行方式為直播與錄播雙軌進行,報名時請務必確認課程的上課程時間是否都可以配合安排,
若開課後因個人因素多時段無法全程參與課程請參考下列學習方式,恕不提供改期、延班、轉班申請加入新的班級謝謝。
▲ 可善加利用專業學程所提供直播錄影觀看時段,可自行安排複習。
▲ 每一期專業學程結訓後每位學員都可以向緯育TibaMe人員申請一次的免費複訓學習。
緯育TibaMe專業學程退費申請,請參閱下列相關說明:
▲ 第一次直播課程開始前且學習時未達50%申請退款,可全額退費。
▲ 第二次直播課程開始前且學習時未達50%申請退款,可退課程費用50%。
▲ 第二次直播課程後,恕不提供退款申請。
記憶體::8 GB 記憶體(或更高規格)
顯示卡: NVIDIA® GeForce® GT 450 1GB/ ATI® Radeon™ HD 7770 1 GB or better(或更高規格)
DirectX 版本:11
瀏覽器建議: