Vidu 於 2025 年第 3 季釋出 Q1 版本,正式開放 Reference-to-Video(圖像參照生成影片)功能,讓創作者得以上傳多張角色或場景圖片,並透過一則文字描述指令生成風格一致的短片。此更新結合原有 Image-to-Video 與多圖融合能力,使生成片段在不同視角與鏡位切換時,仍可維持角色樣貌、背景元素及敘事邏輯的一致性,大幅提升影片連貫度與實用性。
這項突破對於需要快速生成多角色畫面、穩定維持角色外觀與情節流暢的創作者、品牌營銷人員與短片製作者而言,具有重要應用潛力。我們將以「香港街頭對打場面」作為示例,實測 Vidu Reference-to-Video 的實際操作與生成效果,逐步教學此功能的使用方法與應用邏輯。
Vidu Reference-to-Video 三大關鍵能力
Vidu Q1 推出的 Reference-to-Video 功能,標誌著生成式影片邁向「高一致性」、「多角色整合」、「語意理解」的新階段。即使無需逐格控制、亦無需詳細分鏡,使用者只需提供參照圖片與簡單指令,便可製作出敘事邏輯與風格穩定的影片片段。
以下為此功能的三大關鍵重點:
✅ 多角色參照圖支援:可上傳最多 7 張圖像,作為影片角色、場景與道具的來源模組。
✅ 語意推理生成畫面:即使某些道具未於圖中出現,只要在指令中描述,系統亦可自動補足所需元素。
✅ 影像一致性大幅提升:即使生成過程跨多鏡頭、多角度,角色樣貌與背景細節仍保持連貫,適用於敘事場景與角色互動。
這項功能不僅簡化了創作流程,更進一步解決了以往 AI 影片生成中常見的「角色崩壞」與「畫面跳接不順」問題,成為 AI 影片應用進入內容生產階段的重要技術轉捩點。
🛠️ 3 步操作流程|如何用 Vidu Reference-to-Video 生成角色對打片段
根據我們實測,以 Vidu Q1 生成「speed 一拳打飛馬車」的片段,只需簡單三個步驟,無需任何剪接或動畫製作經驗,已可生成具角色一致性的短片效果:
Step 1|上傳角色參照圖
點選「Reference to Video」模式,分別為角色 A(speed)與角色 B(馬車)上傳 2–3 張不同角度或表情的照片。Vidu 支援每個角色建立多張圖片作為視覺辨識依據,確保生成過程中角色外觀穩定。

Step 2|建立角色 Reference Name
為每組圖片命名,例如「speed」、「馬車」,便於於後續 Prompt 指令中清楚標示角色身份。每位角色可單獨命名與儲存於系統之中,支援重複使用。

Step 3|輸入生成指令(Prompt)
在 Prompt 欄中輸入指令並選擇角色,例如:
speed 在香港街頭一拳打飛 馬車

Vidu 將根據參照圖與文字描述,自動合成動作場景,生成角色動作連貫、背景合理的短片。即使未指定街景圖片,系統亦會依據語意理解補完細節。
⚙ 技術解析|Reference-to-Video 功能背後的三項突破
Vidu Q1 所搭載的 Reference-to-Video 模型,結合了多項影像語意理解與視覺生成技術,令影片製作更穩定、更具敘事能力。根據官方資料與實測觀察,此功能具備以下三項核心能力:
1|支援多圖參照(Multi-Reference Input)
使用者可上傳最多 7 張參照圖,涵蓋角色、場景與道具,Vidu 會根據圖片中之特徵建立視覺模組,並於影片中自動還原相關細節。這種模組化設計可靈活重組,擴展不同組合應用。
2|語意驅動畫面生成(Semantic Understanding)
即使用戶未提供所有畫面元素(例如道具或背景),只要於 Prompt 中提及,系統亦可自動生成對應畫面。這顯示其具備語意補全能力,可根據描述合理推理畫面場景。
3|角色與畫面一致性提升(Temporal Coherence)
影片中的角色表現、服裝、體態將根據所選參照圖保持一致。即使出現鏡位轉換、視角切換或多角色互動,Vidu 亦可維持角色外觀與動作邏輯的穩定,解決傳統生成影片中角色「跳格」、「變形」等問題。
此三大特點令 Reference-to-Video 成為目前市面上少有同時兼顧「靈活構圖」與「穩定敘事」的生成方案,無需分鏡圖亦可完成具敘事邏輯的視覺片段。
🎯 應用場景延伸|內容創作者與行銷人員可即用的 3 種方式
Vidu Q1 的 Reference-to-Video 功能,讓影片創作從「素材收集」走向「視覺構成」,不再依賴拍攝器材或實景素材,即可完成連貫且具角色互動性的視覺內容。根據我們整理,以下三類用戶最能即時受惠:
1|內容創作者|快速構建敘事片段
以往拍攝具角色互動或敘事轉場的影片,需要真人演出與剪接。現在只需提供人物圖像,並在 prompt 中描述情節即可構成影片邏輯,適用於短劇、網路故事或主題短片創作。
2|品牌行銷團隊|設計角色導向廣告內容
可自製產品代言角色與顧客角色,設定互動場景(如體驗、展示、驚喜),於影片中產出視覺一致、風格統一的品牌素材。即使無實拍,也能呈現敘事感。
3|教育與教學工作者|生成教學互動畫面
透過多角色設計對話場景(例如:醫患溝通、歷史人物互動),搭配文字敘述,生成具視覺記憶點的教學素材,支援教師快速製片並提升學習參與度。
這項功能的本質,是將「角色 + 描述」作為創作基本單位,大幅降低傳統影像製作門檻,亦為創作者帶來全新的敘事自由度。
🧩 結語+行動建議|學識一招不夠,用一年打造全方位 AI 實力
Vidu 的 Reference-to-Video 功能,只是眾多影像生成工具中的其中一款。真正的關鍵在於:你是否已準備好,將這些工具整合入你的創作與營運流程中,持續產出可轉換的內容?
如果你想一套學識職場、營銷與產品應用的 AI 技術,我們誠意推薦:
🎓【AI-in-One 實戰成長計劃】
三大主線|一年內無限上堂|全額退回學費
🔹 職場 AI 協作 ×
🔹 AI 數碼營銷 ×
🔹 No-Code 商業應用開發
💡 一次報名,全年無限次參加 DotAI 實體課程
💰 完成 100 小時,即可全額退回 HKD $13,999 報名費(原價 $15,799)
🎯 無論你係創作者、行銷人員,定係中小企經營者,呢個計劃都能幫你建立完整 AI 技能樹,學識真正「用得出」的 AI!
最貼地嘅 ChatGPT 實戰攻略
其他文章