Gemini最近推出一款名為 DolphinGemma 的新型 AI 模型,正在悄悄推動「跨物種溝通」的革命。由 Google DeepMind 團隊研發,結合 Gemma 開源模型 的最新技術,DolphinGemma 已成功學習來自 Wild Dolphin Project 的海豚聲音數據庫,能夠解析野生大西洋斑點海豚的語音模式,甚至預測牠們下一句話可能會說甚麼。

左圖:一隻帶有幼崽的母海豚在覓食時觀察著牠的孩子。當小海豚覓食完畢後,母海豚會使用自己獨特的「簽名口哨聲」呼喚牠回來。右圖:用聲譜圖來視覺化該口哨聲的樣貌。(Google Blog圖片)
一場跨越海洋與科技的對話
自 1985 年起,Wild Dolphin Project(WDP)便在巴哈馬水域進行全球最長壽的海豚水下觀察研究。透過非侵入性方式收集的聲音與影像數據,研究人員可精準連結聲音與行為模式,建立起「誰在說話、說咗乜、做緊乜」的獨特資料庫。
以下是部分已辨識出的聲音類型:
簽名口哨:類似名字,用於母子團聚
爆衝聲(Burstpulse):多見於衝突爭鬥時
點擊聲(Buzzes):出現在求偶或追逐時
AI 如何學識「聽懂」海豚?
DolphinGemma 的背後技術令人嘆為觀止:
音訊處理:使用 Google 的 SoundStream 將海豚聲音轉換成模型可理解的格式
預測能力:像人類語言模型一樣,能預測下一段可能發出的聲音序列
模型規模:大約 4 億參數,可直接於 Pixel 手機上運行,方便野外應用
早期測試顯示,DolphinGemma 不僅可生成擬似海豚聲音,更有助發現隱藏於聲音之間的「結構與規律」——這些正是語言的前身。

在 DolphinGemma 早期測試期間所產生的口哨聲(左)與爆發脈衝聲(右)。(Google Blog圖片)
向雙向溝通邁進:CHAT 系統登場
更令人興奮的是,研究人員並非止步於「理解」,而是正走向「互動」。由 Georgia Tech 開發的 CHAT 系統(Cetacean Hearing Augmentation Telemetry) 是一部水下 AI 裝置,結合 Pixel 6/9 手機的強大運算力,目標是透過合成口哨聲建立與海豚的「共同詞彙」。
例如:
為海豚喜歡的物件(如海草、絲巾)創造獨特口哨聲
當海豚模仿這些聲音,就會得到對應的物件作為獎勵
DolphinGemma 可以加速判別與回應,使互動更流暢
這個過程,正像是為人類與海豚之間架起一座音波橋樑。
DolphinGemma 將開源釋出!
Google 表示,將於 2025 夏天開放 DolphinGemma 作為開源模型供全球研究人員使用。雖然它主要訓練於斑點海豚的數據,但未來透過微調,亦可應用至瓶鼻海豚、旋轉海豚等其他物種的聲音分析。
Dot.AI 解讀:AI 與自然的深層聯繫
我們一直強調——AI 不只是寫文案、畫圖、做自動化工具,更是一種連結世界、探索未知的方式。DolphinGemma 是一個重要的里程碑,代表人類與自然生態的溝通,可能將不再僅止於觀察與記錄,而是主動參與與理解。
在這個資訊氾濫、語言崩壞的年代,這類深度學習模型讓我們再次想起:
「真正有靈魂的 AI,不是做事快,而是理解深。」
其他文章