Writing

從魔法按鈕到白盒工廠：HLN Machine 的工程實錄

AI,LLM,Automation,Video,Local AI,Pipeline · 2026-04-26

AI 工廠真正困難的地方，不是讓模型生成一次結果，而是讓每一次失敗都能被看見、被定位、被替換，最後重新接回管線。

HLN Machine 是一座短影片工廠：給它一個新聞 seed，它會自己完成選題理解、腳本生成、配音、字幕、B-Roll、合成、放大與 YouTube Short 上傳。聽起來像一個魔法按鈕，但真正讓它能工作的，不是「按一下就自動完成」的想像，而是大量可觀測、可替換、可重啟的工程設計。

這篇文章記錄的不是一個單點 AI demo，而是一套本地化、零運行成本、但工程成本極高的生產系統。HLN 的核心價值，在於它把短影片製作拆成一組白盒管線，讓每一次生成的不穩定性都有地方被接住。

不是魔法按鈕

如果只看最終輸入與輸出，HLN 像是典型的「AI 一鍵生成短片」產品：輸入新聞，輸出短片。但這種敘事很容易誤導工程判斷。短影片的商業現實是單支內容的邊際收益很低，若每次生成都依賴昂貴的閉源 API，模型成本會直接吞掉實驗空間。

因此 HLN 一開始就不是在追求最漂亮的一次性輸出，而是在追求「可以反覆運行」的系統。這個約束非常硬：盡可能本地化，盡可能零運行成本，盡可能讓每個環節都能被檢查、替換與重跑。

本地模型不是免費午餐

HLN 運行在 Mac Studio M2 Ultra 128GB 上，主要依賴本地模型完成文本、語音、視覺理解與影片生成。這包括 indexTTS2、Qwen3 Next、Qwen3-VL、Wan 2.2 與 Whisper 這類組件。從帳單角度看，單次生成幾乎沒有雲端 API 成本；從工程角度看，成本只是換了形態。

TTS 可能被 VRAM、Gradio 狀態與音色參考拖垮。
Wan 2.2 可以生成影片，但不同模式在速度、穩定性與語意可控性上差異巨大。
macOS MPS 不是 CUDA，PyTorch operator、記憶體行為與第三方套件支援都會成為實際邊界。

所謂零成本，並不是沒有成本，而是把成本從每次調用的帳單，轉移到硬體、等待、失敗恢復與工程維護上。一次完整生成可能需要三到六小時，這使得「中途可恢復」比「一次跑完」更重要。

高熵創造與低熵抽取必須分離

HLN 的一個重要教訓是：不能把創作與抽取混在同一個 LLM 任務裡。讓模型同時重寫新聞、塑造 HLN 式語氣、抽取結構化欄位、標記 B-Roll 位置，通常會得到看似合理但不穩定的結果。

創作是高熵任務，需要模型發散；抽取是低熵任務，需要模型收斂。HLN 將這兩者拆開：先抽取，再改寫；先擴展候選，再打分；先生成腳本，再由下游 QA 檢查時長、字幕與片段結構。這種拆分看起來更繁瑣，但它把不可控的生成問題，變成了多個可以獨立觀察的小問題。

B-Roll 的關鍵不是想像，而是現實符號

直接讓 LLM 寫 prompt，再交給 Wan 做 text-to-video，往往會產生抽象、泛化、缺少新聞感的畫面。HLN 後來轉向另一條路：先尋找真實世界符號，再讓視覺模型描述素材，最後由 LLM 在語意描述中選擇可用片段。

這裡的重點不是圖片本身，而是圖片背後提供的「語意錨點」。新聞短片需要觀眾能立刻識別的現實符號：人物、場景、產品、機構、地點、衝突。當 B-Roll 來源建立在這些符號上，影片生成才不會只剩下漂亮但空泛的背景動畫。

句子熵如何驅動 B-Roll 窗口

最初讓 LLM 直接決定哪一句該出現 A-Roll、哪一句該出現 B-Roll，看起來自然，實際上很不可靠。HLN 改用更工程化的方法：計算句子熵，找出資訊密度與視覺需求更高的窗口，再將 B-Roll 插入這些區段。

這種方法不一定比模型判斷更「聰明」，但它更穩定。它把選擇 B-Roll 的問題從模糊審美，改寫成可計算、可調參、可重現的流程。對一座工廠而言，穩定性通常比靈感更珍貴。

四條管線，而不是一條咒語

A 管線負責新聞理解、HLN 風格腳本、TTS、SRT、B-Roll 熵窗口與 IR.json。如果配音時長低於門檻，就回到文本層重啟。
B 管線負責影片建構：搜尋 B-Roll 素材、通過 VL gate、生成語意描述、挑選候選，再用 Wan 生成 t2v 或 i2v 片段，最後與 A-Roll 合成並放大。
C 管線負責品牌與字幕：使用 faster-whisper 對成片做 ASR，生成句級與詞級字幕，校正 word-level timing，再輸出 Bionic Reading 風格字幕與 Logo 疊加。
D 管線負責上傳：由 LLM 生成標題、描述與 tags，再透過 YouTube Data API 發佈為 Short。

這些管線的價值不只是自動化，而是把整個製程拆成可以獨立失敗、獨立觀測、獨立重跑的節點。當 TTS 爆掉、VL 選錯、字幕漂移、B-Roll 不合適時，系統不需要從零開始猜原因。

允許失敗，但不允許失明

HLN Machine 最值得保留的工程原則，是白盒化。AI 生成系統一定會失敗，問題不在於能不能完全避免失敗，而在於失敗時是否知道發生在哪裡、為什麼發生、能否只替換那一段。

黑盒自動化追求的是把複雜度藏起來；白盒工廠追求的是讓複雜度有位置可放。HLN 的中間產物、檢查點、IR、字幕、描述、候選片段與重啟邏輯，都是為了讓人能在模型不穩定的世界裡保持控制。

HLN Machine 不是一個魔法按鈕。它是一座把失敗、等待、校對、重啟和替換全部寫進設計裡的白盒工廠。

Notion 公開地址：https://qoli.notion.site/HLN-Machine-34ec1b36c401815bbe3ecc741f8a6a55