Writing
從魔法按鈕到白盒工廠:HLN Machine 的工程實錄
AI,LLM,Automation,Video,Local AI,Pipeline · 2026-04-26
AI 工廠真正困難的地方,不是讓模型生成一次結果,而是讓每一次失敗都能被看見、被定位、被替換,最後重新接回管線。
HLN Machine 是一座短影片工廠:給它一個新聞 seed,它會自己完成選題理解、腳本生成、配音、字幕、B-Roll、合成、放大與 YouTube Short 上傳。聽起來像一個魔法按鈕,但真正讓它能工作的,不是「按一下就自動完成」的想像,而是大量可觀測、可替換、可重啟的工程設計。
這篇文章記錄的不是一個單點 AI demo,而是一套本地化、零運行成本、但工程成本極高的生產系統。HLN 的核心價值,在於它把短影片製作拆成一組白盒管線,讓每一次生成的不穩定性都有地方被接住。
不是魔法按鈕
如果只看最終輸入與輸出,HLN 像是典型的「AI 一鍵生成短片」產品:輸入新聞,輸出短片。但這種敘事很容易誤導工程判斷。短影片的商業現實是單支內容的邊際收益很低,若每次生成都依賴昂貴的閉源 API,模型成本會直接吞掉實驗空間。
因此 HLN 一開始就不是在追求最漂亮的一次性輸出,而是在追求「可以反覆運行」的系統。這個約束非常硬:盡可能本地化,盡可能零運行成本,盡可能讓每個環節都能被檢查、替換與重跑。
本地模型不是免費午餐
HLN 運行在 Mac Studio M2 Ultra 128GB 上,主要依賴本地模型完成文本、語音、視覺理解與影片生成。這包括 indexTTS2、Qwen3 Next、Qwen3-VL、Wan 2.2 與 Whisper 這類組件。從帳單角度看,單次生成幾乎沒有雲端 API 成本;從工程角度看,成本只是換了形態。
- TTS 可能被 VRAM、Gradio 狀態與音色參考拖垮。
- Wan 2.2 可以生成影片,但不同模式在速度、穩定性與語意可控性上差異巨大。
- macOS MPS 不是 CUDA,PyTorch operator、記憶體行為與第三方套件支援都會成為實際邊界。
所謂零成本,並不是沒有成本,而是把成本從每次調用的帳單,轉移到硬體、等待、失敗恢復與工程維護上。一次完整生成可能需要三到六小時,這使得「中途可恢復」比「一次跑完」更重要。
高熵創造與低熵抽取必須分離
HLN 的一個重要教訓是:不能把創作與抽取混在同一個 LLM 任務裡。讓模型同時重寫新聞、塑造 HLN 式語氣、抽取結構化欄位、標記 B-Roll 位置,通常會得到看似合理但不穩定的結果。
創作是高熵任務,需要模型發散;抽取是低熵任務,需要模型收斂。HLN 將這兩者拆開:先抽取,再改寫;先擴展候選,再打分;先生成腳本,再由下游 QA 檢查時長、字幕與片段結構。這種拆分看起來更繁瑣,但它把不可控的生成問題,變成了多個可以獨立觀察的小問題。
B-Roll 的關鍵不是想像,而是現實符號
直接讓 LLM 寫 prompt,再交給 Wan 做 text-to-video,往往會產生抽象、泛化、缺少新聞感的畫面。HLN 後來轉向另一條路:先尋找真實世界符號,再讓視覺模型描述素材,最後由 LLM 在語意描述中選擇可用片段。
這裡的重點不是圖片本身,而是圖片背後提供的「語意錨點」。新聞短片需要觀眾能立刻識別的現實符號:人物、場景、產品、機構、地點、衝突。當 B-Roll 來源建立在這些符號上,影片生成才不會只剩下漂亮但空泛的背景動畫。
句子熵如何驅動 B-Roll 窗口
最初讓 LLM 直接決定哪一句該出現 A-Roll、哪一句該出現 B-Roll,看起來自然,實際上很不可靠。HLN 改用更工程化的方法:計算句子熵,找出資訊密度與視覺需求更高的窗口,再將 B-Roll 插入這些區段。
這種方法不一定比模型判斷更「聰明」,但它更穩定。它把選擇 B-Roll 的問題從模糊審美,改寫成可計算、可調參、可重現的流程。對一座工廠而言,穩定性通常比靈感更珍貴。
四條管線,而不是一條咒語
- A 管線負責新聞理解、HLN 風格腳本、TTS、SRT、B-Roll 熵窗口與 IR.json。如果配音時長低於門檻,就回到文本層重啟。
- B 管線負責影片建構:搜尋 B-Roll 素材、通過 VL gate、生成語意描述、挑選候選,再用 Wan 生成 t2v 或 i2v 片段,最後與 A-Roll 合成並放大。
- C 管線負責品牌與字幕:使用 faster-whisper 對成片做 ASR,生成句級與詞級字幕,校正 word-level timing,再輸出 Bionic Reading 風格字幕與 Logo 疊加。
- D 管線負責上傳:由 LLM 生成標題、描述與 tags,再透過 YouTube Data API 發佈為 Short。
這些管線的價值不只是自動化,而是把整個製程拆成可以獨立失敗、獨立觀測、獨立重跑的節點。當 TTS 爆掉、VL 選錯、字幕漂移、B-Roll 不合適時,系統不需要從零開始猜原因。
允許失敗,但不允許失明
HLN Machine 最值得保留的工程原則,是白盒化。AI 生成系統一定會失敗,問題不在於能不能完全避免失敗,而在於失敗時是否知道發生在哪裡、為什麼發生、能否只替換那一段。
黑盒自動化追求的是把複雜度藏起來;白盒工廠追求的是讓複雜度有位置可放。HLN 的中間產物、檢查點、IR、字幕、描述、候選片段與重啟邏輯,都是為了讓人能在模型不穩定的世界裡保持控制。
HLN Machine 不是一個魔法按鈕。它是一座把失敗、等待、校對、重啟和替換全部寫進設計裡的白盒工廠。
Notion 公開地址:https://qoli.notion.site/HLN-Machine-34ec1b36c401815bbe3ecc741f8a6a55