jt-live-whisper v2.16.5

100% 全地端 AI 語音工具集：即時轉錄、即時翻譯、錄音檔批次處理、講者辨識、會議摘要，所有 AI 模型皆在自有設備上執行，資料不經過任何雲端服務。

目錄	核心功能 · 其他特色 · 系統需求 · 快速開始 · 使用方式 · 互動式選單 · 命令列參數 · 技術架構 · 硬體建議 · 升級

核心功能涵蓋即時語音轉錄、中日英即時翻譯字幕、離線音訊檔批次處理、講者辨識（Speaker Diarization）、以及 LLM 會議摘要產出。採用系統音訊裝置層級擷取（macOS 使用 BlackHole，Windows 使用 WASAPI Loopback），理論上任何軟體的聲音輸出都能即時處理：視訊會議（Zoom、Teams、Meet）、YouTube、Podcast、串流影片等，不限定特定應用程式。所有 AI 推論皆由地端模型完成，全程不經過第三方雲端 API。

Author: Jason Cheng (Jason Tools)

我為什麼要打造 jt-live-whisper？

某次參加原廠的線上技術課程，全程英文授課，聽得七零八落。為了補足自己英文聽力的不足，乾脆動手打造了這套工具來即時翻譯，結果功能越做越多，就變成現在這個樣子了 XD

完全地端執行：語音辨識、翻譯、講者辨識、摘要全部使用自有設備上的 AI 模型，無需雲端 API Key、不上傳任何資料至第三方
隱私安全：會議內容、語音資料全程留在自有設備，適合企業內部會議、機密討論
零月租成本：不需要付費的雲端 API（ChatGPT、Claude、Gemini 等），所有採用的 AI 模型皆為自由開源
不限應用程式：採用系統音訊裝置層級擷取，理論上任何軟體的聲音輸出都能處理（Zoom、Teams、Meet、YouTube、Podcast 等）
功能完整：從即時轉錄翻譯、離線音訊處理、講者辨識到 AI 摘要，一套搞定
一鍵安裝：安裝腳本自動下載並編譯所有 AI 模型和相依套件

使用的 AI 模型

用途	AI 模型	說明
語音辨識 (ASR)	whisper.cpp	macOS 即時辨識引擎，支援中日英文，可在本機或 GPU 伺服器執行
語音辨識 (ASR)	faster-whisper (CTranslate2)	Windows 即時辨識 + 全平台離線處理，支援 VAD 靜音過濾
語音辨識 (ASR)	mlx-whisper	Apple Silicon GPU 加速，雙向模式（en_zh / ja_zh）即時辨識專用
語音辨識 (ASR)	Moonshine (Useful Sensors)	超低延遲串流辨識模型，英文專用（僅限 Apple Silicon）
翻譯 / 摘要	搭配自架 LLM 伺服器使用，推薦 Qwen / Phi-4 / GPT-OSS 等模型	透過地端 Ollama 或其他 LLM 伺服器執行（本機或區域網路），翻譯建議 14B 以上、摘要建議 120B 以上
翻譯 (離線)	NLLB 600M (Meta)	離線翻譯模型，支援中日英互譯（`en2zh`/`zh2en`/`ja2zh`/`zh2ja`）
翻譯 (離線備援)	Argos Translate	完全離線的輕量翻譯模型，僅支援英翻中
講者辨識	resemblyzer + spectralcluster	聲紋特徵提取 + Google 頻譜分群演算法，可在本機或 GPU 伺服器執行

所有模型皆在自有設備上推論（本機或區域網路內的 GPU 伺服器），不需要任何第三方雲端 API。

為什麼講者辨識不用更精準更快速的 pyannote.audio？ pyannote 的預訓練模型授權限制了可使用的用途與場景，且需要在 HuggingFace 註冊帳號、申請存取權限並設定 Token 才能下載模型。這不符合本工具「零帳號、零註冊、完全地端」的設計理念。resemblyzer + spectralcluster 完全開源、安裝即用、無需任何帳號或 Token。

兩種部署方式

單機模式：一台 Mac 或 Windows PC 即可完成所有處理，不需要額外硬體。
- macOS Apple Silicon（M1/M2/M3/M4）：透過 mlx-whisper 啟用 Metal GPU 加速，辨識速度約 1-3 秒
- Windows + NVIDIA GPU：安裝程式自動偵測並啟用 CUDA 加速，單機就能享受 GPU 加速效能（辨識約 0.5-1 秒），不需另架 GPU 伺服器
- Windows 無 GPU / macOS Intel：CPU 辨識，搭配 small 模型可用
本機 + GPU 伺服器模式：本機負責音訊擷取與介面操作，語音辨識和講者辨識交由區域網路內的 GPU 伺服器處理（系統音訊和麥克風兩路都可送遠端）。離線辨識速度快 5-10 倍，即時辨識約 0.3-0.5 秒。適合需要處理大量音訊或追求最佳即時辨識品質的場景。GPU 伺服器可以是 DGX Spark、安裝有 NVIDIA GPU 的 Ubuntu/Linux 主機，搭消費級 RTX 4090/5090 之類亦可（需已安裝 CUDA）。

兩種模式可隨時切換，伺服器離線時自動降級為本機處理，不中斷使用。

核心功能

1. 即時語音轉錄翻譯（主要功能）

擷取系統音訊（macOS / Windows），本地端 AI 即時辨識語音並翻譯成繁體中文字幕顯示於終端機。開會、看影片、聽 Podcast 即時翻譯。

2. 離線音訊檔批次處理

支援 mp3 / wav / m4a / flac 等格式，使用 faster-whisper AI 模型進行離線轉錄翻譯，適合會後補做逐字稿。

3. 講者辨識（Speaker Diarization）

自動辨識音訊中的不同講者，以不同顏色標示，支援自動偵測或手動指定講者人數。

4. AI 會議摘要與時間軸逐字稿

批次對記錄檔生成摘要，透過本地端 LLM 產出重點整理 + 校正逐字稿。搭配講者辨識，摘要中不同講者以不同顏色區分。

時間逐字稿 HTML 內嵌音訊播放器與波形圖，可直接點選波形任意位置跳至該時間點；播放時對應的逐字稿段落會即時以高亮區塊標示，方便對照聆聽。

5. 多模式語音轉錄

10 種功能模式：英翻中 / 中翻英 / 日翻中 / 中翻日 / 英中雙向 / 日中雙向 / 純英文轉錄 / 純中文轉錄 / 純日文轉錄 / 純錄音，滿足各種使用場景。

6. 雙向字幕模式

英中雙向（en_zh）和日中雙向（ja_zh），同時擷取系統音訊與麥克風，對方外語翻中文、自己中文翻外語，適用於雙語視訊會議。

其他特色

同時轉錄麥克風：所有即時模式加上 --mic 即可同時轉錄自己的麥克風語音，雙向模式自動啟用
多種本地端 AI 語音辨識引擎：即時辨識：Whisper（高準確度）/ Moonshine（超低延遲 ~300ms）；離線音訊檔轉錄：faster-whisper（支援 VAD 靜音過濾）
多種本地端翻譯引擎：LLM 大型語言模型（Ollama / OpenAI 相容伺服器）、NLLB 離線翻譯（中日英互譯）或 Argos 離線翻譯
會議主題感知翻譯：可指定會議主題（如「ZFS 儲存管理」），讓 LLM 根據領域上下文精準翻譯專業術語
自動偵測 LLM 伺服器：支援 Ollama、LM Studio、Jan.ai、vLLM、LocalAI、llama.cpp、LiteLLM 等本地端 LLM 伺服器
互動式選單 + CLI 模式：新手友善的選單介面，進階用戶可用命令列參數直接啟動
WebUI 瀏覽器介面：./start.sh --webui 在瀏覽器中操作所有功能，支援即時字幕、離線處理、講者辨識、摘要，手機/平板也可使用
關鍵字即時通知：設定關鍵字，即時辨識出現時自動發出通知。可用於追蹤會議重點、開會時提醒留意關鍵議題，或線上課程摸魚時讓系統在「請實作」「這個會考」時自動提醒。支援全螢幕警示特效、瀏覽器推播、音效提示（警示/柔和可選）、懸浮字幕閃爍，同一關鍵字冷卻機制避免重複通知
字幕轉發：即時字幕自動轉發到通訊平台（Telegram / Slack / Discord / Teams / LINE / Nextcloud Talk / 通用 API），可同時啟用多個平台、自訂發送間隔與內容（含時間/原文/譯文）。通用 API 支援 Body 範本（{{text}} 變數）搭配自訂 Headers
懸浮字幕（感謝 OSSLab 熊大提供建議）：桌面半透明字幕覆蓋視窗（PyQt6），可疊加於任何應用程式上方。字體依視窗大小自動縮放、可拖曳移動與調整大小、滑鼠穿透模式、字幕切換淡入淡出動畫。單語/雙語自動切換高度

關鍵字即時通知 — 設定關鍵字後，辨識結果出現時全螢幕警示 + 音效提醒：

懸浮字幕 — 半透明覆蓋視窗，疊加於任何應用程式上方：

字幕轉發 — 即時字幕自動轉發到 Telegram 等通訊平台：

系統需求

macOS：

macOS（Apple Silicon / Intel）
Python 3.12+
Homebrew（需事先安裝）
BlackHole 2ch（虛擬音訊驅動，安裝腳本會自動安裝）

Windows：

Windows 10 以上
Python 3.12+（從 python.org 安裝，勾選「Add to PATH」）
PowerShell 5.1+（Windows 10 內建）

共通：

本地端 LLM 伺服器（推薦 Ollama，翻譯/摘要用。推薦搭配 NVIDIA DGX Spark 執行 Ollama，CP 值高。沒有 LLM 伺服器也能用：程式可切換為 NLLB/Argos 離線翻譯引擎，完全不需額外伺服器，但摘要功能需要 LLM）

磁碟空間需求

安裝腳本會在安裝前自動檢查可用空間是否足夠。

本機

元件	大小	說明
Python venv + 套件	~1.1 GB	ctranslate2, faster-whisper, resemblyzer, spectralcluster 等
whisper.cpp	~60 MB	macOS: 原始碼編譯；Windows: 預編譯版本
Whisper GGML 模型	1.5~6.4 GB	預設 large-v3-turbo (1.5GB)；全部 5 個模型共 6.4 GB
Moonshine 模型	~245 MB	英文即時辨識（選用）
NLLB 600M 翻譯模型	~600 MB	離線翻譯（中日英互譯）
Argos 翻譯模型	~83 MB	離線備援翻譯（僅英翻中）
Homebrew 套件	~140 MB	cmake + sdl2 + ffmpeg（僅 macOS）
HuggingFace 快取	~5.3 GB	`~/.cache/huggingface/`，`--input` 離線處理用，首次使用時下載
最小安裝	~3 GB	venv + 1 個 Whisper 模型 + 基本套件
推薦安裝	~8 GB	加上 HuggingFace 快取（離線處理音訊檔用）
完整安裝	~14 GB	全部 Whisper 模型 + HuggingFace 快取 + Moonshine

GPU 伺服器（選配）

元件	大小	說明
PyTorch GPU (CUDA)	~2.5 GB	依 CUDA 版本而異
Python venv + 套件	~1 GB	faster-whisper, fastapi, resemblyzer 等
Whisper 模型	~6 GB	5 個模型（CTranslate2 格式），首次安裝時下載
openai-whisper	~500 MB	CTranslate2 CUDA 不可用時才安裝
最小安裝	~5 GB	PyTorch + 1 個模型
完整安裝	~12 GB	PyTorch + 全部 5 個模型 + 講者辨識套件

快速開始

1. 一鍵安裝

macOS：

打開終端機，貼上以下指令即可自動下載並安裝所有元件：

mkdir -p ~/Apps/jt-live-whisper && cd ~/Apps/jt-live-whisper
curl -fsSL https://raw.githubusercontent.com/jasoncheng7115/jt-live-whisper/main/install.sh -o install.sh
bash install.sh

Windows：

開啟 PowerShell（以管理員身份），建立資料夾並切換過去（不需要 Git）：

mkdir C:\jt-live-whisper -Force | Out-Null; cd C:\jt-live-whisper

下載安裝程式：

irm https://raw.githubusercontent.com/jasoncheng7115/jt-live-whisper/main/install.ps1 -OutFile install.ps1

執行安裝：

powershell -ExecutionPolicy Bypass -File install.ps1

安裝腳本會自動下載並設定所有地端 AI 模型和相依套件（Whisper 語音辨識模型、Moonshine 串流辨識模型、NLLB 離線翻譯模型、Argos 離線翻譯模型等）。安裝最後會詢問是否設定 GPU 語音辨識伺服器（選填），若有安裝 NVIDIA GPU 的 Ubuntu/Linux 主機（消費級 RTX 4090/5090 亦可，需已安裝 CUDA），可透過 SSH 自動在伺服器安裝 PyTorch、faster-whisper 等套件，大幅加速語音辨識。

首次安裝預估時間：約 10~20 分鐘（視網路速度而定，主要是下載 AI 模型。macOS 需額外編譯 whisper.cpp）

2. 設定音訊裝置

macOS

安裝 BlackHole 後需要重新啟動電腦，然後在「音訊 MIDI 設定」中建立虛擬裝置。

3a. 建立「多重輸出裝置」（必要）

讓系統音訊同時送到你的耳機和 BlackHole，程式才能擷取對方的聲音：

開啟「音訊 MIDI 設定」（Spotlight 搜尋「音訊 MIDI 設定」）
點左下角 + → 建立「多重輸出裝置」
勾選你的喇叭/耳機 + BlackHole 2ch
主裝置選 BlackHole 2ch（虛擬裝置時脈穩定，不會因藍牙斷線而失效）
到「系統設定 → 聲音 → 輸出」，選擇此多重輸出裝置

對方說話 → Zoom/Teams 輸出 → 多重輸出裝置 → 耳機（你聽到）
                                            → BlackHole（程式擷取）→ AI 辨識 → 字幕

Zoom / Teams 的喇叭輸出要設成「多重輸出裝置」，不能直接選 AirPods，否則 BlackHole 收不到聲音。麥克風維持原本的設定（如 AirPods），不需要改。

3b. 建立「聚集裝置」（選配，錄音時錄雙方聲音用）

如果你想用 --record 錄音功能同時錄下對方和自己的聲音，需要額外建立聚集裝置：

在「音訊 MIDI 設定」點左下角 + → 建立「聚集裝置」
勾選 BlackHole 2ch（對方聲音）+ 你的麥克風（你的聲音）
時脈來源選 BlackHole 2ch，其他實體裝置勾選「偏移修正」

程式會自動偵測聚集裝置作為錄音裝置，不需要手動選擇。不需要錄音的話可以跳過這步。

提示： 即時辨識預設處理系統音訊（對方/應用程式的聲音）。加上 --mic 參數即可同時轉錄你自己的麥克風語音，或使用雙向模式（en_zh / ja_zh）自動啟用雙路辨識。

Windows

Windows 不需要安裝額外的虛擬音訊驅動。程式透過 WASAPI Loopback 直接擷取系統播放的音訊，大多數情況下不需要手動設定。

如果自動偵測失敗，可嘗試啟用「立體聲混音」（Stereo Mix）：右鍵通知區域音量圖示 → 音效設定 → 錄製 → 右鍵「顯示已停用的裝置」→ 啟用「立體聲混音」。

驗證：執行 .\start.ps1 --list-devices 確認列表中有 loopback 裝置。

3. 安裝地端 LLM（翻譯/摘要用）

LLM 伺服器可安裝在本機或區域網路內的其他主機。推薦使用 Ollama：

# macOS：透過 Homebrew 安裝
brew install ollama

# Windows：從 https://ollama.com/ 下載安裝程式

# 下載推薦的翻譯模型（兩平台皆同）
ollama pull qwen2.5:14b

推薦硬體： 如果有 NVIDIA DGX Spark（128GB 記憶體），將 Ollama 安裝在 DGX Spark 上是非常實惠的選擇：可執行更大的模型、翻譯品質更好、推論速度更快，透過 --llm-host 指向即可。

不裝 LLM 也能翻譯： 程式可切換為 NLLB（中日英互譯，品質 7-8/10）或 Argos（僅英翻中）離線翻譯引擎，完全不需要額外伺服器。注意：摘要功能仍需 LLM 伺服器。

4. 啟動

先切換到安裝目錄：

# macOS
cd ~/Apps/jt-live-whisper

# Windows (PowerShell)
cd C:\jt-live-whisper

啟動程式：

# macOS
./start.sh

# Windows (PowerShell)
.\start.ps1

程式會進入互動式選單，依序選擇功能模式、翻譯引擎、AI 辨識模型等設定。音訊裝置全自動偵測，不需手動選擇。

使用方式

以下範例以 macOS 指令為主。Windows 使用者請將 ./start.sh 替換為 .\start.ps1，安裝目錄為 C:\jt-live-whisper。其餘參數完全相同。

WebUI 瀏覽器介面（推薦）

./start.sh --webui            # macOS
.\start.ps1 --webui           # Windows

自動開啟瀏覽器（預設 http://localhost:19781），在網頁中完成所有設定後按「開始」即可。

所有即時/離線功能皆可在瀏覽器操作，不需記指令
離線處理：講者辨識、摘要、摘要模型選擇
辨識模型依裝置自動推薦、翻譯引擎依設定自動選擇
各階段即時進度顯示（辨識/講者辨識/LLM 校正/摘要含 tokens 數）
聊天模式與字幕模式切換、淺色/深色主題
手機/平板也可使用

設定頁面

對話模式（聊天風格，對方靠左、自己靠右）

字幕模式（電影風格，黑底大字）

即時模式（預設，邊聽邊轉）

# 互動式選單
./start.sh                    # macOS
.\start.ps1                   # Windows

# CLI 模式（跳過選單）
./start.sh --mode en2zh --engine llm --llm-model qwen2.5:14b

# 英中雙向字幕（對方英文翻中文 + 自己中文翻英文）
./start.sh --mode en_zh

# 日中雙向字幕（對方日文翻中文 + 自己中文翻日文）
./start.sh --mode ja_zh

# 即時翻譯 + 同時轉錄麥克風
./start.sh --mode en2zh --mic

離線處理音訊檔

# 英翻中 + 自動摘要
./start.sh --input meeting.mp3 --summarize

# 講者辨識
./start.sh --input meeting.mp3 --diarize

# 指定講者人數 + 摘要
./start.sh --input meeting.mp3 --diarize --num-speakers 3 --summarize

產出檔案（存於 logs/<session>/）：

檔案	說明	需要 LLM
`時間逐字稿_*.txt`	帶時間戳逐字稿（翻譯模式含原文+譯文）	校正需要
`時間逐字稿_*.html`	互動式逐字稿（點擊時間戳可播放音訊）	校正需要
`時間逐字稿_*.srt`	SRT 字幕檔	否
`時間逐字稿_*.vtt`	WebVTT 字幕檔	否
`摘要_*.txt`	AI 重點摘要 + 校正逐字稿	是
`摘要_*.html`	AI 摘要 HTML（含樣式與相關檔案連結）	是

有設定 LLM 伺服器時，逐字稿會自動經過 LLM 校正（修正 ASR 辨識錯字），純轉錄模式同樣支援。

批次摘要

./start.sh --summarize logs/英翻中_逐字稿_20260101_120000.txt

快捷鍵（即時模式）

按鍵	功能
`Ctrl+C`	停止轉錄
`Ctrl+P`	暫停 / 繼續

互動式選單功能一覽

不帶任何參數啟動程式（./start.sh 或 .\start.ps1）即進入互動式選單，依序引導完成所有設定。

即時模式選單

步驟	選單項目	選項	說明
1	輸入來源	即時語音 / 讀入檔案	選擇即時擷取系統音訊或匯入錄音檔離線處理
2	功能模式	英翻中 / 中翻英 / 日翻中 / 中翻日 / 英中雙向 / 日中雙向 / 英文轉錄 / 中文轉錄 / 日文轉錄 / 純錄音	10 種模式，分群顯示（單向翻譯、雙向翻譯、轉錄、其他）
3	麥克風轉錄	是 / 否	轉錄模式（en/zh/ja）詢問是否同時轉錄麥克風
4	辨識位置	GPU 伺服器 / 本機	有設定 GPU 伺服器時才顯示
5	ASR 引擎	Whisper / Moonshine	英文模式可選 Moonshine（超低延遲），其他語言固定 Whisper
6	辨識模型	large-v3-turbo / large-v3 / medium 等	依裝置效能自動推薦適合的模型大小
7	翻譯引擎	LLM 伺服器 / NLLB 離線 / Argos 離線	翻譯模式才顯示，自動偵測可用的 LLM 伺服器
8	翻譯模型	伺服器上的模型清單	動態查詢 LLM 伺服器上已安裝的模型
9	會議主題	自由輸入	選填，提升 LLM 翻譯專業術語的準確度
10	音訊場景	會議 / 教育訓練 / 快速字幕	調整音訊緩衝長度，影響延遲與辨識品質
11	錄音設定	混合錄製 / 僅播放音訊 / 不錄音	是否同步錄製音訊為檔案
12	確認啟動	Y / n	顯示等效 CLI 指令，確認後開始

離線處理選單（讀入檔案）

步驟	選單項目	選項	說明
1	功能模式	英文轉錄+中文翻譯 / 中文轉錄+英文翻譯 / 日文轉錄+中文翻譯 / 中文轉錄+日文翻譯 / 英中雙向 / 日中雙向 / 純轉錄	9 種模式（不含純錄音）
2	辨識位置	GPU 伺服器 / 本機	GPU 伺服器辨識速度快 5-10 倍
3	辨識模型	large-v3-turbo / large-v3 / medium 等	依辨識位置推薦模型，伺服器模式顯示快取標籤
4	LLM 伺服器	host:port	翻譯模式才詢問，自動偵測伺服器類型
5	翻譯模型	伺服器模型 / NLLB 離線 / Argos 離線	動態列出伺服器模型 + 本機離線選項
6	講者辨識	不辨識 / 自動偵測 / 指定人數	自動偵測或手動指定 2~20 位講者
7	摘要與校正	摘要+校正逐字稿 / 只摘要 / 只逐字稿	需 LLM 伺服器，無 LLM 時僅產出逐字稿
8	摘要模型	伺服器模型清單	選了摘要才顯示，推薦 120B 以上
9	會議主題	自由輸入	選填，提升翻譯與摘要品質
10	確認啟動	Y / n	顯示等效 CLI 指令與設定總覽

互動選單的所有設定都可透過命令列參數直接指定，跳過選單直接執行。選單最後會顯示等效的 CLI 指令，方便下次直接使用。

命令列參數

參數	說明	預設值
`--webui`	啟動 WebUI 瀏覽器介面
`--mode MODE`	功能模式 (`en2zh` / `zh2en` / `ja2zh` / `zh2ja` / `en_zh` / `ja_zh` / `en` / `zh` / `ja` / `record`)	`en2zh`
`--asr ASR`	語音辨識引擎 (`whisper` / `moonshine` / `faster-whisper`)	`whisper`
`-m`, `--model MODEL`	Whisper 模型 (`base.en` / `small.en` / `small` / `medium.en` / `medium` / `large-v3-turbo` / `large-v3`)	依裝置推薦
`--moonshine-model MODEL`	Moonshine 模型 (`medium` / `small` / `tiny`)	`medium`
`-s`, `--scene SCENE`	使用場景 (`meeting` / `training` / `presentation` / `subtitle`)	`training`
`-e`, `--engine ENGINE`	翻譯引擎 (`llm` / `nllb` / `argos`)	`llm`
`--llm-model MODEL`	LLM 翻譯模型	`qwen2.5:14b`
`--llm-host HOST`	LLM 伺服器位址（自動偵測 Ollama 或 OpenAI 相容）
`--topic TOPIC`	會議主題（提升翻譯與摘要品質）
`-d`, `--device ID`	音訊裝置 ID（可用 `--list-devices` 查詢）	自動偵測
`--list-devices`	列出可用音訊裝置後離開
`--input FILE [...]`	離線處理音訊檔
`--diarize`	啟用講者辨識（需搭配 `--input`）
`--num-speakers N`	指定講者人數（需搭配 `--diarize`）	自動偵測
`--summarize [FILE ...]`	生成 AI 摘要（與 `--input` 合用時不需指定檔案）
`--summary-model MODEL`	摘要用 LLM 模型	`gpt-oss:120b`
`--mic`	同時轉錄麥克風語音（即時模式）
`--record`	即時模式同時錄製音訊
`--rec-device ID`	錄音裝置 ID（可與辨識裝置不同）
`--denoise`	即時模式啟用背景降噪
`--local-asr`	強制使用本機辨識（忽略 GPU 伺服器設定）
`--restart-server`	強制重啟 GPU 伺服器

支援的本地端 LLM 伺服器

程式會自動偵測 LLM 伺服器類型，不需手動選擇：

伺服器	預設 Port	API 類型
Ollama	11434	Ollama 原生
LM Studio	1234	OpenAI 相容
Jan.ai	1337	OpenAI 相容
vLLM	8000	OpenAI 相容
LocalAI / llama.cpp	8080	OpenAI 相容
LiteLLM	4000	OpenAI 相容

目錄結構

jt-live-whisper/
  translate_meeting.py     主程式（即時辨識、離線處理、翻譯、摘要，跨平台）
  webui.py                 WebUI 伺服器（FastAPI + WebSocket，瀏覽器介面後端）
  webui.html               WebUI 前端（單一 HTML，內嵌 CSS/JS）
  subtitle_overlay.py      懸浮字幕覆蓋視窗（PyQt6，啟用時由主程式自動啟動）
  start.sh                 啟動腳本（macOS）
  start.ps1                啟動腳本（Windows）
  install.sh               安裝腳本（macOS）
  install.ps1              安裝腳本（Windows）
  remote_whisper_server.py GPU 伺服器端 Whisper 辨識服務（選配）
  config.json              使用者設定（自動產生，含 LLM/GPU/WebUI 密碼等）
  SOP.md                   完整使用手冊
  CHANGELOG.md             版本更新記錄
  logs/                    轉錄記錄檔、AI 摘要檔、HTML 逐字稿（自動建立）
  recordings/              暫存音訊轉檔（自動建立）
  whisper.cpp/             whisper.cpp 即時辨識引擎（macOS 自動編譯，Windows 下載預編譯版本）
  venv/                    Python 虛擬環境（安裝時自動建立）

技術架構

即時模式：
  系統音訊（macOS: BlackHole / Windows: WASAPI Loopback）
    → 本地端 Whisper / Moonshine AI 語音辨識
      → 本地端 LLM 翻譯（Ollama）/ NLLB / Argos 離線翻譯
        → 終端機即時字幕 + 轉錄記錄檔

離線模式：
  音訊檔（mp3/wav/m4a/flac）
    → ffmpeg 轉檔
      → 本地端 faster-whisper AI 語音辨識
        → （選配）講者辨識
          → 本地端 LLM / NLLB / Argos 翻譯 + AI 摘要

WebUI 瀏覽器介面（./start.sh --webui）：
  webui.py（FastAPI + WebSocket）
    → 瀏覽器設定頁（所有功能皆可操作）
    → 啟動 translate_meeting.py 子程序
    → TCP localhost:19780 接收即時事件
    → WebSocket 推送到瀏覽器（即時字幕、進度、狀態）
    → 支援遠端觀看（密碼保護）、手機/平板

升級

# macOS
./install.sh --upgrade

# Windows (PowerShell)
.\install.ps1 -Upgrade

自動從 GitHub 下載最新版本的程式檔案，升級後建議重新執行安裝腳本確認相依套件完整。

>>> 完整使用手冊（SOP.md） <<<

包含完整安裝教學、macOS / Windows 音訊設定說明、所有功能模式詳細說明、互動式選單操作、講者辨識設定、摘要功能用法、進階 CLI 參數、FAQ 等。

>>> 版本記錄（CHANGELOG.md） <<<

品質與效能說明

語音辨識品質取決於所選用的 ASR 模型大小、音訊品質（背景噪音、麥克風距離、多人交談重疊等）以及語言種類。
翻譯品質取決於所選用的翻譯引擎與模型能力。LLM 翻譯品質最佳但需要 LLM 伺服器（本機或區域網路）；NLLB / Argos 離線翻譯品質較低但無需額外伺服器。
講者辨識準確度受限於音訊品質、講者數量與聲紋相似度，在多人交談或遠場收音情境下結果可能不準確。
處理速度取決於硬體算力（CPU/GPU）與模型大小。使用 GPU 伺服器可大幅加速；純 CPU 環境下處理速度較慢。

硬體建議

本工具所有 AI 推論皆在地端執行，硬體規格直接影響辨識速度與使用體驗。以下為不同使用場景的建議配置。

macOS

配置	記憶體	適用場景	說明
Apple CPU（M2 以上）	16 GB	即時轉錄、離線處理	統一記憶體架構，GPU 加速 mlx-whisper，推薦 large-v3-turbo 模型
Apple CPU（M2 以上）	24 GB+	即時轉錄 + 本機 LLM	可同時執行 Ollama 14B 翻譯模型 + Whisper 辨識
Intel CPU	8 GB+	離線處理為主	純 CPU 辨識速度較慢，即時模式建議搭配 GPU 伺服器

Apple Silicon Mac 的統一記憶體架構讓 GPU 可直接存取系統記憶體，不需獨立顯示卡即可流暢執行 AI 推論。16GB 機型足以應付大多數使用場景。

Windows

配置	即時辨識	離線處理 7 分鐘音檔	說明
純 CPU（無獨顯）	勉強可用	~15-25 分鐘	即時模式延遲高，建議搭配 GPU 伺服器
GTX 1660 Super（6 GB）	可用	~1-2 分鐘	入門級 GPU，VRAM 餘裕較小
RTX 4060（8 GB）	流暢	~30-40 秒	性價比最高，推薦
RTX 4060 Ti（16 GB）	流暢	~20-30 秒	VRAM 充裕，未來擴充空間大
RTX 3060（12 GB）	流暢	~40-50 秒	上一代，二手性價比高

Windows + NVIDIA GPU 是最簡單的高效能方案：不需要額外硬體或伺服器設定，安裝後直接使用 large-v3-turbo 模型，即時辨識和離線處理都有 CUDA 加速。最低建議 6 GB VRAM 的 NVIDIA 顯示卡。沒有獨顯的 Windows 電腦仍可使用，但速度會慢很多。

GPU 伺服器（選配，語音辨識加速用）

區域網路內的 GPU 伺服器可為本機提供遠端語音辨識，適合沒有獨顯或需要更快處理速度的情境。

GPU	VRAM	離線處理 7 分鐘音檔	說明
RTX 4060 以上	8 GB+	~20-30 秒	消費級入門
RTX 4090	24 GB	~10-15 秒	消費級旗艦
NVIDIA DGX Spark	128 GB	~10 秒	同時跑 Ollama LLM + Whisper 辨識，一機搞定

LLM 伺服器（選配，翻譯/摘要用）

用途	建議模型大小	記憶體/VRAM 需求	說明
翻譯	14B 以上	~12 GB	如 qwen2.5:14b，品質與速度兼顧
摘要	120B 以上	~80 GB	如 gpt-oss:120b，需要大記憶體主機

LLM 伺服器可安裝在本機或區域網路內的任何主機。推薦使用 NVIDIA DGX Spark（128 GB 統一記憶體），可同時執行翻譯模型與摘要模型。沒有 LLM 伺服器時，程式可切換為 NLLB/Argos 離線翻譯引擎。

免責聲明

本工具按「現狀」（AS IS）提供，不附帶任何明示或暗示的保證。語音辨識、翻譯、講者辨識及摘要等功能的輸出結果僅供參考，不保證其準確性與完整性。使用者應自行驗證輸出結果，不應將未經人工審核的輸出直接用於法律文件、醫療紀錄、財務報告或其他需要高度準確性的場合。使用者應確保擁有合法錄音權利並遵守當地隱私法規。作者及貢獻者不對因使用本工具而產生的任何損害承擔責任。

License

本專案採用 Apache License 2.0 授權。

Name		Name	Last commit message	Last commit date
Latest commit History 89 Commits
images		images
CHANGELOG.md		CHANGELOG.md
LICENSE		LICENSE
README.md		README.md
SOP.md		SOP.md
install.ps1		install.ps1
install.sh		install.sh
remote_whisper_server.py		remote_whisper_server.py
start.ps1		start.ps1
start.sh		start.sh
subtitle_overlay.py		subtitle_overlay.py
translate_meeting.py		translate_meeting.py
webui.html		webui.html
webui.py		webui.py

Folders and files

Latest commit

History

Repository files navigation

jt-live-whisper v2.16.5

我為什麼要打造 jt-live-whisper？

使用的 AI 模型

兩種部署方式

核心功能

1. 即時語音轉錄翻譯（主要功能）

2. 離線音訊檔批次處理

3. 講者辨識（Speaker Diarization）

4. AI 會議摘要與時間軸逐字稿

5. 多模式語音轉錄

6. 雙向字幕模式

其他特色

系統需求

磁碟空間需求

本機

GPU 伺服器（選配）

快速開始

1. 一鍵安裝

2. 設定音訊裝置

macOS

Windows

3. 安裝地端 LLM（翻譯/摘要用）

4. 啟動

使用方式

WebUI 瀏覽器介面（推薦）

即時模式（預設，邊聽邊轉）

離線處理音訊檔

批次摘要

快捷鍵（即時模式）

互動式選單功能一覽

即時模式選單

離線處理選單（讀入檔案）

命令列參數

支援的本地端 LLM 伺服器

目錄結構

技術架構

升級

>>> 完整使用手冊（SOP.md） <<<

>>> 版本記錄（CHANGELOG.md） <<<

品質與效能說明

硬體建議

macOS

Windows

GPU 伺服器（選配，語音辨識加速用）

LLM 伺服器（選配，翻譯/摘要用）

免責聲明

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Contributors

Uh oh!

Languages