AI應用展示

語音聊天可，可用於Vtuber各種情境，虛擬主播、虛擬情人。。等等

audio in->websocket->ASR->LLM->TTS->websocket->audio out

目前版本有多語+翻譯功能，如果只針對特定語言，例如:繁中，則能略過翻譯部分，速度可加快

Live-2D模型部分，有可能搭配其他工具來搭建場景，ex:WEB 3D等，人物照片、表情等可能搭配 tensorflow.wasm + facemesh.js+ face-landmarks-detection-001.js 等達成realtime 瀏覽器前端變臉、換背景、特效等

如需參考建置過程 & trouble shooting，可前往我的紀錄

只需要一張照片+一段語音，即可生成該語音的影片，中文可，親測可用。範例:

還可搭配動作的影片，生成的影片會模仿該影片中的動作。還能搭配聲音模擬

如需參考建置過程 & trouble shooting，可前往我的紀錄

上傳影片或指定youtube影片網址即可自動產生字幕，中文可，同時可擷取聲音檔，親測可用。

可以產生 vtt srt txt 等格式的字幕，還可生成 macOS專用的 fcpxml格式字幕，youtube 影片可以 batch 批次作業，呼叫 API 傳入多組影片連結，背景陸續依序擷取聲音檔以及產生字幕。

本版突破 wasm程式在瀏覽器處理檔案 2GB大小的限制，最多可處理相當於剩餘可用記憶體大小的檔案，ex:4GB,5GB,6GB以上。

如需參考系統建置及維護，可參考我的紀錄

後續延伸應用: 將字幕依照時間序，直接嵌在影片上， youtuber錄完影片後，可以一鍵生成含有字幕的影片

後續延伸應用: 也可以將生成字幕上傳到 youtube中成為CC字幕

拍攝物體不同角度的照片，可產生物體的3D模型，親測可用。

如需參考系統建置及維護，可參考我的紀錄(github)

照片拍攝建議及對比: 前往

因本模型需要較大的 GPU記憶體，如在本機跑這個模型，會滿載並且速度較慢，要測試、線上 DEMO可直接到微軟

後續延伸應用: 產出 3D模型後搭配 browser based 3D viewer (ex:babylon , three.js 等) ，可線上展示供 user操作3D模型，例如:展示商品

後續延伸應用: 3D模型可再加工(切割面、區塊)，用於商品生產時，供客戶指定產品某部分特性用(ex:顏色、材質、規格。。等)

用一個模型服務多個專業領域，或是多家公司，依據每家公司提供的資料，AI會優先回應該公司(領域)專屬的內容。

如需參考系統建置及維護，可參考我的紀錄(github)

照片拍攝建議及對比: 前往

因本模型需要較大的 GPU記憶體，如在本機跑這個模型，會滿載並且速度較慢，要測試、線上 DEMO可直接到微軟

後續延伸應用: 產出 3D模型後搭配 browser based 3D viewer (ex:babylon , three.js 等) ，可線上展示供 user操作3D模型，例如:展示商品

後續延伸應用: 3D模型可再加工(切割面、區塊)，用於商品生產時，供客戶指定產品某部分特性用(ex:顏色、材質、規格。。等)

其他工具

python環境使用yt-dlp(搭配 ffmpeg)，中文可，親測可用。