AI Code / Workflow AutomationMVP / 状态截至 2026-05-26

音频翻译 Podcast Translate

将英文播客自动处理为可播放、可下载、可追踪进度的中文播客成品，打通从上传到结果交付的端到端 AI 工作流。

起因是现有播客处理工具太碎：转写、翻译、合成、混音分散在多处。这个项目把链路收束成可跑通、可续跑、可演示的音频翻译 MVP。

打开线上 Demo线上 Demo 使用 Mock Pipeline；真实 AI 音频链路已在本地完成长音频端到端验证，暂不开放公网体验。

项目概览

做了什么

把上传、任务排队、进度反馈、结果播放下载收束到一个 Web 工作台。支持常见音频格式上传，前端默认提示 MP3 / WAV / M4A / AAC，单文件上限 5GB。

目标结果

产出什么

线上 Demo 使用 Mock Pipeline；真实 AI 音频链路已在本地完成长音频端到端验证，并最终产出 MP3 音频文件。

约束条件

为什么这样做

长音频处理耗时长、步骤多、外部服务依赖复杂，用户需要能看懂进度、知道是否完成，并在中断后继续。

Case Focus

案例重点

把产品闭环、真实验证、任务恢复和职责边界放在一处看，减少重复信息。

Product Loop

完整产品闭环

Real Validation

本地真实验证

真实链路已完成长音频端到端验证；线上 Demo 使用 Mock Pipeline 保持稳定体验。

Recovery

长任务可恢复

支持阶段级 checkpoint、分段产物复用；provider 异常暂停，修复后从当前阶段继续。

Role

我负责什么

个人项目，负责产品设计、前后端实现、异步任务编排、AI Pipeline 集成、Docker 部署与真实链路验证。

Stack

技术栈

按实现层和工具层拆开，方便快速判断协作范围。

前端体验层

Next.js 15 / React 19 / TypeScript / Zustand

后端 API 层

FastAPI / SQLAlchemy

异步任务层

Celery / Redis

数据与产物层

PostgreSQL / MinIO / S3 / Alembic

AI 音频流水线层

Demucs / pyannote.audio / faster-whisper / DeepSeek / ElevenLabs IVC / FFmpeg

工具层：DashScope / CosyVoice fallback / FFmpeg / pydub / Pytest / Docker Compose / Nginx

Workflow

关键流程

真实链路按 7 个阶段推进，页面只展示用户需要理解的处理进度与交付结果。

音频预处理

整理原始音频结构，为后续识别、生成和重组提供稳定输入。

说话人结构识别

识别不同说话人的时间分布，保留播客对话的基本结构。

语音内容转写

将英文语音转换为可处理文本，并按片段持续推进任务状态。

中文语义翻译

在保留语境和表达节奏的基础上生成中文内容。

声音生成

按说话人和片段生成中文音频，异常时保留已完成产物。

时间轴适配

让生成音频贴合原始节奏，减少长短句带来的听感割裂。

最终混音交付

合并语音与背景音，生成可播放、可下载的最终音频。

Proof

证明材料

用真实界面截图和可播放产物呈现项目可信度。

音频翻译 Podcast Translate 首页上传截图 — 真实项目截图：首页上传入口

screenshot

首页上传入口

上传入口展示音频文件拖拽、URL 输入、额度提示和最近任务，是公开 Demo 的主要起点。

支持常见音频格式上传，前端默认提示 MP3 / WAV / M4A / AAC，单文件上限 5GB。

screenshot

任务详情进度

任务详情页展示总进度、当前阶段、阶段完成状态、预计剩余时间和暂停处理入口。

证明点：长任务不再是黑盒等待；阶段状态可追踪，也能为断点续跑提供用户可理解的反馈。

output

播放器与下载结果

任务完成后提供最终音频播放、下载 MP3 和中英文对照查看，覆盖结果消费闭环。

本地真实链路验证产物可试听：final_podcast.mp3。

试听 final_podcast.mp3

项目素材：个人中心设置区；当前代码已补 API 管理

screenshot

个人中心 API key 管理

个人中心支持用户级 provider 配置，覆盖 DeepSeek、OpenAI、Hugging Face、ElevenLabs 和 DashScope。

provider 凭证缺失、余额不足或额度耗尽时，任务会 paused 而不是 failed，修复后可从当前阶段继续。

想看流程跑起来？