返回精选作品
AI Code / Workflow AutomationMVP / 状态截至 2026-05-26

音频翻译 Podcast Translate

将英文播客自动处理为可播放、可下载、可追踪进度的中文播客成品,打通从上传到结果交付的端到端 AI 工作流。

起因是现有播客处理工具太碎:转写、翻译、合成、混音分散在多处。这个项目把链路收束成可跑通、可续跑、可演示的音频翻译 MVP。

打开线上 Demo线上 Demo 使用 Mock Pipeline;真实 AI 音频链路已在本地完成长音频端到端验证,暂不开放公网体验。

项目概览

做了什么

把上传、任务排队、进度反馈、结果播放下载收束到一个 Web 工作台。支持常见音频格式上传,前端默认提示 MP3 / WAV / M4A / AAC,单文件上限 5GB。

目标结果

产出什么

线上 Demo 使用 Mock Pipeline;真实 AI 音频链路已在本地完成长音频端到端验证,并最终产出 MP3 音频文件。

约束条件

为什么这样做

长音频处理耗时长、步骤多、外部服务依赖复杂,用户需要能看懂进度、知道是否完成,并在中断后继续。

Case Focus

案例重点

把产品闭环、真实验证、任务恢复和职责边界放在一处看,减少重复信息。

Product Loop

完整产品闭环

登录、上传、任务创建、进度查看、播放下载与个人中心组成可演示路径。

Real Validation

本地真实验证

真实链路已完成长音频端到端验证;线上 Demo 使用 Mock Pipeline 保持稳定体验。

Recovery

长任务可恢复

支持阶段级 checkpoint、分段产物复用;provider 异常暂停,修复后从当前阶段继续。

Role

我负责什么

个人项目,负责产品设计、前后端实现、异步任务编排、AI Pipeline 集成、Docker 部署与真实链路验证。

Stack

技术栈

按实现层和工具层拆开,方便快速判断协作范围。

前端体验层

Next.js 15 / React 19 / TypeScript / Zustand

后端 API 层

FastAPI / SQLAlchemy

异步任务层

Celery / Redis

数据与产物层

PostgreSQL / MinIO / S3 / Alembic

AI 音频流水线层

Demucs / pyannote.audio / faster-whisper / DeepSeek / ElevenLabs IVC / FFmpeg

工具层:DashScope / CosyVoice fallback / FFmpeg / pydub / Pytest / Docker Compose / Nginx

Workflow

关键流程

真实链路按 7 个阶段推进,页面只展示用户需要理解的处理进度与交付结果。

1

音频预处理

整理原始音频结构,为后续识别、生成和重组提供稳定输入。

2

说话人结构识别

识别不同说话人的时间分布,保留播客对话的基本结构。

3

语音内容转写

将英文语音转换为可处理文本,并按片段持续推进任务状态。

4

中文语义翻译

在保留语境和表达节奏的基础上生成中文内容。

5

声音生成

按说话人和片段生成中文音频,异常时保留已完成产物。

6

时间轴适配

让生成音频贴合原始节奏,减少长短句带来的听感割裂。

7

最终混音交付

合并语音与背景音,生成可播放、可下载的最终音频。

Proof

证明材料

用真实界面截图和可播放产物呈现项目可信度。

音频翻译 Podcast Translate 首页上传截图
真实项目截图:首页上传入口

screenshot

首页上传入口

上传入口展示音频文件拖拽、URL 输入、额度提示和最近任务,是公开 Demo 的主要起点。

支持常见音频格式上传,前端默认提示 MP3 / WAV / M4A / AAC,单文件上限 5GB。

任务详情页进度截图
设计稿素材:任务详情进度状态

screenshot

任务详情进度

任务详情页展示总进度、当前阶段、阶段完成状态、预计剩余时间和暂停处理入口。

证明点:长任务不再是黑盒等待;阶段状态可追踪,也能为断点续跑提供用户可理解的反馈。

完成后的播放器与下载截图
设计稿素材:完成后播放与下载

output

播放器与下载结果

任务完成后提供最终音频播放、下载 MP3 和中英文对照查看,覆盖结果消费闭环。

本地真实链路验证产物可试听:final_podcast.mp3。

试听 final_podcast.mp3
个人中心设置与 API key 管理截图
项目素材:个人中心设置区;当前代码已补 API 管理

screenshot

个人中心 API key 管理

个人中心支持用户级 provider 配置,覆盖 DeepSeek、OpenAI、Hugging Face、ElevenLabs 和 DashScope。

provider 凭证缺失、余额不足或额度耗尽时,任务会 paused 而不是 failed,修复后可从当前阶段继续。

想看流程跑起来?