我用了快三年的逐字稿服务 Good Tape 今天刚好到期。账单拉出来一算:€476,大概台币一万七。我是Pro 方案。看了一下这个月的使用量:还剩20 小时。

为什么想要自己做

因为AI Agent 进步太快!已经改变工作模式。加上常有会议 — 台日、中英、偶尔有东南亚伙伴。

持平来说,三年前Good Tape 是好工具,这是丹麦团队做的,主打安全和准确。但它解决的是「事后」的问题:录完音上传,等它跑完逐字稿。没有即时辨识,没有翻译,没有摘要。

我三年付了 €476(台币约一万七),拿到逐字稿功能。当时能有这样的功能已经很惊喜,但若能在「当下」,如会议正在进行中,对方讲日文可以即时看到中文,那就更棒。不是会后才慢慢整理。

目前市场上的即时翻译竞品:

  • Transync AI — $8.99/月(10 小时),功能最接近我要的,有即时语音翻译 + 会议摘要 + 60 语言。但要装 App,而且超过时数另外买时数卡($7.99/10hr 起)。用越多越贵。
  • JotMe — $9-15/月,107 语言,但绑 Chrome Extension
  • Wordly — 企业定价,按小时买包,10 小时起跳
  • KUDO — 年度授权,不公开价格,锁定大型企业
  • Palabra — 要装桌面 App,绑定特定会议软体

我想要的其实很单纯:打开浏览器就能用,不装任何东西,手机电脑都行,跟老外开会可以一边透过AI协助理解,且成本透明可控。如前天分享的,决定自己做。

工具叫「即时会议记录|阿哥拉广场」,部署在我的个人网站上

  • 🎙 即时语音辨识 — 说话的当下就出文字,不是录完才转
  • 🌍 12 种语言即时翻译 — 中、英、日、韩、越、泰、印尼、德、西、法、葡
  • 📋 AI 会议摘要 — 一键产出重点整理 + 待办事项 + 决议
  • 📖 术语表 — 自订专业术语对照,确保翻译一致
  • 🖥 字幕模式 — 全屏黑底大字,投影会议室用
  • ⬇️ 全文汇出 — TXT / CSV,可丢进 Excel
  • 💰 即时成本追踪 — 每一笔 API 呼叫花多少钱,透明可见
  • 🔐 三层认证 — Google / LINE / Facebook OAuth + 邀请码

前端 2,533 行,后端 2,148 行。一个 HTML 档加一个 Cloudflare Worker。

技术上最有趣的部分:三路语音辨识路由

语音辨识不是只挑一家 API 就好。不同语言有不同的最佳解。根据语言自动切换引擎:

三路语音辨识路由架构

  • 🇹🇼 中文 → Qwen3-ASR(阿里云 Qwen 团队,WebSocket 串流)
  • 🇺🇸 英文 → whisper-large-v3-turbo(LPU 硬体加速,200×+ 即时速度)
  • 🌐 其他语言 → Deepgram Nova-3(WebSocket 串流)

翻译统一用 Claude Haiku 4.5(Anthropic),再用串流输出,翻译结果是一个字一个字跳出来的,不是等全部翻完才显示。除了考虑输出品质,也有考虑成本。

  • Groq:$0.02/hr,英文最便宜
  • Qwen:~$0.40/hr,中文辨识率 97%+,专业术语(方言也支援)也准
  • Deepgram:$200 免费额度,多语言通吃

一场 1 小时的中英会议,API 成本大约 $0.50 USD。台币 16 块。换算一下:我在 Good Tape 花的 €476,等于用自建工具开超过 950 场会议。Transync AI 的 $8.99/月用一年是 $108,同样的钱可以开 216 场。

但这篇文章真正想说的不是技术

做这个工具的过程,其实是一个学习「怎么跟 AI 协作」的过程。我不是工程师。我的背景是生命科学、神学、农产电商、循环经济等。写程式对我很困难。虽然第一个创业的题目是做Fintech 的SAAS,但整套工具与服务都是靠七个人的团队协助。

我有种感觉,跟 AI 协作,需要的不只是程式能力,应该是一种新的素养(我还说不太清楚)。

拆解问题比写程式码重要

Groq 串接不是一句「帮我加上 Groq」就会动。我把它拆成两个 Phase:Phase A 后端先把 API endpoint 做好、部署、验证能打通。Phase B 前端再做语言路由,让它根据选的语言自动切引擎。

每个 Phase 独立可验证。坏了只坏一半,不会整个炸掉。这个拆法不是 AI 教我的,是我从多次失败学到的 — 一次想做太多,中间 token 用完或 context 压缩,连带搞坏前面做对的部分。

问对问题,比叫 AI 直接写更有效

不是说「帮我做一个翻译工具」。而是:「现有的 WebSocket proxy 模式不能用在 Groq 上,因为它是 REST API 不是 WebSocket。前端需要改成 chunked HTTP 模式,每 3 秒切一段音讯 POST 出去。onstop + restart 循环会有 race condition 吗?」

这种问题才会得到有用的答案。

功能写完不是结束,要做 Code Review

我请 Claude 用工程角度检查刚写完的程式码。结果真的抓到三个问题:Groq 连续失败时完全静默、MediaRecorder 的 closure 安全问题、动画效果没有在新引擎触发。

这三个 bug 我自己不会发现。但我知道要「问这个问题」。

AI 不会主动帮你巡逻

Fitbit 健康数据坏了好几天,是我偶然问了才发现。根因是一个 function 少传了一个参数,每次排程执行都静默失败。AI 不会半夜起来帮你检查系统有没有坏掉。你要知道该问什么、什么时候该问。

这是一种新的工作体感

过去我们说「资讯素养」,是指会搜寻、会判断资讯真假。现在我们可能需要的是「AI 素养」:

  • 知道怎么把大问题拆成 AI 能处理的小问题
  • 知道怎么描述技术约束条件,让 AI 给出可执行的方案
  • 知道什么时候该信任 AI 的输出,什么时候该自己验证
  • 知道 AI 的能力边界在哪里 — 它能帮你写、帮你查、帮你 review,但不会主动替你思考该做什么

这不是工程师的专利。这是每个想善用 AI 的人都需要的能力。

我不会写程式,但我想跟 AI 协作做出一个即时翻译工具(一言不合就弄套软体已经成真)。