私が3年近く使ってきた文字起こしサービス Good Tape が、ちょうど今日期限を迎えた。請求書を引っ張り出して計算してみると:€476、台湾元でおよそ1万7千。私はPro プランだった。今月の使用量を見てみると:まだ20時間残っていた。

なぜ自分で作りたかったのか

AI エージェントの進歩があまりに速いからだ!すでに仕事の様式を変えている。加えて会議が多い——台日、中英、時には東南アジアのパートナーとも。

公平に言えば、3年前の Good Tape は良いツールだった。これはデンマークのチームが作ったもので、安全性と正確性を売りにしている。だがそれが解決するのは「事後」の問題だ:録音し終えてアップロードし、文字起こしが完了するのを待つ。リアルタイム認識もなく、翻訳もなく、要約もない。

私は3年で €476(台湾元約1万7千)を払い、文字起こし機能を手に入れた。当時はこうした機能があるだけで驚きだったが、もし「その場で」、たとえば会議が進行している最中に、相手が日本語を話せばリアルタイムで中国語が見える、というのであればもっと素晴らしい。会議後にゆっくり整理するのではなく。

現在市場にあるリアルタイム翻訳の競合製品:

  • Transync AI — $8.99/月(10時間)、機能は私が欲しいものに最も近く、リアルタイム音声翻訳 + 会議要約 + 60言語がある。だがアプリのインストールが必要で、しかも時間を超過すると別途時間カード($7.99/10hr〜)を買う必要がある。使うほど高くなる。
  • JotMe — $9〜15/月、107言語、だが Chrome 拡張機能に紐づく
  • Wordly — 企業向け料金、時間単位でパックを買う、10時間から
  • KUDO — 年間ライセンス、価格非公開、大企業をターゲット
  • Palabra — デスクトップアプリのインストールが必要、特定の会議ソフトに紐づく

私が欲しかったものは実にシンプルだ:ブラウザを開けば使える、何もインストールしない、スマホでもパソコンでもいい、外国人との会議でAIの補助を受けながら理解でき、コストが透明でコントロール可能。先日共有したとおり、自分で作ることに決めた。

ツールの名前は「リアルタイム会議記録|アゴラ広場」、私の個人サイトにデプロイした

  • 🎙 リアルタイム音声認識 — 話したその瞬間に文字になる、録音し終えてから変換するのではない
  • 🌍 12言語のリアルタイム翻訳 — 中、英、日、韓、越、タイ、インドネシア、独、西、仏、葡
  • 📋 AI会議要約 — ワンクリックで要点整理 + やることリスト + 決議を生成
  • 📖 用語集 — 専門用語の対照をカスタマイズし、翻訳の一貫性を確保
  • 🖥 字幕モード — 全画面黒背景の大文字、会議室での投影用
  • ⬇️ 全文エクスポート — TXT / CSV、Excel に放り込める
  • 💰 リアルタイムコスト追跡 — 各API呼び出しがいくらかかるか、透明に見える
  • 🔐 三層認証 — Google / LINE / Facebook OAuth + 招待コード

フロントエンド 2,533行、バックエンド 2,148行。HTML ファイル1つに Cloudflare Worker 1つ。

技術的に最も興味深い部分:三経路の音声認識ルーティング

音声認識は、ただ1社の API を選べばいいというものではない。言語ごとに最適解が異なる。言語に応じてエンジンを自動的に切り替える:

三経路音声認識ルーティングアーキテクチャ

  • 🇹🇼 中国語 → Qwen3-ASR(アリババクラウドの Qwen チーム、WebSocket ストリーミング)
  • 🇺🇸 英語 → whisper-large-v3-turbo(LPU ハードウェアアクセラレーション、200倍以上のリアルタイム速度)
  • 🌐 その他言語 → Deepgram Nova-3(WebSocket ストリーミング)

翻訳は統一して Claude Haiku 4.5(Anthropic)を使い、さらにストリーミング出力を使う。翻訳結果は一文字ずつ飛び出してくるもので、全部翻訳し終えてから表示されるのではない。出力品質を考慮するだけでなく、コストも考慮している。

  • Groq:$0.02/hr、英語が最も安い
  • Qwen:約 $0.40/hr、中国語の認識率 97%以上、専門用語(方言にも対応)も正確
  • Deepgram:$200 の無料枠、多言語をすべてカバー

1時間の中英会議で、API コストはおよそ $0.50 USD。台湾元16円。換算してみると:私が Good Tape に費やした €476 は、自作ツールで950回以上の会議を開くのに相当する。Transync AI の $8.99/月を1年使えば $108、同じ金額で216回開ける。

だがこの記事が本当に言いたいのは技術のことではない

このツールを作る過程は、実は「どうやって AI と協働するか」を学ぶ過程だった。私はエンジニアではない。私の背景は生命科学、神学、農産物EC、循環経済などだ。プログラムを書くのは私にとって非常に難しい。最初の起業のテーマは Fintech の SaaS を作ることだったが、ツールとサービスのすべては7人のチームの協力によるものだった。

私にはある感覚がある。AI と協働するには、プログラム能力だけでなく、ある種の新しいリテラシーが必要なのだ(私はまだうまく言葉にできていないが)。

問題を分解することはコードを書くことより重要だ

Groq の連携は「Groq を追加して」の一言で動くものではない。私はそれを2つの Phase に分けた:Phase A はバックエンドでまず API エンドポイントを作り、デプロイし、疎通を検証する。Phase B はフロントエンドで言語ルーティングを作り、選んだ言語に応じてエンジンを自動で切り替えるようにする。

各 Phase は独立して検証可能だ。壊れても半分しか壊れず、全体が爆発することはない。この分け方は AI が教えてくれたものではなく、私が何度も失敗から学んだものだ——一度にやりすぎると、途中で token を使い切ったり context が圧縮されたりして、それまで正しく作ったところまで巻き込んで壊してしまう。

正しい問いを立てることは、AIに直接書かせるより効果的だ

「翻訳ツールを作って」と言うのではない。こう言うのだ:「現在の WebSocket proxy のパターンは Groq には使えない、なぜならそれは REST API であって WebSocket ではないからだ。フロントエンドは chunked HTTP モードに変える必要があり、3秒ごとに音声を1区切りに切って POST する。onstop + restart のループに race condition は発生するか?」

こういう問いこそ、有用な答えが得られる。

機能を書き終えても終わりではない、コードレビューをするべきだ

私は Claude に、書き終えたばかりのコードをエンジニアの視点で検査するよう依頼した。すると本当に3つの問題を見つけた:Groq が連続で失敗したとき完全に無音になること、MediaRecorder の closure の安全性問題、アニメーション効果が新しいエンジンでトリガーされないこと。

この3つのバグは私自身では気づけなかっただろう。だが私は「この問いを立てる」べきだと知っていた。

AI は自分から見回りに行ってはくれない

Fitbit の健康データが何日も壊れていたのは、私がたまたま尋ねて初めて気づいた。根本原因はある function が引数を1つ渡し損ねていたことで、スケジュール実行のたびに無音で失敗していた。AI は夜中に起きてシステムが壊れていないか検査しに行ってはくれない。何を、いつ尋ねるべきかを、自分で知っていなければならない。

これは新しい仕事の体感だ

かつて私たちは「情報リテラシー」と言った。それは検索ができ、情報の真偽を判断できることを指す。今、私たちに必要なのはおそらく「AIリテラシー」だ:

  • 大きな問題を AI が処理できる小さな問題に分解する方法を知っていること
  • 技術的制約条件を記述し、AI に実行可能な案を出させる方法を知っていること
  • いつ AI の出力を信頼すべきか、いつ自分で検証すべきかを知っていること
  • AI の能力の境界がどこにあるかを知っていること——それは書くのも、調べるのも、レビューするのも手伝ってくれるが、何をすべきかを自分から考えてはくれない

これはエンジニアの専売特許ではない。AI をうまく活用したいすべての人に必要な能力だ。

私はプログラムが書けない。だが私は AI と協働してリアルタイム翻訳ツールを作りたいと思った(思い立ったらすぐにソフトウェアを作る、というのがすでに現実になった)。