AI 文字起こしツール比較
【2026年版】AI 文字起こしツール7選 徹底比較 — 精度・料金・プライバシーで選ぶ
AI 文字起こしツール7選(Whisper・Notta・CLOVA Note・AmiVoice・Otter.ai・Rimo Voice・Meeting Lens)を、日本語精度・料金・リアルタイム性・プライバシーで徹底比較。用途別の選び方を解説します。
「文字起こしツール、結局どれが一番正確なの?」
この質問、SaaS比較Lab に毎週のように寄せられます。OpenAI Whisper を直接使う派、Notta などの SaaS 派、AmiVoice のような日本企業製に信頼を置く派、用途によって正解が違うのが現状です。
この記事では、編集部が 実際に7ツールすべてを2週間以上使い込んで、料金・日本語精度・リアルタイム性・プライバシー・機能を横並びで比較しました。会議用途・取材用途・配信書き起こし用途それぞれの正解が見えるように整理します。
結論: 用途別の早見表(忙しい人向け)
長文を読みたくない人のために、結論から。
| 用途 | おすすめツール | 一言コメント |
|---|---|---|
| 法人会議の文字起こし(リアルタイム + 補助) | Meeting Lens | 業界用語の自動解説 + 返答候補が独自 |
| 取材・インタビュー(高精度・後処理) | AmiVoice ScribeAssist | 日本語精度 + 話者分離が圧倒的 |
| 動画コンテンツの書き起こし | OpenAI Whisper(API) | 多言語 + 安価 + 高精度 |
| 個人の議事録メモ(無料枠重視) | CLOVA Note | 完全無料 + 月300分まで |
| 英語会議の文字起こし | Otter.ai | 英語精度はトップクラス |
| 医療・専門業界の文字起こし | AmiVoice 医療版 | 専門辞書 + 国産信頼性 |
| 配信・YouTube リアルタイム字幕 | Rimo Voice | 配信向け機能特化 |
下から各ツールの詳細解説に入ります。
1. OpenAI Whisper(API直叩き or whisper.cpp)
概要
OpenAI が公開している音声認識モデル。API 経由で使う方法と、whisper.cpp などローカル実行する方法がある。
料金
- API: $0.006/分(60分の音声で $0.36 = 約54円)
- ローカル実行: 無料(ただし GPU/CPU リソースが必要)
日本語精度
★★★★☆(4/5)
- 一般的な会話・ニュース読み上げは高精度
- 業界用語・固有名詞は弱い
- 句読点・改行が自動で入らない(後処理必須)
リアルタイム性
× ローカルの whisper.cpp なら数秒遅れで可能だが、本格的なリアルタイム用途には設計されていない
プライバシー
- API 経由: OpenAI のサーバに音声送信(学習に使われない設定可)
- ローカル実行: データは端末から出ない(機密重視ならこれ一択)
向いてる人
- 動画コンテンツの一括書き起こし(自分のチャンネル・社内研修動画)
- 安価に大量処理したい
- ローカル実行で機密データを扱いたい
向いてない人
- リアルタイムに会議で使いたい(設計思想がそもそも違う)
- 句読点・改行付きでそのまま使いたい(後処理しないと読みにくい)
- 非エンジニアで手軽に使いたい(SDK or API 操作が必要)
2. Notta
概要
国内ユーザーが多い、SaaS 型の文字起こしサービス。Web ブラウザ・iOS / Android アプリ・Chrome拡張で動作。
料金
- Free: 月120分・1ファイル3分まで
- Pro: $13.99/月(月1,800分)
- Business: $27.99/月(月3,000分・話者分離・高精度モード)
日本語精度
★★★★☆(4/5)
- 一般会話は高精度
- リアルタイムで句読点・改行が自動挿入
- 業界用語の誤認識はそれなり
リアルタイム性
○ ブラウザ拡張で Web会議の音声を取り込みつつリアルタイム表示
プライバシー
- データはシンガポール / 米国のサーバに保存
- SOC 2 Type II 取得済み
- 個人情報を扱う場合は事前確認推奨
向いてる人
- 個人〜中小企業で月数十時間の会議文字起こし
- スマホアプリでサクッと取材音声を文字起こししたい
- 多言語(英語・中国語)も扱う
向いてない人
- 業界特有用語の精度を最優先(医療・法律など)
- データを国内サーバに留めたい
3. CLOVA Note
概要
LINE / Naver が提供する、完全無料の文字起こしサービス(2026年5月現在)。
料金
- 完全無料: 月300分まで
- 個人ユーザー想定で、商用 SLA はない
日本語精度
★★★★☆(4/5)
- 一般会話は十分な精度
- 話者分離(自動でA・Bと割り振る)あり
- 句読点は自動挿入
リアルタイム性
× 録音後にアップロードして文字起こし(オフライン処理型)
プライバシー
- 韓国のサーバにデータ送信
- 個人情報を含む音声を扱う場合は要注意
- 法人利用の SLA は提供されない
向いてる人
- 個人ユーザーで月10時間程度の会議メモ
- 学生のインタビュー・ゼミ録音
- とにかく無料で済ませたい
向いてない人
- 法人で機密会議を扱う
- リアルタイムに会議で使いたい
- データを国内サーバに留めたい
4. AmiVoice ScribeAssist
概要
国産音声認識の老舗、アドバンスト・メディア社が提供する法人向け文字起こしサービス。30年以上の音声認識技術蓄積。
料金
- 法人向けプラン: ¥30,000/月〜(規模別の見積もり)
- 個人向けは別商品(AmiVoice Cloud Platform、月¥4,950〜)
日本語精度
★★★★★(5/5)
- 国産モデルで日本語特化
- 話者分離精度が業界トップクラス
- 業界別辞書(医療・法律・金融)で専門用語にも強い
リアルタイム性
○ リアルタイム文字起こし対応(Zoom 連携プラグインあり)
プライバシー
- 国内サーバ運用
- ISO 27001 / プライバシーマーク取得
- 法人 SLA・データ完全削除保証
向いてる人
- 大企業・上場企業の役員会・コンプライアンス会議
- 医療・法律・金融の専門業界
- データを国内に留める要件がある
向いてない人
- 個人ユーザー(価格が高い)
- 多言語対応を重視(主に日本語特化)
5. Otter.ai
概要
米国発の文字起こし SaaS。英語精度に定評があり、Zoom / Google Meet / Microsoft Teams のネイティブ連携が強い。
料金
- Basic: 無料(月300分・1ファイル30分まで)
- Pro: $16.99/月
- Business: $30/月
日本語精度
★★★☆☆(3/5)
- 英語精度はトップクラスだが、日本語は他ツールの方が強い
- 句読点・改行は英語ベースの設計
リアルタイム性
○ Zoom / Meet / Teams 統合でリアルタイム文字起こし
プライバシー
- 米国サーバ
- SOC 2 Type II 取得済み
向いてる人
- 英語会議が中心(外資系・グローバル企業)
- Zoom / Meet ネイティブ連携を活用したい
向いてない人
- 日本語会議が中心(他ツールの方が日本語精度高い)
- データを国内に留めたい
6. Rimo Voice
概要
国産文字起こし SaaS。配信・YouTube のリアルタイム字幕に特化した機能が特徴。
料金
- トライアル: 60分無料
- 個人プラン: ¥2,200/月(月10時間)
- ビジネス: ¥27,500/月(月100時間)
日本語精度
★★★★☆(4/5)
- 国産で日本語特化
- 配信用にチューニングされている
リアルタイム性
◎ 配信向けにレイテンシ最適化
プライバシー
- 国内サーバ運用
- 法人 SLA あり
向いてる人
- YouTube ライブ配信・Twitch 配信での字幕生成
- 国内のテレビ・メディア業界
- 配信スタッフ向けのリアルタイム字幕が必須
向いてない人
- 一般的な会議文字起こし(Notta / Meeting Lens の方が UI が良い)
- 海外言語の文字起こし
7. Meeting Lens
概要
国産の AI 議事録ツール。Web会議のリアルタイム文字起こしに加えて、業界用語の自動解説 + 返答候補生成という独自機能を持つ。
料金
- 無料トライアル: 60分・100コール/月
- Light: ¥980/月(月10時間)
- Pro: ¥2,980/月(月600分・返答候補・事前情報入力)
日本語精度
★★★★☆(4/5)
- リアルタイム文字起こし精度は他ツールと同等
- 業界用語の自動解説機能が独自
リアルタイム性
◎ Web会議中の文字起こし + 単語クリックで意味解説 + 返答候補生成
プライバシー
- 文字起こし全文は**端末ローカル(IndexedDB)**にのみ保存
- サーバには月次の利用分数のみ送信
- 国内法人運営、特商法・法人番号明記
- SOC 2 Type II 取得済の Clerk 認証、Stripe 決済
向いてる人
- 営業職・コンサル・中間管理職で業界用語が飛び交う会議
- 商談中のリアルタイム補助が欲しい
- データを端末ローカルに留めたい
向いてない人
- 録画済み動画の一括書き起こし(Whisper の方が安価)
- 英語会議中心(Otter の方が英語強い)
横並び比較表
| ツール | 月額 | 日本語精度 | リアルタイム | プライバシー | 用途 |
|---|---|---|---|---|---|
| Whisper API | $0.006/分 | ★★★★☆ | × | OpenAI(海外) | バッチ処理 |
| Notta | $13.99〜 | ★★★★☆ | ○ | 海外サーバ | 汎用 |
| CLOVA Note | 無料 | ★★★★☆ | × | 海外サーバ | 個人 |
| AmiVoice | ¥30,000〜 | ★★★★★ | ○ | 国内 | 法人専門業界 |
| Otter.ai | $16.99〜 | ★★★☆☆ | ○ | 海外サーバ | 英語会議 |
| Rimo Voice | ¥2,200〜 | ★★★★☆ | ◎ | 国内 | 配信向け |
| Meeting Lens | ¥980〜 | ★★★★☆ | ◎ | 端末ローカル | 法人会議 |
選び方の3つの軸
7ツールから1つに絞る時の判断軸を整理しておきます。
① プライバシー要件で絞る
- 国内サーバ + 法人 SLA 必須 → AmiVoice / Rimo Voice
- 端末ローカルで完結したい → Meeting Lens / Whisper(ローカル実行)
- 海外サーバでもOK・SOC 2 で安心 → Notta / Otter.ai
② リアルタイム性で絞る
- 会議中に補助情報が欲しい → Meeting Lens(業界用語解説 + 返答候補)
- Zoom / Meet 連携でリアルタイム文字起こし → Otter.ai / Notta
- 配信向け低レイテンシ → Rimo Voice
- 録音後の一括処理でOK → Whisper / CLOVA Note
③ コストで絞る
- 完全無料で済ませたい → CLOVA Note(月300分)
- 個人で月¥1,000台 → Meeting Lens Light(¥980)
- 大量処理を安く → Whisper API(従量課金)
- 専門業界の精度重視 → AmiVoice(¥30,000〜)
業界別「これ買えば失敗しない」推奨
営業・コンサル(業界用語が飛び交う商談)
Meeting Lens(¥980〜) + Notta(バックアップ)
- 商談中はリアルタイム単語解説で詰まらない
- 商談後は Notta で再度文字起こしして整形
- 月コスト: 個人なら ¥980、企業なら ¥3,000〜
法務・コンプライアンス
AmiVoice + Just Right!7(校正)
- 国産 SLA + 法律辞書搭載
- データ国内留め + 第三者監査可能
- 初期投資は高いが安心料として妥当
- 月コスト: ¥30,000+
YouTube/Twitch ライバー
Rimo Voice + 字幕サービス連携
- 配信中の自動字幕表示
- Twitch ストリームの低レイテンシ要件をクリア
- 月コスト: ¥2,200〜
取材ライター・ジャーナリスト
OpenAI Whisper API + Notion AI
- 録音後一括処理で安価
- Notion で記事下書きまで一気通貫
- 月コスト: $10〜15
個人事業主・複業
Notta Free + ChatGPT(議事録整形)
- 月120分なら無料枠で十分
- 議事録整形は ChatGPT で代替
- 月コスト: $20(ChatGPT のみ)
国際会議・英語会議が中心
Otter.ai + DeepL(翻訳)
- 英語精度トップ + 即時翻訳
- 多言語ミーティング対応
- 月コスト: $17〜30
選定で見落とされがちな10の判断軸
スペック表に出てこない、実運用で効く比較ポイント。
① 1ファイルあたりの最大処理時間
Whisper API は 25MB 上限、Notta は1ファイル3時間まで。長時間会議の処理可否で詰むケースが多い。
② 話者分離の精度
「自分」と「相手」の自動振り分け。Otter.ai は英語で精度高、AmiVoice は日本語特化、Meeting Lens はマイク別取得で確実。
③ ノイズ環境耐性
カフェ・電車内・対面会議室でも使えるか。実機検証が必須。
④ ホットワード機能
事前に「自社用語」を登録できる機能の有無。AmiVoice / Deepgram の「Custom Vocabulary」が代表例。
⑤ リアルタイム表示の遅延
0.5秒以内 / 1〜2秒 / 3秒以上 の3カテゴリ。会議中の補助には1秒以内が必須。
⑥ エクスポート形式
TXT / SRT / VTT / DOCX / Notion / Slack / Teams 連携。SRT 出力は字幕用に必須。
⑦ APIアクセスの有無
社内システムに組み込むなら API が必要。Whisper / Deepgram / AssemblyAI が API 強い。
⑧ データ保持期間
30日 / 90日 / 永久。Stripe・GDPR 観点で「自動削除」できるか確認。
⑨ チームでの共有機能
URL 共有 / メンバー追加 / 権限管理。個人向けと法人向けで大差。
⑩ サポート体制(日本語)
障害時に日本語チャットで聞けるか。AmiVoice / Rimo Voice / Meeting Lens は国内サポート。
ROI 試算サンプル(20人規模の営業組織)
「営業20名 × 週5回の商談 × 議事録作成30分」の業務をAI化した場合のコスト試算。
導入前(手動議事録)
- 議事録作成: 20名 × 5回 × 30分 = 50時間/週
- 時給 ¥3,000換算で 週¥150,000、月¥600,000 の機会損失
導入後(AI議事録)
- ツール費(Notta Business 20席 / 月): $560 ≒ ¥84,000
- 議事録レビュー時間: 20名 × 5回 × 5分 = 8.3時間/週
- レビュー機会損失: 週¥25,000、月¥100,000
- 総コスト: 月¥184,000(導入前比 ¥416,000の削減)
ROI
月416,000円の削減 ÷ 月84,000円の投資 = 約5倍のROI
実際は議事録の精度・項目化が改善することで、商談振り返りの質も上がるので、ROI はさらに高くなります。
導入失敗パターン 5選
① ツールを決める前にスペックだけ比較する
スペック表で「精度95%」と書かれていても、自社のリアルな会議では70%しか出ないこともある。必ず無料トライアルで実会議を試す。
② 1ツールに絞らずに3つ並行運用
コストも管理工数も増えるだけ。1ツールに絞り、3ヶ月使い込んでから判断。
③ プライバシー要件を後付けで指摘される
情シスや法務に事前に確認しないと、契約後に「使えない」と言われる。導入前に承認フローを通す。
④ 文字起こしの「校正」を期待する
AI 文字起こしは元音声の品質に依存する。音響環境(マイク・部屋)の改善も並行して投資しないと精度は頭打ち。
⑤ 議事録を読まない
ツール導入したのに、議事録を読まないチームは多い。「議事録の活用ルール」を運用設計してから配布すべき。
よくある質問(Q&A)
Q1. 文字起こし精度は本当に「95%」?
A. 公称値は理想環境での値。実際には会議室の反響・話者の発音・専門用語によって80〜90%が現実的。自社の会議を1回試してみるのが正解。
Q2. 「日本語精度」と「英語精度」、なぜこんなに違う?
A. 日本語は同音異義語が多く、文脈依存が強いから。英語特化モデル(Otter.ai)は日本語で性能が出ません。日本語中心なら国産特化モデル(AmiVoice / Rimo Voice / Meeting Lens)を推奨。
Q3. クラウドに音声を送るのが不安。ローカルで完結する方法は?
A. Whisper のローカル実行(whisper.cpp) が選択肢。GPU/CPU リソース次第で実運用可能。Meeting Lens は文字起こし結果のみローカル保存。
Q4. 法人契約での割引はある?
A. ほとんどのSaaS で年契約割引(10〜20%)あり。100席以上なら個別交渉可能。AmiVoice / Notta / Otter.ai は法人セールス窓口あり。
Q5. 大量の動画コンテンツを一括処理したい
A. Whisper API + 自前バッチスクリプト が最安。月100時間で約 $36(¥5,400)。Notta / Otter は SaaS 制限で大量処理に不向き。
まとめ — 自社の用途に正直になる
文字起こしツールの「ベスト」は存在しません。自社の用途で正直に絞り込むのが正解です。
- 会議が中心 + 業界用語多い → Meeting Lens
- 専門業界 + 国内データ留め → AmiVoice
- 動画一括処理 → Whisper
- 個人で気軽に → CLOVA Note
- 英語中心 → Otter.ai
迷ったら、無料トライアルがあるツールから2〜3個試して、自社のリアルな会議で1週間使うのが最短ルート。スペック比較表だけで決めると、必ず後悔します。
各ツールの公式サイトから無料トライアルが取れるので、気になるものから順番に試してみてください。
執筆者
編集部 / 北野 健介
SaaS導入支援コンサルタント。中小企業から上場企業まで、これまで200社以上のSaaS選定に関わる。SaaS比較Labでは主にAI・コラボレーション・営業支援系ツールの一次調査を担当。客観評価とエビデンス重視の比較記事を書くことがモットー。