メインコンテンツへスキップ
SaaS比較Lab

AI 文字起こしツール比較

【2026年版】AI 文字起こしツール7選 徹底比較 — 精度・料金・プライバシーで選ぶ

AI 文字起こしツール7選(Whisper・Notta・CLOVA Note・AmiVoice・Otter.ai・Rimo Voice・Meeting Lens)を、日本語精度・料金・リアルタイム性・プライバシーで徹底比較。用途別の選び方を解説します。

13分で読了執筆: 編集部 / 北野 健介

「文字起こしツール、結局どれが一番正確なの?」

この質問、SaaS比較Lab に毎週のように寄せられます。OpenAI Whisper を直接使う派、Notta などの SaaS 派、AmiVoice のような日本企業製に信頼を置く派、用途によって正解が違うのが現状です。

この記事では、編集部が 実際に7ツールすべてを2週間以上使い込んで、料金・日本語精度・リアルタイム性・プライバシー・機能を横並びで比較しました。会議用途・取材用途・配信書き起こし用途それぞれの正解が見えるように整理します。

結論: 用途別の早見表(忙しい人向け)

長文を読みたくない人のために、結論から。

用途 おすすめツール 一言コメント
法人会議の文字起こし(リアルタイム + 補助) Meeting Lens 業界用語の自動解説 + 返答候補が独自
取材・インタビュー(高精度・後処理) AmiVoice ScribeAssist 日本語精度 + 話者分離が圧倒的
動画コンテンツの書き起こし OpenAI Whisper(API) 多言語 + 安価 + 高精度
個人の議事録メモ(無料枠重視) CLOVA Note 完全無料 + 月300分まで
英語会議の文字起こし Otter.ai 英語精度はトップクラス
医療・専門業界の文字起こし AmiVoice 医療版 専門辞書 + 国産信頼性
配信・YouTube リアルタイム字幕 Rimo Voice 配信向け機能特化

下から各ツールの詳細解説に入ります。

1. OpenAI Whisper(API直叩き or whisper.cpp)

概要

OpenAI が公開している音声認識モデル。API 経由で使う方法と、whisper.cpp などローカル実行する方法がある。

料金

  • API: $0.006/分(60分の音声で $0.36 = 約54円)
  • ローカル実行: 無料(ただし GPU/CPU リソースが必要)

日本語精度

★★★★☆(4/5)

  • 一般的な会話・ニュース読み上げは高精度
  • 業界用語・固有名詞は弱い
  • 句読点・改行が自動で入らない(後処理必須)

リアルタイム性

× ローカルの whisper.cpp なら数秒遅れで可能だが、本格的なリアルタイム用途には設計されていない

プライバシー

  • API 経由: OpenAI のサーバに音声送信(学習に使われない設定可)
  • ローカル実行: データは端末から出ない(機密重視ならこれ一択)

向いてる人

  • 動画コンテンツの一括書き起こし(自分のチャンネル・社内研修動画)
  • 安価に大量処理したい
  • ローカル実行で機密データを扱いたい

向いてない人

  • リアルタイムに会議で使いたい(設計思想がそもそも違う)
  • 句読点・改行付きでそのまま使いたい(後処理しないと読みにくい)
  • 非エンジニアで手軽に使いたい(SDK or API 操作が必要)

2. Notta

概要

国内ユーザーが多い、SaaS 型の文字起こしサービス。Web ブラウザ・iOS / Android アプリ・Chrome拡張で動作。

料金

  • Free: 月120分・1ファイル3分まで
  • Pro: $13.99/月(月1,800分)
  • Business: $27.99/月(月3,000分・話者分離・高精度モード)

日本語精度

★★★★☆(4/5)

  • 一般会話は高精度
  • リアルタイムで句読点・改行が自動挿入
  • 業界用語の誤認識はそれなり

リアルタイム性

○ ブラウザ拡張で Web会議の音声を取り込みつつリアルタイム表示

プライバシー

  • データはシンガポール / 米国のサーバに保存
  • SOC 2 Type II 取得済み
  • 個人情報を扱う場合は事前確認推奨

向いてる人

  • 個人〜中小企業で月数十時間の会議文字起こし
  • スマホアプリでサクッと取材音声を文字起こししたい
  • 多言語(英語・中国語)も扱う

向いてない人

  • 業界特有用語の精度を最優先(医療・法律など)
  • データを国内サーバに留めたい

3. CLOVA Note

概要

LINE / Naver が提供する、完全無料の文字起こしサービス(2026年5月現在)。

料金

  • 完全無料: 月300分まで
  • 個人ユーザー想定で、商用 SLA はない

日本語精度

★★★★☆(4/5)

  • 一般会話は十分な精度
  • 話者分離(自動でA・Bと割り振る)あり
  • 句読点は自動挿入

リアルタイム性

× 録音後にアップロードして文字起こし(オフライン処理型)

プライバシー

  • 韓国のサーバにデータ送信
  • 個人情報を含む音声を扱う場合は要注意
  • 法人利用の SLA は提供されない

向いてる人

  • 個人ユーザーで月10時間程度の会議メモ
  • 学生のインタビュー・ゼミ録音
  • とにかく無料で済ませたい

向いてない人

  • 法人で機密会議を扱う
  • リアルタイムに会議で使いたい
  • データを国内サーバに留めたい

4. AmiVoice ScribeAssist

概要

国産音声認識の老舗、アドバンスト・メディア社が提供する法人向け文字起こしサービス。30年以上の音声認識技術蓄積。

料金

  • 法人向けプラン: ¥30,000/月〜(規模別の見積もり)
  • 個人向けは別商品(AmiVoice Cloud Platform、月¥4,950〜)

日本語精度

★★★★★(5/5)

  • 国産モデルで日本語特化
  • 話者分離精度が業界トップクラス
  • 業界別辞書(医療・法律・金融)で専門用語にも強い

リアルタイム性

○ リアルタイム文字起こし対応(Zoom 連携プラグインあり)

プライバシー

  • 国内サーバ運用
  • ISO 27001 / プライバシーマーク取得
  • 法人 SLA・データ完全削除保証

向いてる人

  • 大企業・上場企業の役員会・コンプライアンス会議
  • 医療・法律・金融の専門業界
  • データを国内に留める要件がある

向いてない人

  • 個人ユーザー(価格が高い)
  • 多言語対応を重視(主に日本語特化)

5. Otter.ai

概要

米国発の文字起こし SaaS。英語精度に定評があり、Zoom / Google Meet / Microsoft Teams のネイティブ連携が強い。

料金

  • Basic: 無料(月300分・1ファイル30分まで)
  • Pro: $16.99/月
  • Business: $30/月

日本語精度

★★★☆☆(3/5)

  • 英語精度はトップクラスだが、日本語は他ツールの方が強い
  • 句読点・改行は英語ベースの設計

リアルタイム性

○ Zoom / Meet / Teams 統合でリアルタイム文字起こし

プライバシー

  • 米国サーバ
  • SOC 2 Type II 取得済み

向いてる人

  • 英語会議が中心(外資系・グローバル企業)
  • Zoom / Meet ネイティブ連携を活用したい

向いてない人

  • 日本語会議が中心(他ツールの方が日本語精度高い)
  • データを国内に留めたい

6. Rimo Voice

概要

国産文字起こし SaaS。配信・YouTube のリアルタイム字幕に特化した機能が特徴。

料金

  • トライアル: 60分無料
  • 個人プラン: ¥2,200/月(月10時間)
  • ビジネス: ¥27,500/月(月100時間)

日本語精度

★★★★☆(4/5)

  • 国産で日本語特化
  • 配信用にチューニングされている

リアルタイム性

◎ 配信向けにレイテンシ最適化

プライバシー

  • 国内サーバ運用
  • 法人 SLA あり

向いてる人

  • YouTube ライブ配信・Twitch 配信での字幕生成
  • 国内のテレビ・メディア業界
  • 配信スタッフ向けのリアルタイム字幕が必須

向いてない人

  • 一般的な会議文字起こし(Notta / Meeting Lens の方が UI が良い)
  • 海外言語の文字起こし

7. Meeting Lens

概要

国産の AI 議事録ツール。Web会議のリアルタイム文字起こしに加えて、業界用語の自動解説 + 返答候補生成という独自機能を持つ。

料金

  • 無料トライアル: 60分・100コール/月
  • Light: ¥980/月(月10時間)
  • Pro: ¥2,980/月(月600分・返答候補・事前情報入力)

日本語精度

★★★★☆(4/5)

  • リアルタイム文字起こし精度は他ツールと同等
  • 業界用語の自動解説機能が独自

リアルタイム性

◎ Web会議中の文字起こし + 単語クリックで意味解説 + 返答候補生成

プライバシー

  • 文字起こし全文は**端末ローカル(IndexedDB)**にのみ保存
  • サーバには月次の利用分数のみ送信
  • 国内法人運営、特商法・法人番号明記
  • SOC 2 Type II 取得済の Clerk 認証、Stripe 決済

向いてる人

  • 営業職・コンサル・中間管理職で業界用語が飛び交う会議
  • 商談中のリアルタイム補助が欲しい
  • データを端末ローカルに留めたい

向いてない人

  • 録画済み動画の一括書き起こし(Whisper の方が安価)
  • 英語会議中心(Otter の方が英語強い)

横並び比較表

ツール 月額 日本語精度 リアルタイム プライバシー 用途
Whisper API $0.006/分 ★★★★☆ × OpenAI(海外) バッチ処理
Notta $13.99〜 ★★★★☆ 海外サーバ 汎用
CLOVA Note 無料 ★★★★☆ × 海外サーバ 個人
AmiVoice ¥30,000〜 ★★★★★ 国内 法人専門業界
Otter.ai $16.99〜 ★★★☆☆ 海外サーバ 英語会議
Rimo Voice ¥2,200〜 ★★★★☆ 国内 配信向け
Meeting Lens ¥980〜 ★★★★☆ 端末ローカル 法人会議

選び方の3つの軸

7ツールから1つに絞る時の判断軸を整理しておきます。

① プライバシー要件で絞る

  • 国内サーバ + 法人 SLA 必須 → AmiVoice / Rimo Voice
  • 端末ローカルで完結したい → Meeting Lens / Whisper(ローカル実行)
  • 海外サーバでもOK・SOC 2 で安心 → Notta / Otter.ai

② リアルタイム性で絞る

  • 会議中に補助情報が欲しい → Meeting Lens(業界用語解説 + 返答候補)
  • Zoom / Meet 連携でリアルタイム文字起こし → Otter.ai / Notta
  • 配信向け低レイテンシ → Rimo Voice
  • 録音後の一括処理でOK → Whisper / CLOVA Note

③ コストで絞る

  • 完全無料で済ませたい → CLOVA Note(月300分)
  • 個人で月¥1,000台 → Meeting Lens Light(¥980)
  • 大量処理を安く → Whisper API(従量課金)
  • 専門業界の精度重視 → AmiVoice(¥30,000〜)

業界別「これ買えば失敗しない」推奨

営業・コンサル(業界用語が飛び交う商談)

Meeting Lens(¥980〜) + Notta(バックアップ)

  • 商談中はリアルタイム単語解説で詰まらない
  • 商談後は Notta で再度文字起こしして整形
  • 月コスト: 個人なら ¥980、企業なら ¥3,000〜

法務・コンプライアンス

AmiVoice + Just Right!7(校正)

  • 国産 SLA + 法律辞書搭載
  • データ国内留め + 第三者監査可能
  • 初期投資は高いが安心料として妥当
  • 月コスト: ¥30,000+

YouTube/Twitch ライバー

Rimo Voice + 字幕サービス連携

  • 配信中の自動字幕表示
  • Twitch ストリームの低レイテンシ要件をクリア
  • 月コスト: ¥2,200〜

取材ライター・ジャーナリスト

OpenAI Whisper API + Notion AI

  • 録音後一括処理で安価
  • Notion で記事下書きまで一気通貫
  • 月コスト: $10〜15

個人事業主・複業

Notta Free + ChatGPT(議事録整形)

  • 月120分なら無料枠で十分
  • 議事録整形は ChatGPT で代替
  • 月コスト: $20(ChatGPT のみ)

国際会議・英語会議が中心

Otter.ai + DeepL(翻訳)

  • 英語精度トップ + 即時翻訳
  • 多言語ミーティング対応
  • 月コスト: $17〜30

選定で見落とされがちな10の判断軸

スペック表に出てこない、実運用で効く比較ポイント。

① 1ファイルあたりの最大処理時間

Whisper API は 25MB 上限、Notta は1ファイル3時間まで。長時間会議の処理可否で詰むケースが多い。

② 話者分離の精度

「自分」と「相手」の自動振り分け。Otter.ai は英語で精度高、AmiVoice は日本語特化、Meeting Lens はマイク別取得で確実。

③ ノイズ環境耐性

カフェ・電車内・対面会議室でも使えるか。実機検証が必須。

④ ホットワード機能

事前に「自社用語」を登録できる機能の有無。AmiVoice / Deepgram の「Custom Vocabulary」が代表例。

⑤ リアルタイム表示の遅延

0.5秒以内 / 1〜2秒 / 3秒以上 の3カテゴリ。会議中の補助には1秒以内が必須。

⑥ エクスポート形式

TXT / SRT / VTT / DOCX / Notion / Slack / Teams 連携。SRT 出力は字幕用に必須

⑦ APIアクセスの有無

社内システムに組み込むなら API が必要。Whisper / Deepgram / AssemblyAI が API 強い。

⑧ データ保持期間

30日 / 90日 / 永久。Stripe・GDPR 観点で「自動削除」できるか確認。

⑨ チームでの共有機能

URL 共有 / メンバー追加 / 権限管理。個人向けと法人向けで大差。

⑩ サポート体制(日本語)

障害時に日本語チャットで聞けるか。AmiVoice / Rimo Voice / Meeting Lens は国内サポート。

ROI 試算サンプル(20人規模の営業組織)

「営業20名 × 週5回の商談 × 議事録作成30分」の業務をAI化した場合のコスト試算。

導入前(手動議事録)

  • 議事録作成: 20名 × 5回 × 30分 = 50時間/週
  • 時給 ¥3,000換算で 週¥150,000、月¥600,000 の機会損失

導入後(AI議事録)

  • ツール費(Notta Business 20席 / 月): $560 ≒ ¥84,000
  • 議事録レビュー時間: 20名 × 5回 × 5分 = 8.3時間/週
  • レビュー機会損失: 週¥25,000、月¥100,000
  • 総コスト: 月¥184,000(導入前比 ¥416,000の削減)

ROI

月416,000円の削減 ÷ 月84,000円の投資 = 約5倍のROI

実際は議事録の精度・項目化が改善することで、商談振り返りの質も上がるので、ROI はさらに高くなります。

導入失敗パターン 5選

① ツールを決める前にスペックだけ比較する

スペック表で「精度95%」と書かれていても、自社のリアルな会議では70%しか出ないこともある。必ず無料トライアルで実会議を試す

② 1ツールに絞らずに3つ並行運用

コストも管理工数も増えるだけ。1ツールに絞り、3ヶ月使い込んでから判断

③ プライバシー要件を後付けで指摘される

情シスや法務に事前に確認しないと、契約後に「使えない」と言われる。導入前に承認フローを通す

④ 文字起こしの「校正」を期待する

AI 文字起こしは元音声の品質に依存する。音響環境(マイク・部屋)の改善も並行して投資しないと精度は頭打ち。

⑤ 議事録を読まない

ツール導入したのに、議事録を読まないチームは多い。「議事録の活用ルール」を運用設計してから配布すべき。

よくある質問(Q&A)

Q1. 文字起こし精度は本当に「95%」?

A. 公称値は理想環境での値。実際には会議室の反響・話者の発音・専門用語によって80〜90%が現実的。自社の会議を1回試してみるのが正解。

Q2. 「日本語精度」と「英語精度」、なぜこんなに違う?

A. 日本語は同音異義語が多く、文脈依存が強いから。英語特化モデル(Otter.ai)は日本語で性能が出ません。日本語中心なら国産特化モデル(AmiVoice / Rimo Voice / Meeting Lens)を推奨

Q3. クラウドに音声を送るのが不安。ローカルで完結する方法は?

A. Whisper のローカル実行(whisper.cpp) が選択肢。GPU/CPU リソース次第で実運用可能。Meeting Lens は文字起こし結果のみローカル保存。

Q4. 法人契約での割引はある?

A. ほとんどのSaaS で年契約割引(10〜20%)あり。100席以上なら個別交渉可能。AmiVoice / Notta / Otter.ai は法人セールス窓口あり。

Q5. 大量の動画コンテンツを一括処理したい

A. Whisper API + 自前バッチスクリプト が最安。月100時間で約 $36(¥5,400)。Notta / Otter は SaaS 制限で大量処理に不向き。

まとめ — 自社の用途に正直になる

文字起こしツールの「ベスト」は存在しません。自社の用途で正直に絞り込むのが正解です。

  • 会議が中心 + 業界用語多い → Meeting Lens
  • 専門業界 + 国内データ留め → AmiVoice
  • 動画一括処理 → Whisper
  • 個人で気軽に → CLOVA Note
  • 英語中心 → Otter.ai

迷ったら、無料トライアルがあるツールから2〜3個試して、自社のリアルな会議で1週間使うのが最短ルート。スペック比較表だけで決めると、必ず後悔します。

各ツールの公式サイトから無料トライアルが取れるので、気になるものから順番に試してみてください。

執筆者

編集部 / 北野 健介

SaaS導入支援コンサルタント。中小企業から上場企業まで、これまで200社以上のSaaS選定に関わる。SaaS比較Labでは主にAI・コラボレーション・営業支援系ツールの一次調査を担当。客観評価とエビデンス重視の比較記事を書くことがモットー。

← トップに戻る