iPhoneローカル音声文字認識アプリ比較

Plaud NotePin AI ボイスレコーダー【通常版】AI文字起こし/要約 ウェアラブルAIツール カプセル型 先端LLM活用 ワンタッチ録音 アプリ連動 112言語対応 発言者識別 編集可能 20時間連続使用 音声インポート Bluetooth接続 スマホ/パソコン対応 専用マグネットピン/クリップ付属 軽量 64GB大容量 録音機 小型 議事録/講義ノート/ボイスメモ/会話記録 グレー Amazonで購入

高齢の祖母の話を残したいと身につけられるボイスレコーダーとしてこちらのPLAUD NotePinを4月頃に購入しました。

周りの家族の声も拾ってくれ、目的はほぼ達成できています。

アプリの音声文字認識と要約機能を使うと長い録音から特定の話をしている場面を選べるのも便利です。

これらのAI機能はクラウド処理で無料枠が設定されています。 頻度高く利用するには追加課金が必要になりそうですが、ちょうどスマートフォンにNPUを搭載したiPhone 16 Proを使用しており、 AI音声文字認識(Voice to Text Transcription)で安定した評価を得ているWhisperがPCなどでローカル処理が可能です。

そこでiPhone/iOS向けにもローカル処理のアプリがあるのではと探してみるとそのもの「Whisper Transcription」と云うアプリを見つけました。

Quickly and easily transcribe audio files into text with state-of-the-art transcription technology Whisper. Transcribe files from other apps through the share extension and get high quality transcripts in seconds.
Whisper Transcriptionアプリ - App Store

目論見通りオンデバイス音声文字認識が可能で、何度か便利に利用していました。

ところがアプリのアップデートで課金機能への誘導圧が強くなってしまい、オンデバイス処理だけを使うには不便に。

そこで再度検索して以下を見つけました。

Whisper Notes - オフライン音声文字変換 音声を録音、または音声・動画ファイルをインポートして正確な文字起こしを取得—100%オフライン、デバイス上で処理。 録音時間制限なし、サブスクなし、クラウドアップロードなし。たった$4.99、買い切り。
Whisper Notes - オフライン音声文字起こしアプリ - App Store

有料のアプリですが公式サイトが日本語もあり、機能紹介などわかりやすいため購入。

認識精度は高速と高精度(1.6倍遅い)が選べ、高精度でも数倍速で処理出来ます。

認識結果は前のアプリより聞いたままに近く実用的です。

前のアプリにない部分として、認識したテキストをタップするとその部分の音声を再生したり、 精度向上は実感していませんがカスタム辞書機能(多分誤認識する単語を設定する)、 認識済テキストを逐次表示する機能などがあります。

音声を抽出するため映像はなくなりますが.mp4形式の動画も処理出来ます。.webm動画は非対応でした。

起動時に録音を開始する設定があり、起動するだけで録音されるので便利な場面もあるでしょう。

ローカル、オフライン処理のため要約機能は搭載していないと明記されているのも好印象。

機能向上に望むことは

  • 発言者を特定してラベル付けする話者分離
  • ショートカットアプリなどから呼び出したときのみ自動録音開始

などが思いつくくらいで、現時点でも十分な機能を有しています。

ちなみに処理中にはスマートフォンのバイブレーションが鼓動のように振動して面白いです。

試みで今日Apple Watchのボイスメモで1時間以上録音し続けて、入った声を文字認識させてみました。

声を認識しないところは高速に処理されるため全体が数分で処理され、 前述のタップした部分へのジャンプと組み合わせるとメモの手間が省けそうです。

Apple Watchのバッテリー消費も設定のグラフを見る限りグラフの傾斜に目立った変化がないので連続数時間録音なども可能のようでした。

Apple Watch Series 11(GPS + Cellularモデル)- 46mmゴールドチタニウムケースとライトブラッシュスポーツバンド - S/M Amazonで購入

自分のライフログのようにはApple Watchが使えそうで、購入して良かったと思いました。