高齢の祖母の話を残したいと身につけられるボイスレコーダーとしてこちらのPLAUD NotePinを4月頃に購入しました。
周りの家族の声も拾ってくれ、目的はほぼ達成できています。
アプリの音声文字認識と要約機能を使うと長い録音から特定の話をしている場面を選べるのも便利です。
これらのAI機能はクラウド処理で無料枠が設定されています。 頻度高く利用するには追加課金が必要になりそうですが、ちょうどスマートフォンにNPUを搭載したiPhone 16 Proを使用しており、 AI音声文字認識(Voice to Text Transcription)で安定した評価を得ているWhisperがPCなどでローカル処理が可能です。
そこでiPhone/iOS向けにもローカル処理のアプリがあるのではと探してみるとそのもの「Whisper Transcription」と云うアプリを見つけました。
目論見通りオンデバイス音声文字認識が可能で、何度か便利に利用していました。
ところがアプリのアップデートで課金機能への誘導圧が強くなってしまい、オンデバイス処理だけを使うには不便に。
そこで再度検索して以下を見つけました。
有料のアプリですが公式サイトが日本語もあり、機能紹介などわかりやすいため購入。
認識精度は高速と高精度(1.6倍遅い)が選べ、高精度でも数倍速で処理出来ます。
認識結果は前のアプリより聞いたままに近く実用的です。
前のアプリにない部分として、認識したテキストをタップするとその部分の音声を再生したり、 精度向上は実感していませんがカスタム辞書機能(多分誤認識する単語を設定する)、 認識済テキストを逐次表示する機能などがあります。
音声を抽出するため映像はなくなりますが.mp4形式の動画も処理出来ます。.webm動画は非対応でした。
起動時に録音を開始する設定があり、起動するだけで録音されるので便利な場面もあるでしょう。
ローカル、オフライン処理のため要約機能は搭載していないと明記されているのも好印象。
機能向上に望むことは
- 発言者を特定してラベル付けする話者分離
- ショートカットアプリなどから呼び出したときのみ自動録音開始
などが思いつくくらいで、現時点でも十分な機能を有しています。
ちなみに処理中にはスマートフォンのバイブレーションが鼓動のように振動して面白いです。
試みで今日Apple Watchのボイスメモで1時間以上録音し続けて、入った声を文字認識させてみました。
声を認識しないところは高速に処理されるため全体が数分で処理され、 前述のタップした部分へのジャンプと組み合わせるとメモの手間が省けそうです。
Apple Watchのバッテリー消費も設定のグラフを見る限りグラフの傾斜に目立った変化がないので連続数時間録音なども可能のようでした。
自分のライフログのようにはApple Watchが使えそうで、購入して良かったと思いました。