2021.11.09

Joshin 試用レポート

AIが自動で文字起こし!議事録作成に大活躍のAIボイスレコーダー iFLYTEK「VOITER」を使ってみた

メイン画像
メイン画像

iFLYTEK AIライティングレコーダー VOITER-SR502J

会議の議事録作成に便利な、AIが録音音声を自動でテキスト化する「文字起こし」機能。
手軽に使えるスマホアプリもあるけれど、文字の変換精度がイマイチで、結局自分で修正する手間に悩まされる方は多いと思います。

そんな方におすすめなのが、iFLYTEKのAIライティングレコーダー『VOITER』。
高い音声認識技術で360度声を集音し、AIが前後の文章を判別して正しい言葉に自動修正することで、正確な文字起こしができます。

「漢字変換も正しくできる?」「Web通話相手の音声はどう?」実際に検証してみました! ライター:もあ

音声を自動でテキスト化するiFLYTEK「VOITER」

  • iFLYTEK AIライティングレコーダー「VOITER」
    iFLYTEK AIライティングレコーダー「VOITER」
  • 録音音声をリアルタイムに文字起こしする
    録音音声をリアルタイムに文字起こしする

録音音声をテキストに書き起こす「文字起こし」。
会議や講義、取材内容のまとめ、動画のテロップなどテキストで管理したいものは多くありますが、録音データを聞いて文章を打ち込んでまた聞いて・・・というシンプルな作業に膨大な時間と手間がかかります。

そこで注目されているのが、AIが録音音声を解析して自動でテキスト化する、文字起こし機能のついたボイスレコーダー『VOITER(ボイター)』。
雑音下での音声認識性能を競う国際コンテスト「CHiME」で2016〜2020年(隔年開催)に3回連続1位となった、中国のAIテクノロジー企業「iFLYTEK(アイフライテック)」が展開する、高い音声認識技術と高度なノイズ処理テクノロジーを持ったアイテムです。

AIでの自動文字起こしは句読点や改行がなくて読みづらく、複数人の声が入ると変換精度が落ちて実際の会話の内容がほとんどわからないことが多いですが、VOITERのすごいところはAIによる自動修正機能!
AIが文章の前後を判別して、言葉や漢字を正しいものにリアルタイムで自動変換していきます。

スマホと同じタッチ操作で使いやすく、背面には800万画素カメラがあり、写真や動画を撮ることも可能です。
音声動画にするとリアルタイムで字幕が付くので、テロップの打ち込みが大変な動画投稿者にもおすすめですよ!

料金プラン

文字起こしプラン 1年目 使い放題プランが無料
文字起こしプラン 2年目以降(税込) ・毎月3時間まで無料
・使い放題プランは2,180円/月
※1年契約の場合は1ヶ月分お得な23,980円
※2021年11月現在のプランです

外観と機能の確認

  • 「VOITER」セット内容
    「VOITER」セット内容
  • 大きな液晶画面が付いている
    大きな液晶画面が付いている
  • 6.1インチスマホと大きさ比較
    6.1インチスマホと大きさ比較
  • SIMカード(別売り)も対応
    SIMカード(別売り)も対応

セット内容:本体、USB Type-Cケーブル、SIMカードピックピン、ハードウェア保証書
サイズ(約):高さ125×幅62.26×奥行14.8mm
質量(約) :166g

大画面のタッチパネル液晶と上部に飛び出したマイクが特徴的なVOITER。
スマホやデジタルオーディオプレーヤーによく似た形状で、常に胸ポケットに入れておく小型のボイスレコーダーのイメージとは異なります。

本体を見てまず目に入るのが、上部にある筒状のマイクですが、よく見ると液晶周りにも左右3つずつ小さなマイクが!
この最大集音距離10mの2つのマイクと、360度から集音できる6つのマイクで声をしっかり拾います。
さらに文字起こしの障害となる周囲のノイズも、高度なノイズ処理テクノロジーでしっかりカットしてくれるんだとか。

文字起こしができるのはネット環境のある場所だけなので、オフラインで録音して家や職場でWi-Fiにつなぎ文字起こしという使い方が主になります。
常にリアルタイムで文字起こしがしたい方は、別売りのSIMカードを使って外出先でもネット接続ができるようにしておきましょう。
※ docomo、au、softbankの国内主要3キャリアのNano-SIMのみ対応で、MVNOの動作保証はございません

文字起こししたデータは本体に保存され、専用ウェブサイト「RECORDER STATION」にアップロードすれば、メールでパソコンなどに転送が可能です。

  • 側面の操作ボタン
    側面の操作ボタン
  • 天面と底面
    天面と底面
  • USB Type-Cケーブルで充電
    USB Type-Cケーブルで充電

充電時間(約):2時間
電池持続時間(約)
録音+文字起こし時 : 最大20時間
待機時 : 最大25日

側面には赤い丸印の録音ボタンがあり、カチカチッと2回連続して押すと画面ロックを解除しなくても録音が開始、再度2回押すと終了してデータが保存されます。
基本はスマホと同じような操作性ですが、メインの録音操作はとてもシンプルで素早くできるところにボイスレコーダーらしさを感じました。

底面には充電端子があり、USB Type-Cケーブルで充電します。
最大20時間連続して録音可能と、バッテリー持ちがとても良く、長時間の会議や講義でも途中で止めることなく文字起こしができるのがうれしい!
本体で録音した音声を聞くことはできますが、イヤホンジャックは無いので、外で音声を聞きたい時はBluetooth機能を使ってワイヤレスイヤホンで聞きましょう。

最大集音距離10mの2つのマイクと、360度から集音できる6つのマイク

  • 合計8つのマイクを搭載
    合計8つのマイクを搭載
  • 360度集音する無指向性マイク
    360度集音する無指向性マイク
  • 音のする方向を指している!
    音のする方向を指している!

VOITERには2つの無指向性マイクと、液晶を囲む6つのマイクが搭載しています。
確かにボイスレコーダーは音を集音するための物で、音質向上のため外部マイクを追加することもあるけれど、最初から8つもマイクが搭載しているのは聞いたことがない!
「絶対に音を逃さない」という強い意志を感じます。

無指向性マイクは360度全方位の音を拾うもので、会議など様々な方向から声を出す場面で使われますが、その分ノイズも拾いやすいという特徴も。
ですが、iFLYTEKは雑音下での音声認識性能に定評がある会社。
音声認識に最適化した高精度のノイズ処理テクノロジーで、不要なノイズを徹底的に除去します。

録音中は文字起こし画面の上に円が表示され、どの方向からの音を拾っているかを目視できます。
実際に音声を流しているスマホをいろんな方角に置いてみると、常に正しい方角を表示していたので、全方位集音の力を実感しました。

液晶画面上でリアルタイムに文字起こし

  • シーンによってモードを使い分けられる
    シーンによってモードを使い分けられる
  • リアルタイムに自動修正
    リアルタイムに自動修正
  • ほとんど正しい文章になってる!
    ほとんど正しい文章になってる!

会議・講演・取材・標準の4つの録音モードに「メモ」「音楽」を合わせた6つのモードがあります。
会議では全方位、講演は前方のマイクが中心など、シーンに合わせて録音設定やマイクの指向性の強度を自動で替えることで、目的の音声を逃さず集音します。
側面の録音ボタンを押して開始すると標準モードになるので、ここを好きなモードにカスタマイズできたら、さらに使いやすそうだなあ・・・。

最初に静かな部屋で商品説明を読み上げてみましたが、液晶画面にリアルタイムで起こされる文字は間違いが多い・・・と思ったら、次々に正しい文章に自動修正されていきます!
完成した文章は間違いが「AI」のみで、ちゃんと句読点もついて読みやすいです。
ちなみに「AI」は、いくつかの自動文字起こしアプリを使っても、きちんと読み取れたものが無かったので、苦手な言葉なのかもしれません。

リアルタイムに修正されていく画面を見ていると「あ!それ違うよ!・・・そうそう正解!!」と、間違いに気づいてすぐに訂正する子供を見ている気分になり、VOITERがなんだか可愛く見えてきました。

読み込んだデータはファイルに保存され、再度AIによる文章の見直しが入ります。
リアルタイムで文字起こししていたものに句読点が追加されて、さらに読みやすい文章になっていました。
ファイルに入れてからの文字起こしは数時間かかるので、前日に録音したものを翌日確認する流れになりそうです。
「加速」ボタンをタップすると数十分で完了するので、急いで確認したい時も安心ですよ!

  • 【動画】VOITER文字起こしの様子
    【動画】VOITER文字起こしの様子
  • スマホアプリと動画音声の文字起こしを比較
    スマホアプリと動画音声の文字起こしを比較

外を走る車の音やパソコンのタイピング音など、多少の生活音がある中でYouTube動画の音声を流し、VOITERとスマホの無料アプリで文字起こししてみました。
出だしが少し早口だったため、スマホアプリはさっそく飛ばしてしまいましたが、VOITERはしっかりと読み取っています。
その後も文章が長くなればなるほどテキスト精度に差が付き、完成した文章内容の把握のしやすさは一目瞭然!

VOITERも完璧ではなく、少しカタカナ単語が苦手だったりするようですが、音声を聞きなおせばすぐに修正できるレベルです。
句読点をしっかり付けてくれるので文章がわかりやすく、手動での修正もあまり手間に感じませんでした。
完成した文章に漢字変換の間違いが全くないことと「インチ」が記号の「in」に変換されたところをみると、変換精度の高さは本物のようです。

  • 録音データはファイルで管理
    録音データはファイルで管理
  • キーワード検索でデータがすぐに見つかる!
    キーワード検索でデータがすぐに見つかる!
  • 音声速度を変更して聞けます
    音声速度を変更して聞けます

録音したデータは次々とファイルに保存されていきますが、名前の変更だけでなくブックマークやカテゴリー分け、キーワード検索ができ、データが多くなってきても聞きたい音声をすぐに探せます。

一般的なボイスレコーダーは音声を確かめるように聞くため再生速度を落とすことが多いですが、VOITERは文字起こししてくれているのでそのまま流すことが多かったです。

動画撮影をしながら字幕を表示

  • 800万画素カメラが搭載
    800万画素カメラが搭載
  • 動画のテロップ作りがラクラク♪
    動画のテロップ作りがラクラク♪

背面には800万画素カメラが搭載していて、写真や動画を撮影できます。
ズームや夜景モードがあって性能もしっかりしたカメラですが、すごいのが動画撮影。
なんと、動画内の音声を文字起こしして、字幕付き動画にします!
※ 動画や字幕の向きは縦方向のみ対応です

すぐに字幕作動画を作れるので、これはちょっとしたVlog動画を撮りたい時に重宝しそうです。
動画を見返してテロップ作って動画に当てはめて・・・結構な重労働ですもんね。

まとめ

会議や講義の内容をテキストで残しておきたい場面は多くありますが、ボイスレコーダーを少し聞いて文字を打ち込んでまた聞いて・・・の繰り返し作業はとても大変です。
1時間の会議の議事録を作るのに5倍近い時間がかかることもよくあり、この作業をなんとか時短したい!と思う方も多いはず。

筆者も同じ気持ちでスマホの文字起こしアプリに頼ったことがありますが、テキストの変換精度が弱く文章を丸ごと修正する必要があり「これなら自分で打ち込んだ方が早いな」と思う事もありました。
なので自動で文字起こしするAIボイスレコーダーと聞いても、実力は半信半疑だったのですが『VOITER』の変換精度は本当にすごい!!

他の自動文字起こしサービスは、単語は正しくても文脈がめちゃくちゃで、ノイズや複数人の声が重なると読み取らず飛び飛びの文章になることが多かったのですが、VOITERは苦手な単語はあるものの文脈がしっかりしているから後からの修正もしやすいです。

肉声だけではなくスマホやパソコンのスピーカーを通した声もしっかり文字起こしするので、Web会議時のメモもVOITERに任せられますよ!
「もう文字起こしに時間をかけたくない!」という方は、ぜひVOITERの高いテキスト精度を実感してみてください。 2021.11.09 (もあ)

スタッフが使ってみました

商品は
こちら

試用レポートバックナンバー
>>Joshin webのTOPページへ