自動で音声をテキスト化!VOITERとVOITER miniが新登場

効率良く仕事を進めたい起業家にオススメのAIライティングレコーダー、その魅力とは?

自動で音声をテキスト化してくれるAIライティングレコーダー、VOITERVOITER miniが発売され、効率良く仕事を進めたい起業家やライターの間で話題になっています。高度な音声認識技術を集結させたVOITERと、話者ごとのテキスト分離に対応したVOITER mini。2つのモデルについて、実際に使用している方のインタビューを交えながら、その特徴を紹介します。

※この記事を書いている「創業手帳」ではさらに充実した情報を分厚い「創業手帳・印刷版」でも解説しています。無料でもらえるので取り寄せしてみてください

新製品「VOITER」その使い心地は?


重要な会議の議事録作成や講演会や研修の記録など、ビジネスマンはなにかと文字起こしを必要とするシーンが多いもの。中でもインタビューを生業にしているライターは、週に何度も文字起こしに時間を取られています。そこでVOITERを使ってみたというライターの高梨さんに、その感想を伺いました。

AIの自動修正が優秀でビックリ

──VOITERを使ってみようと思ったきっかけから聞かせてください。

高梨:仕事柄、自動で文字起こしができるアプリや製品はいくつも試してきましたが、精度の高いものになかなか出会えなくて。そんな時、ライターの先輩がクラウドファンディングのMakuakeで見つけたVOITERを絶賛していたのを聞いて、製品のプロモーション動画を見てみたんです。そうしたらすごく良さそうで、これは実用的かもしれないということでお借りして使ってみました。

受け取ってまず驚いたのが、VOITER本体の小ささ。手のひらにすっぽり収まるコンパクトなサイズで、ひと昔前のiPhoneのような感じです。家電量販店でVOITER miniも見ましたが、miniはさらに小さくて消しゴムみたい。デザインはカセットテープをイメージしているということで、レトロで可愛らしいんですよね。しかも4種類のシールが付いているので、自分好みに変えられますし。VOITERもVOITER miniも気軽に持ち運べるサイズで、それもまたいいですよね。

──実際に使ってみていかがでしたか?

高梨:これまで何度も取材で使っていますが、本当にAIの自動修正が優秀なんです。文字起こしされたテキストデータを見ながら再度取材音源を聞いて内容を確認していますが、7割ぐらいはそのまま使えます。もちろん「えー」とか「まぁ」という話し手の癖もそのまま入ってしまいますが、そこはWord上で不要そうな単語を検索して、一括削除すれば問題ありません。文字起こしの時間は常々無駄だと感じていたので、長年のストレスから解放されたと思うと嬉しくて嬉しくて。VOITERを知って以来、ライター仲間や編集者に会う度に勧めていますよ。

──製品を開発したiFLYTEK社音声AIにおける中国トップメーカーで、「MIT(米マサチューセッツ工科大学)テクノロジーレビュー」の「世界で最もスマートな企業50社」(2017年)で6位を獲得していますからね。AmazonやGoogleに次ぐ中国トップの破壊力などと紹介されている注目企業ですが、納得のクオリティという感じですか?

高梨:そのくだりは、私も使う前に知って余計に興味が湧きました(笑)。もちろん納得のクオリティです。

スマホを操作する感覚でパパッと使える

──使い勝手はいかがですか?

高梨:シンプルな仕様なので、説明書も見ることなくスマホを操作する感覚でパパッと使えます。最初に「取材」「会議」「講演」「メモ」「音楽」「標準」の6つの録音モードから最適なものを選択しますが、モードを選ぶと同時に録音が始まります(注:音楽モードでは文字起こし機能が利用できません)。直感的に操作ができて、無駄がないんですよね。

──録音と同時に文字起こしも行われると聞きました。

高梨Wi-Fiに接続した状態であれば、録音と同時に文字起こしができます。それから、「リアルタイムに文字起こし表示」をオンにしておくと、VOITERの画面上に瞬時にテキストが表示されるんです。ただ、取材環境によってネットが接続できない場合もあるので、VOITERではその場で音声だけ録音しておいて、あとから文字起こしをする場合もありますよ。

──そのあたりを詳しく教えていただけますか?

高梨:あとから文字起こしをする場合は、録音後、ネットにつなぐと自動的に文字起こしが始まります。サーバーが混雑していなければ、優先的に処理を行う「加速」ボタンを押すことで、おおむね20分以内にテキスト変換されるみたいで。リアルタイムでもあとから文字起こしをするにしても、いずれにせよ精度を高めるためにもう一度文字起こし処理が行われているようで、ここでさらに完成度の高いデータになるんでしょうね。AIが前後の文脈に合わせて考えてくれるので、「意向」と「移行」など、同音異義語もきちんと漢字変換してくれるんです。

──それは確かに優秀ですね。端末に保存されたテキストファイルは、簡単にパソコン内に取り込めるんですか?

高梨:はい。取り込むには3つの方法があって、1つはVOITER本体とパソコンをUSBケーブルでつないでデータをコピーする方法。Macを使っている場合は事前にAndroidのファイルを転送できるアプリをインストールする必要があるので、Macユーザーの私はこの方法は試していません。

2つめは、メールでファイルを共有する方法。ファイルを選んで「メール共有」ボタンをクリックして、あとは共有するファイルの種類(テキストのみ/音声のみ/音声とテキストの両方)を選んで送り先のアドレスを入力するだけ。送られてきたメール内のリンクをクリックすると、すぐにファイルをダウンロードできます。

3つめは、「RECORDER STATION」と呼ばれる専用のクラウドページにアクセスして、データをダウンロードする方法。自分専用のページにアクセスするので、これまでアップロードしたファイルも一覧で見れて便利なんですよね。

私はこの方法でやっていますが、音声とテキストの両方をダウンロードすると少し時間がかかってしまうので、パソコンに落とすのはテキストデータだけ。再度音源を聞く必要がある場合は、VOITER本体から直接聞いています。VOITERにはイヤホンジャックは付いていませんが、Bluetoothが使えるので、AirPodsを接続して使っています。

VOITERは16GB、miniは32GBまでストレージあり

──録音した音声の音質に関してはいかがですか?

高梨:聞き取りやすいですよ。あんなにコンパクトなのに、VOITERには8つもマイクが付いているんですよね?

──そうなんですよ。発話距離最大10mに対応した2つの指向性マイク、それから360度集音する6つの無指向性マイクって、すごいですよね。しかも録音の品質をリアルタイムに自動識別して、それぞれのマイクの集音の役割を変化させて録音品質のバラつきを低減しているとか。購入前、デバイス自体の容量は気になりましたか?

高梨:まったく気になりませんでした。VOITERは16GBまでいけますし、VOITER miniなんて32GBまでOKらしいので、困る人はいませんよね?データは取材後すぐにパソコンに取り込むので、不足することはまずないと思います。データをアップロードするクラウドページも1アカウントにつき10GBまで保存できるので、特に容量は気にせず使っています。

VOITERは動画にも自動で字幕をつけられる?

──VOITERでは、録音した音声の文字起こしだけでなく、動画にも自動で字幕をつけられるそうですが、こちらはご存知でしたか?

高梨:いえ。そんなことまでできるんですね! 友人が講演動画をYouTubeにアップしていますが、テロップが入るとより伝わりやすいよねと話していたところなんです。早速伝えてみようかな。

──価格帯についてはいかがでしたか?

高梨:作業時間がここまで短縮できるのであれば、この価格は安いぐらい。VOITER miniはもう少し価格帯が安いですが、最大集音距離が5mということだったので、私はより広範囲の音声を確実に文字化できるVOITERを使ってみました(VOITERは最大集音距離が10m)。でもよく考えたら、私のような用途で使う場合は5mでも十分ですし、何よりVOITER miniは話し手ごとにテキストを分けられる点が魅力的ですよね。インタビューでは、少なくとも2人の話者がいるわけですから。

──どちらを選ぶかは迷いどころですね。では最後に、VOITERやVOITER miniをどのような方にお勧めしたいですか?

高梨:ライターや編集者などの同業者はもちろん、会議の議事録を取らなくてはいけない方たちにもお勧めしたいですね。音声を文字化するという時間は何も生まず、ただ作業的に疲れる本当に無駄な時間ですから。製品のプロモーション動画を見たら、その精度の高さに驚いて、きっと欲しくなると思いますよ!

「VOITER」と「VOITER mini」4つの特徴

ここからは、VOITERとVOITER miniの4つの特徴について見ていきましょう。

特徴1:雑音環境での音声認識性能を競う国際コンテストでNo.1受賞の技術を搭載

国際コンテスト「CHiME」で2016〜2020年(隔年開催)に3回連続No.1を受賞したiFLYTEKの高い音声認識技術と、それを支える高度な雑音処理技術を搭載。大人数が集まる騒がしい場所でもクオリティを発揮します。

特徴2:最大集音距離10m(VOITER miniは5m)、360度から集音してテキスト化

最大集音距離10m(VOITER miniは5m)、360度から集音できるので、会議はもちろん講演会などでも困りません。

特徴3:VOITERは、動画の字幕と字幕自動生成にも対応

VOITERには800万画素のカメラが搭載されており、ネットワーク接続時には撮影しながら自動で字幕をつけられます。オフラインで撮影後、あとから字幕生成することも可能です。※動画は縦方向のみ対応。VOITER miniは未対応

特徴4:VOITER miniは、話し手ごとのテキスト分離に対応

VOITER miniは、録音した音声を話し手ごとに分離してテキスト化でき、より素早く議事録や講義録を作成できます。※2021年10月現在、VOITERは未対応

「VOITER」と「VOITER mini」の料金プラン

文字起こしには、時間に応じて利用料金が発生します。1年目は、下記のお得なプランが無料で付いてきます。

創業手帳より、「VOITER」と「VOITER mini」についての詳しい資料を無料でお届け致します。資料請求は下記ボタンよりお願い致します。

(監修: iFLYTEK JAPAN AI SOLUTIONS 株式会社
(編集: 創業手帳編集部)

この記事に関連するタグ
このカテゴリーでみんなが読んでいる記事
カテゴリーから記事を探す
今すぐ
申し込む
【無料】