タグ: 生成AI

  • 文章と生成AIのイベントで生成AIとガジェットを語ってきた

    文章と生成AIのイベントで生成AIとガジェットを語ってきた

    写真とか一切撮ってなかったのでXでお茶を濁します。

    武者さんが開催した文章と生成AIのライトニングトーク、このテーマは教えたいもの見せたいものたくさんありすぎるので勢いよく参加しつつ、たぶんほとんどのライトニングトークは文章作成の方向に行くだろうからプレゼン差別化のためにガジェット方向へ全振りしてみました。

    結果としてそんなプレゼンが自分しかいなかったのは想定通りだったのですが、まさかこんな例外処理がトップバッターとは思わないよね、はい自分でもそう思います。

    さて当日はライトニングトークという名のもと、1人に与えられた時間は2分という、941さんがこの話聞いたらどんな顔するだろうという持ち時間であり、資料もタイトル+1枚の最大2枚ということでほぼほぼ当日はトークのみで語っていたこともあり、当日の内容とその後の補足をブログでまとめておきます。

    ビデオ会議の音声を録音できる「BOYA Notra」

    ガジェット視点での生成AIはいろいろテーマがありますが、今回絞ったのは録音について。ライターであればインタビューの内容を録音して文字起こしするというのは当たり前だとは思いますが、かの有名な「Garbege In, Garbage Out」のごとくゴミを入れるとゴミしか出ない、つまり文字起こしするにはインプットする音声の品質も高くないとアウトプットの品質も高くならないよね、というのが本プレゼンの趣旨です。

    録音のシチュエーションはオンラインとオフラインの2つに分類。オンラインについてはさまざまなビデオ会議サービスが録音や文字起こし機能を提供しているのですが、この機能が主催者側にしか提供されておらず参加側は主催者が共有してくれないと受け取れないのが課題。生殺与奪の権を他人に握らせてはいかんよね、ということで、参加者側でも録音するための方法です。

    パソコンだけでもOBSというソフトを使えば録音は可能なのですが、設定を間違えると録れなかったり、そもそものビデオ会議で音が出ないなどのトラブルもあり得るので、ここは外部機材に任せたい、ということで今回提案したのがBOYAの「BOYA Notra」です。

    BOYA Notra
    https://store.boyamic.com/ja-jp/products/notra

    会議を録音するガジェットはPlaudをはじめとして他にもあるのですが、BOYA Notraの面白いところはビデオ会議の音声も録音できるところ。ビデオ会議をするPCやスマートフォンとUSBケーブルでつなぎ、そしてBluetoothイヤフォンをBOYA Notraとペアリングすることで、自分の声も相手の声も録音することができます。Bluetoothイヤフォンでのやりとりをバイパスするイメージですね。

    利用イメージ

    ただこれ実際にやってみるといくつか課題があり、1つは音声品質が落ちること。イヤフォンにもよるのかもしれませんが、あまり音質気にしない私ですが明らかに相手の音質が下がって聞こえました。

    そしてもう1つは不安定なことで、会議の最初は問題なかったのに途中で音が聞こえなくなることが何度かありました。自分が使っているイヤフォンがマルチポイント対応(複数の機器に同時接続できる)のせいな可能性もありますが、スマートフォンに一切触っていないのに音声がきれてしまったのはちょっと不安。

    ということで実用面ではまだ課題を残すもこの先のアップデートで改善されることを期待しつつ、ビデオ会議の音声を自分で録音しておくというのはこれから1つ大事な視点になると思っています。プライバシーの問題も十分に含みますが。

    BOYA Notraはほかにも「通話音声を録音する」なんて機能もあるのですが、何度か試しているもののあまりうまくいかない。骨伝導使っているという話をどこかで見たのですが、単に漏れ聞こえる音を録音しているだけに見えるんだよなー。そしてオーディオグラスで電話のやりとりする私としてはよほどのことがない限りこの機能の出番はなさそう。

    さらに余談ですが「文字起こしをクラウドにアップロードしたくない」という人向けに、BOYA Notraはローカルで録音してクラウドを使わないという設定もあります。録音だけしておいて文字起こしは自分の好きなサービスなりローカルLLMを使うなども選択肢としてはありですね。

    なおモバイル性を考えないなら据え置きの「ZOOM P4」シリーズも便利。こちらも自分の声と相手の声を録音できます。ただしこの場合は自分の声を自分で聴く仕様なのでその点はご注意を。自宅や仕事場で使う場合はつなぎっぱなしにできるP4シリーズもおすすめです。

    PodTrak P4next | ZOOM
    https://zoomcorp.com/ja/jp/podcast-recorders/podcast-recorders/podtrak-p4next/

    録音、LINE IN、USBマイクと多彩な機能を持つ「ZOOM H2essential」

    もう1つの対面録音、こちらもBOYA Notraでまかなえるものの、こちらは新たなガジェットとして「ZOOM H2essential」をご提案。なお当日も説明しましたがビデオ会議のZoomとは別物ですし、なんならZOOMとZoomは裁判で争ってZOOMが勝利しています。

    H2essential | ZOOM
    https://zoomcorp.com/ja/jp/handheld-recorders/handheld-recorders/h2essential/

    こちらはいわゆるICレコーダなのですが、ポイントとしてはマイクを複数搭載しており、さまざまな録音が可能なこと。対面に座った場合は対面の人だけをターゲットにしたり、または向かい合わせ120度を録音対象にすることができる。会議室などで話し手が複数いる場合も、テーブルの中央に置けば全体の音を高音質に録ることができます。

    自分側と相手側、それぞれ120度から単一方向まで3種類の方向を設定できる

    イベント当日は「最近のスマートフォンは音質がいい」という指摘もあり、実際その通りなのですが、こういう専用デバイスのメリットは「スマートフォンではないこと」にあります。録音の時にスマートフォン使っちゃうと当然ながらその間はスマートフォンが使えない。録音の頻度が高いとスマートフォンのバッテリーも消費するので、こういう専用デバイスを持つのも手です。

    ただ、ZOOM H2essential、通称H2eを推す理由はこれ以外にももいくつかあります。

    1つはLINE INとLINE OUTの端子があること。イベントなどでミキサーを使っている場合、そのミキサーから音をもらうことでより高品質の音声を録音できます。スピーカーから出る音よりも前の生音源もらえるのでこれは音質面では本当にお勧め。ただしミキサーによってアウトの端子が違うので、実際に使う場合はミキサーの利用可否に加えて、ミキサーのアウトがどの端子形状かを確認する必要がありますのでご注意を。

    LINEでイベントの音を生録り

    そしてもう1つはUSBで接続することでH2eをPCのUSBマイクとしても使えること。ビデオ会議ではマイクの品質も重要で、相手のマイク品質が低いと録音以前に何言ってるか分からないということも多々あるのですが、H2eを持ち歩いていればセッティングの手間はあるものの高音質のUSBマイクとして活用できます。なお私はそのためにH2eとUSBケーブル、三脚、さらにH2eと接続できるピンマイクも持ち歩いています。

    こういうことしているからかばんが重くなる一方

    なお高音質という点ではメリットの大きいH2eですが、難点は音声ファイルがWAV形式なのでそのままアップロードして文字起こしするのが難しく、MP3などに変換する必要があること(後述しますがアップデートでMP3録音も対応)。私の場合はAudacityを使ってMP3変換するついでにバックグラウンドノイズも処理していますが、そもそも録音ファイルを取り出したりという手間を考えるとスマートフォンで録音するというのも判断としてはあり。

    このあたりはいい悪いというより何にこだわるか。料理と同じで素材にこだわればこだわるほど手間はかかるし、その手間考えたらオイシックスの料理キットも十分おいしいし、というのは各自の使い方によって決めるといいかなと。ただより音質を追求するならこういう選択肢もあるよ、ということが伝われば十分です。

    なお、会場で雑音について質問があった際、「下位モデルのH1essentialはAIノイズリダクション機能が搭載されたのにH2eにはない」と愚痴をこぼしていたのですが、なんと実はAIノイズリダクションだけではなくMP3での録音機能を追加するアップデートが提供されていました。プレゼン内容考えている時に念のため仕様をチェックしてたんだけどタッチの差で公開されていたっぽい。

    というわけでH2e使う人はもれなくV2.0にアップデートしておきましょう。いやこれ神アップデートだわ。

    最後のまとめですが音声品質は良ければ良いほど文字起こしの精度も上がるのですが、ファイルを取り出す手間や変換の手間などもトータルで考えるのが大事。

    料理で例えるなら美味しい料理のためには素材も大事だけど調理法も大事、とはいえ究極かつ至高の生成AI活用のためには素材の手間は惜しまないのが美味しんぼ道ではあります。

    とはいえあの山岡士郎も社内で食べる年越し蕎麦にうまいのまずいのケチをつけたりはしないくらいの度量は持ち合わせているので、みなさまもケースバイケースで用途に合わせて生成AIにガジェットをご活用くださいませ。