技術や仕組み

15 ”発言を資産化する仕組み”をAIで作ってみた(後編)

15 ”発言を資産化する仕組み”をAIで作ってみた(後編)
監修者情報
監修者アイコン
蕏塚 昌大

大学院では物理学の国際共同実験に携わり、機械学習を活用したソフトウェアモジュールを開発。2017年に新卒として株式会社SHIFT SECURITYに入社。標準化エンジニアとしてWebアプリケーションやクラウドの診断をはじめとする各種セキュリティ診断サービスの標準化を推進。週末は庭の雑草抜きに勤しむ。好きな言葉は「根こそぎ」。

前回の記事で紹介した、AIを使って発言を資産化する以下のプロセスについて、実際に作ってみることにした。

  • (1)音声をマイクで拾う
  • (2)文字起こし
  • (3)文字起こしデータを定期的に要約
  • (4)イメージ画像を生成
  • (5)要約とイメージ画像を組み合わせてスライドにまとめる

文字起こしまでは、参考記事のおかげでほぼ順調にできたが、
マイク入力をいいタイミングで区切るためには工夫が必要だった。

特に講習の現地では、講師の声だけでなく生徒のヒソヒソ話まで入ってきて、おかしな入力が増えてしまった。
パラメータのチューニングなどいろいろな手を試したが、
結局、ラップトップに付随している指向性マイクを入力ソースに選ぶのが一番効果的だった。

文字起こしの結果を受け取ってGoogleスプレッドシートに記録するプログラムは、
ChatGPTの力を借りながらGoogle Apps Script(GAS)で実装した。
このプログラムを呼び出すためにGCPのApps Script APIを使っている。

スプレッドシートの各行には、細切れな音声の文字起こしが入っている。
講習の初めから終わりまですべての文字起こしが含まれているが、
特定のテーマの要約を作るなら、それについて話している間の文字起こしだけが欲しい。
そのため、選択した行範囲を取得して、その範囲の文字起こしをテキスト結合する関数を用意した。

結合されたテキストには、精度がまちまちな文字起こしも入っている。
そこで、こんなプロンプトで要約を作ってもらった。

「発言」は録音から音声認識技術によって文字起こししたテキストです。
誤植があることも踏まえながら、内容を箇条書きの形式で要約してください。

#発言:
"""
文字起こしのテキスト
"""

出力結果はこんな感じだ。(一部省略・改変)

- 会議またはセミナーに関する発言が含まれている。

- 発言の対象にはセッションID、CVSS、リスク、改ざん、OWASP、SS、およびクリックジャッキングに関連するセキュリティ用語が繰り返し出ている。

- ココナッツが甘いという雑談も含まれている。

- 「もう言ってないところはありますか?」と発言者が問いかける部分がある。

- 視聴者に対してフォローボタンを押すように促す発言が二度ある。

講習の内容を要約できているかはまだ微妙だが、流れを作ることはできた。

この後にイメージ画像の生成に進むはずだったが、残念ながらここでタイムオーバー。
よって、”講習で話していることが自動で文字起こし”され、
”特定のテーマについての会話の範囲を選択すると話の要約が生成される”ところまで仕組み化ができた。

今回の講習でも使ってみたが、実用的なものにしていくには精度や仕組みにまだまだ課題がある。
しかし、これを洗練していければ、口頭の会話を有効に資産化して再利用していく流れができると感じた。

次の話 16 ラジオの制作をAIに任せてみた

生成AI活用システムの脆弱性診断はSHIFT SECURITYにお任せください

生成AI活用システムの脆弱性診断

ChatGPT等の生成AIを活用した
システム固有のセキュリティリスクを可視化します

生成AI活用システム診断ページはこちら
\ 記事をシェアする /

こちらの記事もおすすめ

Contact

お見積り・ご相談など、お気軽にご相談ください

ご相談・ご質問はこちら

お問い合わせ

お見積り依頼はこちら

お見積り依頼

資料請求はこちら

資料請求

お電話でのご相談はこちら
(平日10:00~18:00)

TEL.050-1707-3537
サイトTOPへ