2025年6月24日火曜日

 Compliance Guard: Teams会議録音×AIで実現するハラスメント検出


はじめに


企業のリモートワーク環境が定着し、オンライン会議は日常業務の一部となりました。Compliance Guardでは全てのTeams会議の自動録音を提供しています。その導入時のカスタマイズとして、AIモデルを用いたハラスメント検出機能を用意しています。本記事では、Compliance Guardへの実装イメージを説明し、ハラスメント検出の手段として実装可能な3種類の方法を比較しています。


Compliance Guardへのカスタマイズ実装イメージ





音声・テキスト分析

文字起こし結果や音声データを送信し、ハラスメント検出結果を取得。


アラート通知・レポート出力:

ハラスメントが検出されたユーザにメッセージを送信

匿名化された集計レポートを管理者に提供


ハラスメント検出方法


1. 大規模言語モデルによる検出


特徴

会議の文字起こしテキストを検出用プロンプトと合わせて入力

メリット

文脈理解能力に優れるため、発言意図やニュアンスまで考慮可能

未知のハラスメント表現に対応しやすい

デメリット

検出指示のプロンプトも処理するため、処理が重い

AIモデル内の処理が不透明なため、ハラスメント検出の閾値調整が困難

入力例(一部省略)

ハラスメント判定対象文:”バカ”

ハラスメント度合:{Level}

理由:{Reasons}

出力例

Level = {4}

Reasons = {「バカ」という表現は、相手に対して持続的なストレスや不快感を引き起こす可能性があります。意図的でなくても不適切な言動と見なされるため、中程度のハラスメントに該当し、公式な注意や教育プログラムの参加が必要とされる内容です。}


2. テキスト分類モデルによる検出


特徴

会議の文字起こしテキストをテキスト分類モデルに入力

ハラスメントへの該当具合を数値で出力

メリット

数値出力のための危険度を定量的に評価できる

スコアの閾値を自由に調整可能で、アラートやレポートが実装しやすい

デメリット

学習データに含まれるパターン外の発言を検出できない場合がある

文脈全体を考慮するためには、発言間の関係性分析を別途実装する必要がある

入力例

テキスト: "バカ"

出力例

ハラスメント度合:1.5


3. 音声特徴量抽出モデルによる検出


特徴

音声信号そのものから抑揚、声の強弱、話速などの特徴量を数値化

メリット

言葉そのものでは検出しづらい感情的なトーンや怒気を捉えられる

テキスト化する際の誤認識を回避し、録音段階で解析が可能

デメリット

音質やマイク環境に依存しやすく、ノイズ処理など前処理が重要

ハラスメントと抑揚を結び付ける調整が追加で必要

入力例

音声ファイル : {"バカ"発言が録音された音声ファイル}

出力例

ハラスメント度合:1.5


大規模言語モデルとテキスト分類モデルの比較


 両モデルは類似のテキスト入力が想定されているため、精度比較を行いました。前提として、検出対象テキストはハラスメント関連裁判例から取得し、分類モデルは理想的閾値下で評価しました。
 結果は以下の表のとおり、GPT-4o miniは36サンプル中34正解(94.4%)、BERTモデルは37中32正解(86.4%)でした。モデル規模は8 B対0.1 Bと約80倍の差があるものの、正答率/パラメータ効率は約11.8%対864%と小規模モデルの効率性が顕著に表れています。しかし、二標本比率検定の結果(z≈1.15,p≈0.25)から有意差は認められず、小規模テストでは結論に慎重を要します。



 リソース余裕時には高精度なGPT-4o mini、コスト制約下ではBERTモデルが実運用に適すると考えられ、今後はサンプル数増加による統計的検証を予定しています。


おわりに

Compliance Guardでは、AI技術を組み合わせることで、オンライン会議のハラスメントリスクを検出可能です。お客様のニーズに応じたカスタマイズが容易であり、貴社のコンプライアンス強化と職場環境向上に貢献します。