現役のITエンジニアが、 システム開発の現場で求められる知識を発信
記事検索
公開

AI議事録のしくみ

生成AI関連

はじめに

AI議事録ツールは、この数年で急速に進化してきました。
以前は、会議内容をそのまま全文文字起こしする「音声認識(Speech-to-Text: STT)」中心のツールが主流でしたが、現在ではいわゆる生成AI(Large Language Model: LLM)を活用し、発言内容を整理・要約した実用的な議事録を自動生成できるツールも増えています。
決定事項や議論の要点をまとめたり、タスクを整理したりと、実用的なレベルまで到達しているのが、現在のAI議事録ツールの特徴です。

本記事では、

  • AI議事録がどのような仕組みで動いているのか
  • どこが得意で、どこに課題があるのか

これらを技術的な観点も交えながら整理していきます。

AI議事録の主なツールとその違い

AI議事録ツールは、大きく次の2つのタイプに分類できます。

会議ツール内蔵タイプ

Google Meet、Zoom、Microsoft Teams などに代表されるもので、会議ツール自体にAI文字起こしや録音・録画機能が入っているタイプです。
追加ツール不要で、会議内でワンクリックで記録・文字起こしすることができます。

メリット

  • 追加ツールを導入せず、すぐに利用できる
  • 参加者の同意・セキュリティがクリアしやすい

デメリット

  • ホスト(主催者)側でしか使えない可能性がある
  • 会議ツールの仕様に制限される

サードパーティタイプ

会議ツールに関係なく、”スピーカーの音声を録音”する、もしくは“ボットを会議に参加させる”ことで、録画・文字起こし・AI要約を行うツールです。
会議ツールに依存せず、同じワークフローで使うことができます。

メリット

  • 会議ツールに依存せず、同じUXで利用ができる

デメリット

  • 録音型の場合、スピーカーから音を拾うので、音声認識の品質が落ちやすい
  • Bot型の場合、会議にBotを参加させる必要があるため、他の参加者から警戒・NGとされやすい

どのタイプが適しているかは、「どのような形式の会議(オフライン、オンライン、社内ミーティング、顧客打ち合わせなど)で、どのツールを使うのか」によって変わってきます。
導入する際は、自社のミーティング事情を踏まえ、どのタイプが合っているのかを考えるのが大切になります。

AI議事録の仕組み

さて、AI議事録作成までの大まかな仕組みを見ていきましょう。
AI議事録は、大きく「音を聞く部分」と「内容を整理する部分」に分けて考えることができます。
精度の限界を知るには、この役割分担の理解が不可欠です。

なお、本記事でご紹介する仕組みは、あくまでも一般的なものとなっています。
ツールによっては、本記事で紹介している以外の手法を採用しているものもありますので、あらかじめご了承下さい。

全体の流れ

大きくわけて、「耳」の役割をするAI(STT)と、「脳」の役割をするAI(いわゆる生成AI、LLM)の2つの異なるAIが連携して作られています。
議事録AIの精度は、SST、LLMそれぞれの精度に依存します

  1. 会議の音声データを取得する
  2. 音声認識や話者分離をするAI(STT)が文字起こしを行う
  3. 内容整理・要約をするAI(LLM)が議事録の形に整理する
  4. 議事録の完成

AI議事録作成の仕組み

AI議事録作成の仕組み。Nano Banana Proで生成。

なお、ツールによって

  • 音声の文字起こしデータのみを提供するもの
  • 議事録形式まで一貫して生成するもの

といった違いがあります。

STTにおける課題

STTには、下記に示すように、2つの課題があります。

1. 「誰が」話しているか(話者分離)

話者分離(Speaker diarization)とは、音声データから「いつ、誰が話したか」を自動で特定し、発話区間と話者ラベル(例:話者A、話者B)を割り当てる技術です。
アプリケーションによって、話者分離の方法が異なります。

話者分離の方法

話者分離の方法。Nano Banana Proで生成。

この話者分離は、AI議事録の品質を大きく左右する要素です。

システムでの話者分離をする(AIを使わない)

これは、Google Meet、Zoom、Microsoft Teams などの会議ツール内蔵タイプによく見られる手法です。
AIを利用せずに、アカウント情報から話者を特定します。
AIは音声からテキストに変換するだけです。

  • 話者の識別精度が高い
  • 人物名まで特定できる(佐藤、山田など)

というメリットがある一方、

  • 1つのマイクで複数人が話しても、同一人物だとみなされてしまう

というデメリットもあります。

AIで話者分離をする

これは、サードパーティタイプに多く見られる手法です。
AIが音声からテキストに変換する際に、音声波形の特徴から、話者の違いを特定します。

  • マイク共有や、オフラインミーティングでも対応できる

という点はメリットですが、

  • 話者分離の精度がシステム分離よりも悪い
  • 人物(名前)特定が難しい(Aさん、Bさん など匿名となる)。人物名とリンクさせるには別途データが必要

など、システムで分離する場合に劣るケースもあります。 

話者分離が不十分だと、

  • 誰の発言なのか分からない
  • 決定事項の責任者が曖昧になる

といった問題につながるため、ツール選定時に重視したいポイントです。

2. 「何を」話しているかの判断の難しさ

重要なポイントとして、音声認識AIは発言の意味を解釈しながら聞いているわけではありません
音声認識AIは、音声の特徴や前の文脈を考慮しながら、最も整合性の高い文字列を確率的に推定しています。
ただし、ここでいう文脈とは音声や文字の並びとしての整合性であり、発言の意味を理解しているわけではありません。
そのため、

  • 似た音の単語
  • 同音異義語
  • 初めて出てくる専門用語や社内独自の用語

といった要素は、音声認識の段階で誤認識されやすくなります。

この、何を話しているか、の聞き取り精度は非常に重要です。
ここで聞き間違えが多くなると、後段の議事録作成作業に大きく影響があるためです。

特に専門用語/独自用語については、AIが学習データとして持っていないケースがほとんどであるため、完全に対応するのは困難です。
対策としては、

  • 音声認識モデル自体の改善・チューニング
  • 後段のLLMによる文脈補正
  • 両者を組み合わせたアプローチ

などが考えられます。
この点については、別の記事でご紹介できればと思います。

まとめ

本記事では、AI議事録の基本的な構造と課題について整理しました。
AIが議事録を作成する流れとしては、音声認識(STT) → 生成AI(LLM)というAIの2段階利用が主流となっています。
また、ツールによってどこまでがアウトプットされるかが変わってきます。

そのため、

  • どこまでを自動化したいのか
  • どの工程の精度を重視するのか

これらを意識することで、自社に合ったAI議事録ツールを選びやすくなると思います。
是非参考にしてみて下さい。

生成AI活用支援サービスのご紹介

Tech Funでは、お客様のフェーズに合わせ、生成AI活用に向けた支援を3つのパックでご提供しています。

  1. 無料診断パック:業務・プロセスの現状を無料で診断し、生成AI活用の可能性をレポートします。
  2. 検証(PoC)パック:診断で有効性が確認された業務を対象に、プロトタイプ構築を支援します。
  3. コンサルティングサービス:生成AI導入戦略の策定から運用体制構築までを包括的に支援します。

生成AIに限らず、Web・業務システム開発やインフラ設計など、技術領域を問わずご相談を承っています。「何から始めれば良いか分からない」という段階でも構いませんので、ぜひお気軽にお問い合わせください。

執筆・編集

Tech Fun Magazine R&Dチーム
Tech Funの生成AI研究に携わるエンジニアが、最新のAIモデル動向やプロンプト設計、実業務への応用手法など、生成AIに特化した知見を執筆・編集しています。
モデル評価や業務シナリオに応じたAI活用設計など、日々のR&D活動で得られる実践的なノウハウをわかりやすく紹介します。

ARTICLE
生成AI関連記事一覧

生成AI関連

AI議事録のしくみ

生成AI関連

「良いプロンプト」はAIに作らせよう

生成AI関連

生成AIの“知識の限界”をどう突破する?

生成AI関連

GPT-5.2 徹底解説

生成AI関連

MCPサーバーを活用する【後編:実行編】

生成AI関連

生成AIに機密情報を渡していいの?

生成AI関連

MCPサーバーを活用する【前編:自作編】

生成AI関連

小さく始める生成AI活用

記事一覧を見る