BLOG

AIにおける最先端の情報をお届けします。

  1. HOME
  2. ブログ
  3. お役立ち情報
  4. RAGにする方法を徹底解説!PDFを活用する際の最適な構成とは?

RAGにする方法を徹底解説!PDFを活用する際の最適な構成とは?

RAGは、AIが情報を検索してから生成することで、より正確で有益な回答を提供します。本来検索を自力で行わないLLMに追加情報を与え臨んだ出力をさせることができます。この記事では、RAGを実現する方法と、RAG作成においてPDFを効果的に使用するための最適な構成について解説します。

実はRAGにする方法はいくつかある!

RAG(Retrieval-Augmented Generation)を実現するためには、いくつかの方法があると知られています。基本的には、過去に学習された情報源を検調べてからその情報をもとにAIが回答を生成しますが、どの情報源を使うか、どのように検索するかによって、RAGの実装方法が異なります。よく使われる手法として単語や文字を意味的な数値としてベクトル化して表現します。検索エンジンはベクトル化された情報の中から関連性が高いものを検索して引っ張ってくるのです。このセクションでは、RAGにする方法を幾つか解説します。

  1. PDFやテキストデータのベクトル化;
    PDFやテキストデータをベクトル化することで、検索エンジンとして機能するようになります。ベクトル化は、テキストデータを数値のベクトル(埋め込み)に変換し、意味的に近いデータを効率的に検索できるようにする方法です。ベクトル化したデータをFAISSやPineconeのようなベクトルデータベースに保存し、検索を行いますOpenAI のtext-embedding-ada-002などのモデルを使ってベクトル化するのが一般的です。
  2. ウェブデータの活用;
    インターネット上のデータ(Webページ)を検索することでもRAGを実現できます。ChatGPTのブラウジング機能のように、AIがリアルタイムでWeb情報を検索し、必要な情報を集めて回答を生成します。Web検索ベースのRAGとも言われrequests + BeautifulSoupなどでスクレイピングをして要約した後直接LLMに渡します。経験談ですが800記事程度を4oでかけたらapi使用料金が1500円くらいです(精度を求めたため1記事2000文字)。
  3. 社内データベースの活用自社で管理しているデータベースや、専用のナレッジベースから情報を検索して回答を生成する場合もあります。これには、社内用の検索エンジンや、RAGのフレームワークを使って社内の情報にアクセスする仕組みを作成します。社内情報を活用したRAG型AIと言われます。PDF、Excel、Word、Notion、SharePoint、Confluenceなどをチャンク(分割)してベクトル化することで実現します。

PDFを使用する際の最適な構成

PDFは、RAGシステムの情報源として非常に有効です。一番簡単に作れますのでPDFデノ使いやすい形を解説します。以下の構成に従うことで、RAGシステムがPDFをより効率的に検索し、情報を引き出しやすくなります。このセクションにおいてはpdfの最適な構成について解説していきます。

  1. 目次(Table of Contents);
    PDF内で情報がどこにあるかを一目で把握できるように、目次を作成します。目次を使うことで、RAGシステムが情報源を素早く見つけることができ、効率的に検索できます。論文などでも目次は作ります。

    • 1章: はじめに
    • 2章: 業務フロー
    • 3章: FAQ
    • 4章: 用語集
    • 5章: 技術仕様
  2. 見出しとサブ見出しの活用(Headings/Subheadings);
    PDF内で見出しをしっかりと使い、情報を整理しましょう。これにより、AIが特定の情報を探しやすくなり、検索精度が向上します。これも論文内でも小節は作っていきますので慣れてる方には楽かもしれません。

    • 2.1. 手順 A
    • 2.2. 手順 B
    • 3.1. 仕様詳細
  3. キーワードの強調(Bold/Italics);
    重要なキーワードや情報を強調
    することで、AIがその部分に注目しやすくなります。特に「重要」「推奨」などの語句を強調しておくと、RAGシステムが正確な回答を生成する際に役立ちます。

    • 重要: この手順は必ず守ってください。
    • 推奨: このオプションを選択すると効果的です。
      単純に太文字にするということです。チャットGPTのブラウザを使ったことがある方はプロンプトに##や**重要**のように記入したことがあると思います。これはmd形式の強調でありpdf内でも同じような設定をしてあげます。
  4. 箇条書き・番号付きリスト;
    情報が多い場合、箇条書きや番号付きリストを使って整理しましょう。これにより、AIが情報を理解しやすくなり、質問に対する迅速な回答を生成できます。

    • 手順1: 問題を確認する。
    • 手順2: 必要な資料を収集する。
    • 手順3: 対応方法を決定する。
  5. 図表・イラストの挿入;
    複雑な情報を視覚的に示すために、図表やイラストを挿入します。RAGシステムが視覚的な情報を処理できるように、図には必ずキャプションを付け、内容が何を示しているかを明確にします。論文のようですね。

    • 図1: 業務フローの概要
    • 図2: システムアーキテクチャ
  6. ページ番号とセクション番号;
    ページ番号やセクション番号を付けておくと、RAGシステムが必要な情報をより効率的に検索できます。

    • はじめに (ページ1)
    • 業務フロー (ページ10)
  7. 用語集やFAQ;
    よく使われる専門用語やよくある質問(FAQ)をまとめたセクションを設けます。RAGシステムは、これらの情報をもとに、ユーザーの質問に迅速に対応できます。

    • API: アプリケーションプログラムインターフェース
    • SDK: ソフトウェア開発キット
  8. リファレンスや引用元の明記;
    他の資料から引用した情報がある場合、その出典を明記しておくことで、AIが正確な情報を基に回答を生成できます。

    • 引用元: 「XYZレポート(2024年)」、ページ23

RAGとPDFを活用する方法

RAGは、PDFをベクトル化して情報を検索する際に非常に効果的な仕組みです。PDFを適切に構成することで、RAGシステムがより効率的に情報を引き出し、ユーザーに正確な回答を提供できます。

これらのポイントを意識することで、RAGシステムをより効果的に活用することができます。PDFを上手に構成して次はベクトル化するだけです。次の記事でベクトルかについて詳しく解説しますのでよろしくお願いします。

執筆者情報

Honda Naoki Author Photo

本田 直輝(ALTAM-AIシステムズ代表)
AI技術スペシャリスト / 研究者 / 塾講師 / エンジニア
京都大学薬学部卒業。
AI技術に関する豊富な知識と実務経験を持ち、最新の技術動向を追い続ける。企業向けのAIソリューションを提供しており、RAG技術や生成AIなど様々なシステムの導入支援に携わる。また大学受験専門塾おるたむ営む

実績:

  • AIソリューション開発における経験
  • RAG技術を活用した企業向けコンサルティング
  • おるたむ塾塾長として活躍
  • 主要企業でのAI導入支援実績多数
  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

関連記事

月を選択