ナレッジストアでRAGを実現する

· 操作方法

生成AIをふつうに使うと、公開されている情報をもとに学習したモデルから文章を生成するので、公開されている情報での文章しか生成されません。

企業などで使用する場合、自らの企業だけが保有する情報を交えた文章を生成したいことが多いでしょう。その際に活用するのがRAGという方法です。

Gen2Goでは、ナレッジストア機能を使用するとRAGを実現することができます。

broken image

画面左のメニューから「ナレッジストア」をクリックし、画面右上の「ナレッジストアを追加」をクリックします。

broken image

まず、ナレッジストアを新規作成します。ナレッジストア名の入力と、埋め込み用モデルを選択して「保存」をクリックします。埋め込み用モデルはデフォルトのtext-embedding-3-largeのままで良いでしょう。

broken image

次に、ナレッジストアに文書を追加します。Gen2Goでは、下記の文書を追加することができます。

  • テキスト
  • Webページ ・・・URLを指定して1つのページのみを追加します
  • Webサイト(サイトマップ) ・・・サイトマップがあれば、複数のWebページをまとめて追加できます
  • CSVファイル
  • PDF/オフィスファイル ・・・オフィスファイルはdocx / pptxに対応しています

文書を追加した後、ステータスが「処理待ち」→「処理中」→「成功」と順に推移します。適宜、ページの再読み込みをして確認してください。

ナレッジストアをプロンプトに紐付け

作成したナレッジストアをプロンプトに紐付けることによって、そのプロンプトでの文章生成にナレッジストアに追加した文書が活用されるようになります。

broken image

ナレッジストアを使用した文章生成を行いたいプロンプトの編集画面を開き、画面上の「ナレッジストア」タブをクリックします。

ナレッジストア使用設定の「ナレッジストア」のプルダウンから、使用するナレッジストアを選択します。

その他、下記の項目を設定できます。

  • 取得件数 ・・・ナレッジストアから最大何件のデータを文章生成に使用するかを指定します
  • リランク後の取得件数 ・・・リランク機能を使用すると、ナレッジストアから指定した取得件数のデータを取得した後に生成AIを活用した並べ替えを行い、質問によりマッチするデータを使用するようになります。リランクを行う場合は1以上の値を指定し、ここで指定した件数のデータを文章生成に使用するようにします
  • 検索エンジン ・・・先行公開ユーザーのみ使用可能です
  • ハイブリッドサーチを使用する ・・・ナレッジストアからのデータ取得は文章のベクトルデータの類似によって行われますが、それと合わせてキーワードマッチでの取得をハイブリッドで行うことができます。この機能をONにすると、ハイブリッドでの取得を行います

ナレッジストアに追加された文書は、1ファイル(1URLなど)が1つのデータになるのではなく、適切な長さで分割された文字列を1つのデータとしています。そのため、例えば100ページのPDFファイルを文書として登録しても、関係性が高いと思われる部分のみが文章生成に使用されます。