0%

ILU 言語理解研究所

データ構造化ソリューション

社内に蓄積された文書や書類などの非定型なデータを構造的なデータに整理し、AIの知識に変換します。

そのデータを基にAIが学習することで、高い精度を保つことができます。

企業が本格的に生成AIを活用するためには

社内には、PDFやドキュメントなど、さまざまな形式の文書が存在します。
その多くは「非構造的データ」と呼ばれ、書式や構造が定まっていないため、AIにとっては扱いづらい状態です。
近年のAIは、ある程度の自然言語を理解できるようになりましたが、非構造的なデータをそのまま処理するには不十分です。
これらの文書を活用するには、まず非構造的データを整理し、AIが理解しやすい形に変換(構造化)する必要があります。

データ構造化ソリューション

  • 日本語特化型のトークナイザー
  • 人手による知識構築
  • 日本語の大規模言語DB(辞書)
  • 高いカスタマイズ性
  • 独自の自然言語処理技術
  • 細やかな改善・チューニング

データ構造化ソリューションによる検索精度の向上施策例

図表やグラフ、画像のテキスト化

  • テキスト抽出
  • Markdown記法化
  • Mermaid記法化

高度なテキストアノテーション

  • メタデータ付与(品詞・分野等)
  • 文脈理解(意味・意図・感情)
  • 固有表現・専門用語の理解

ドキュメントと質問文(クエリ)の
マッチング精度向上

  • 文脈理解によるチャンキング
  • 質問文の意図理解
  • 同義語・類義語拡張

例1:画像からのテキスト抽出・Markdown化

データ引用元: ILU社内資料

自動変換

1. 対話エンジン:
 - 対話意図13万種類
 - 標準応答文34万文
2. 文生成エンジン(詳細なデータ記載なし)
3. 感性分類エンジン:
 - 感性81分類(420億パターン)
 - 細分化分類14種類
 - ヘルスケア分類41分類
4. 話題分類エンジン:
 - 話題980分類(22億パターン)
5. 地域分類エンジン:
 - 地域256分類
6. 重要表現抽出エンジン:
 - キーワード種別36種類
7. 不適切表現抽出エンジン:
 - 不適切表現3種類(3,700万パターン)
8. 格構造解析エンジン(詳細なデータ記載なし)
9. 形態素解析エンジン:
 - 基本単語1,300万語
 - 企業名・組織名41万語
 - 商品名・著作物名30万語
 - ヘルスケア単語30万語
 - 品詞906種類
 - 単語概念7.6万種類

例2:グラフからのテキスト抽出・Markdown化

自動変換

表のタイトル: 売上高・調整後営業利益の状況
各項目の2023年5月期通期実績、2024年5月期通期実績、前年同期増減額、増減率は以下の通りです:
1. 売上高
 2023年5月期: 25,510百万円
 2024年5月期: 33,878百万円
 増減額: +8,368百万円 (+32.8%)
2. 売上原価
 2023年5月期: 3,683百万円
 2024年5月期: 5,064百万円
 増減額: +1,380百万円 (+37.5%)
3. 人件費
 2023年5月期: 8,349百万円
 2024年5月期: 11,456百万円
 増減額: +3,107百万円 (+37.2%)
4. 広告宣伝費
 2023年5月期: 3,306百万円
 2024年5月期: 3,934百万円
 増減額: +627百万円 (+19.0%)

例3:フローチャートからのテキスト抽出・Mermaid化

自動変換

**① 個人事業主向け (小規模に限る)**
A[要件] –> B{売上高5%以上減少なら}
A –> C{売上の減少幅に関係なく}
A –> D{スタートアップ・再生支援等}
B –> E[実質無利子]
C –> F[貸付]
D –> G[資本性劣後ローン]
E –> H(お近くの民間金融機関
(セーフティネット保証5号))
E –> I(日本政策金融公庫
(コロナ特別貸付))
E –> J(商工組合中央金庫等
(危機対応融資))
F –> K(日本政策金融公庫
(セーフティネット貸付))
G –> L(日本政策金融公庫
(コロナ資本性劣後ローン))
H –> M((概要))
I –> N((概要))
J –> O((概要))
K –> P((概要))
L –> Q((概要))

高度なテキストアノテーションによるマッチング精度向上

前処理例 内容
メタデータ付与(分野・地域) テキストの構造や内容を解析し、分野や地域といった属性情報を付加。
  • 分野(980種類)
  • 地域(256分類)
文脈理解(意味・感情) 文脈(コンテキスト)を考慮してテキストに表れていない情報を解析・付加。
  • 話題(980分類23億パターン)
  • 感性(81分類663億パターン)
固有表現・専門用語の理解 テキスト中の固有表現や専門用語を識別。その意味や関係性などを理解。社内用語や略語なども含む。
文脈理解によるチャンキング 品詞(名詞句や動詞句)や文脈の意味ごとにテキストを一定の単位で分割。
  • 品詞(920種類)
質問文の意図理解 質問の形式や内容から質問者の本当の意図(背景や期待)を解析・付加。
  • 対話意図(19万5000種類)
同義語・類義語拡張 テキストにある単語や表現を、文脈を理解した上で適切な同義語・類義語で言葉を拡張。
  • 単語概念(8.8万語)

国内最大規模の言語データベース

国内最大規模の言語データベースを保有しているからこそ、高度なテキスト選別が可能になります。

カスタマイズ開発により、
個社に最適化された基盤を構築

  • 企業が保有するデータ

    図表、PDF、動画、音声のドキュメント類

  • ソリューション

    社内特有の固有表現、略称、言い回し等の辞書を構築

    個社最適化カスタマイズ型「laei」+「laei」の標準基盤
  • AIが扱える知識

    企業の蓄積された社内情報をAIが「知識化」

構造化により構築された、AIの「知識」の良いところ

  • 比較的低コストで成果が出る

    RAGの精度改善には多くのテクニックが生まれていますが、検索データベース部分の「前処理」は確実に成果が出ます。かつ、自然言語処理技術を用いることで、低コストで取り組むことが可能です。

  • 既存業務の変更は不要

    既存業務にて作成・運用されている文書や書類を変換する仕組みであるため、既存業務の変更が不要で、スイッチコストは発生しません。

  • 陳腐化しない

    生成AIは日進月歩で新しいモデルが誕生しますが、知識化された社内データはそのまま利用が可能。継続的に蓄積していくことで、AI時代の競争優位性に確実につながります。

AI時代の競争力向上へ

企業内に蓄積された情報を知識に変換し、AI時代の競争優位性につなげます。