データ構造化ソリューション「DX-laei」

社内に蓄積された文書や書類などの非定型なデータを構造的なデータに整理し、AIの知識に変換します。 
そのデータを基にAIが学習することで、高い精度を保つことができます。

企業が本格的に生成AIを活用するためには

社内には、PDFやドキュメントなど、さまざまな形式の文書が存在します。
その多くは「非構造的データ」と呼ばれ、書式や構造が定まっていないため、AIにとっては扱いづらい状態です。
近年のAIは、ある程度の自然言語を理解できるようになりましたが、非構造的なデータをそのまま処理するには不十分です。
これらの文書を活用するには、まず非構造的データを整理し、AIが理解しやすい形に変換（構造化）する必要があります。

データ構造化ソリューション
「DX-laei」

日本語特化型のトークナイザー
人手による知識構築
日本語の大規模言語DB（辞書）
高いカスタマイズ性
独自の自然言語処理技術
細やかな改善・チューニング

01 構造化により、検索・情報取得の精度を向上
02 データ構造化ソリューションによる検索精度の向上施策例
03 高度なテキストアノテーションによるマッチング精度向上
04 国内最大規模の言語
データベース

構造化により、検索・情報取得の精度を向上

AIの検索を強化する「RAG（Retrieval-Augmented Generation）」を用いて、情報を構造化。
検索データベースに情報を格納します。

データ構造化ソリューションによる検索精度の向上施策例

図表やグラフ、画像のテキスト化

テキスト抽出
Markdown記法化
Mermaid記法化

高度なテキストアノテーション

メタデータ付与（品詞・分野等）
文脈理解（意味・意図・感情）
固有表現・専門用語の理解

ドキュメントと質問文（クエリ）の
マッチング精度向上

文脈理解によるチャンキング
質問文の意図理解
同義語・類義語拡張

例1：画像からのテキスト抽出・Markdown化

データ引用元： ILU社内資料

1. 対話エンジン：
　- 対話意図13万種類
　- 標準応答文34万文
2. 文生成エンジン（詳細なデータ記載なし）
3. 感性分類エンジン：
　- 感性81分類（420億パターン）
　- 細分化分類14種類
　- ヘルスケア分類41分類
4. 話題分類エンジン：
　- 話題980分類（22億パターン）
5. 地域分類エンジン：
　- 地域256分類
6. 重要表現抽出エンジン：
　- キーワード種別36種類
7. 不適切表現抽出エンジン：
　- 不適切表現3種類（3,700万パターン）
8. 格構造解析エンジン（詳細なデータ記載なし）
9. 形態素解析エンジン：
　- 基本単語1,300万語
　- 企業名・組織名41万語
　- 商品名・著作物名30万語
　- ヘルスケア単語30万語
　- 品詞906種類
　- 単語概念7.6万種類

例2：グラフからのテキスト抽出・Markdown化

データ引用元： Sansan株式会社 2024年5月期通期決算説明資料

表のタイトル: 売上高・調整後営業利益の状況
各項目の2023年5月期通期実績、2024年5月期通期実績、前年同期増減額、増減率は以下の通りです：
1. 売上高
　2023年5月期: 25,510百万円
　2024年5月期: 33,878百万円
　増減額: +8,368百万円 (+32.8%)
2. 売上原価
　2023年5月期: 3,683百万円
　2024年5月期: 5,064百万円
　増減額: +1,380百万円 (+37.5%)
3. 人件費
　2023年5月期: 8,349百万円
　2024年5月期: 11,456百万円
　増減額: +3,107百万円 (+37.2%)
4. 広告宣伝費
　2023年5月期: 3,306百万円
　2024年5月期: 3,934百万円
　増減額: +627百万円 (+19.0%)

例3：フローチャートからのテキスト抽出・Mermaid化

データ引用元：経済産業省ウェブサイト「中小企業向け資金繰り支援内容一覧表」（2023年7月27日時点）

**① 個人事業主向け (小規模に限る)**
A[要件] –> B{売上高5%以上減少なら}
A –> C{売上の減少幅に関係なく}
A –> D{スタートアップ・再生支援等}
B –> E[実質無利子]
C –> F[貸付]
D –> G[資本性劣後ローン]
E –> H(お近くの民間金融機関
(セーフティネット保証5号))
E –> I(日本政策金融公庫
(コロナ特別貸付))
E –> J(商工組合中央金庫等
(危機対応融資))
F –> K(日本政策金融公庫
(セーフティネット貸付))
G –> L(日本政策金融公庫
(コロナ資本性劣後ローン))
H –> M((概要))
I –> N((概要))
J –> O((概要))
K –> P((概要))
L –> Q((概要))

高度なテキストアノテーションによるマッチング精度向上

前処理例	内容
メタデータ付与（分野・地域）	テキストの構造や内容を解析し、分野や地域といった属性情報を付加。分野（980種類）地域（256分類）
文脈理解（意味・感情）	文脈（コンテキスト）を考慮してテキストに表れていない情報を解析・付加。話題（980分類23億パターン）感性（81分類663億パターン）
固有表現・専門用語の理解	テキスト中の固有表現や専門用語を識別。その意味や関係性などを理解。社内用語や略語なども含む。
文脈理解によるチャンキング	品詞（名詞句や動詞句）や文脈の意味ごとにテキストを一定の単位で分割。品詞（920種類）
質問文の意図理解	質問の形式や内容から質問者の本当の意図（背景や期待）を解析・付加。対話意図（19万5000種類）
同義語・類義語拡張	テキストにある単語や表現を、文脈を理解した上で適切な同義語・類義語で言葉を拡張。単語概念（8.8万語)

国内最大規模の言語データベース

国内最大規模の言語データベースを保有しているからこそ、高度なテキスト選別が可能になります。

対話意図
19万5000種類
ヘルスケア分類
41分類 30万語
キーワード種別
36種類
企業名・組織名
52万語
商品名・著作物名
45万語
話題
980分類
23億パターン
不適切表現
3種類
5000万パターン
感性
81分類
663億パターン
標準応答文
47万文
地域
256分類
基本収録単語
1,300万語
単語概念
8.8万語
細分化分類
18種類
品詞
920種類

カスタマイズ開発により、
個社に最適化された基盤を構築

企業が保有するデータ

図表、PDF、動画、音声のドキュメント類
ソリューション

社内特有の固有表現、略称、言い回し等の辞書を構築
AIが扱える知識

企業の蓄積された社内情報をAIが「知識化」

構造化により構築された、AIの「知識」の良いところ

比較的低コストで成果が出る

RAGの精度改善には多くのテクニックが生まれていますが、検索データベース部分の「前処理」は確実に成果が出ます。かつ、自然言語処理技術を用いることで、低コストで取り組むことが可能です。
既存業務の変更は不要

既存業務にて作成・運用されている文書や書類を変換する仕組みであるため、既存業務の変更が不要で、スイッチコストは発生しません。
陳腐化しない

生成AIは日進月歩で新しいモデルが誕生しますが、知識化された社内データはそのまま利用が可能。継続的に蓄積していくことで、AI時代の競争優位性に確実につながります。

データ構造化ソリューション「DX-laei」

企業が本格的に生成AIを活用するためには

データ構造化ソリューション「DX-laei」

構造化により、検索・情報取得の精度を向上

データ構造化ソリューションによる検索精度の向上施策例

図表やグラフ、画像のテキスト化

高度なテキストアノテーション

ドキュメントと質問文（クエリ）の マッチング精度向上

例1：画像からのテキスト抽出・Markdown化

例2：グラフからのテキスト抽出・Markdown化

例3：フローチャートからのテキスト抽出・Mermaid化

高度なテキストアノテーションによるマッチング精度向上

国内最大規模の言語データベース

カスタマイズ開発により、個社に最適化された基盤を構築

企業が保有するデータ

ソリューション

AIが扱える知識

構造化により構築された、AIの「知識」の良いところ

比較的低コストで成果が出る

既存業務の変更は不要

陳腐化しない

AI時代の競争力向上へ

データ構造化ソリューション
「DX-laei」

ドキュメントと質問文（クエリ）の
マッチング精度向上

カスタマイズ開発により、
個社に最適化された基盤を構築