情報開発と利活用

情報開発と利活用

PR

×

Profile

令和維新

令和維新

Category

カテゴリ未分類

(112)

連絡

(24)

交流会

(27)

セミナー

(29)

参考情報

(138)

オフ会

(36)

on-line報告会

(13)

翻訳ビジネス

(8)

情報開発

(270)

ビッグデータ

(84)

ブロックチェーン

(243)

人工知能

(488)

IOT

(297)

仮想通貨

(844)

コンテンツ

(123)

政治経済

(1871)

先端技術

(956)

DITA

(50)

テレワーク

(28)

UX

(0)

文書管理

(8)

テクニカルライテイング

(17)

学習

(9)

訓練

(1)

XMLソリューション

(3)

メタバース

(99)

Web3

(66)

投資

(179)

IoT

(32)

投資信託

(1)

ビットコイン

(762)

イーサリアム

(155)

NFT

(41)

オンライン

(0)

受動収入

(14)

ソーシャルメデイア

(0)

DAO

(2)

DeFi

(74)

暗号通貨

(168)

トークノミクス

(21)

アルトコイン

(223)

空中投下

(16)

スマート契約

(4)

ステーブルコイン

(42)

(5)

生成AI

(5)

SCM

(4)

ウオレット

(9)

不労所得

(57)

セキュリテイ

(4)

ミームコイン

(50)

CBDC

(5)

PoS

(3)

PoW

(1)

ETF

(12)

仮想通貨ETF

(1)

予言

(7)

裁定取引

(1)

GameFi

(5)

マイニング

(9)

RWA

(21)

DePIN

(18)

SWFT

(1)

WLFI

(1)

アービトラージ

(7)

XRP

(57)

大統領選

(4)

BCH

(1)

取引ボット

(17)

トレーデイング

(24)

不動産

(1)

詐欺

(4)

貿易戦争

(1)

医療

(1)

金融

(2)

TEZOS

(1)

CARDANO

(2)

カルダーノ

(3)

ステーキング

(5)

チェーンリンク

(1)

開発

(0)

HEDERA

(1)

スマートマネー

(0)

流動性

(0)

AIエージェント

(8)

401k

(1)

国際送金

(1)

solano

(1)

AI

(1)

暗号資産

(46)

機関投資家

(2)

Keyword Search

▼キーワード検索

Shopping List

お買いものレビューがまだ書かれていません。
2024.02.25
XML
テーマ: 人工知能(468)
カテゴリ: DITA

6 Reasons to train your Large Language Models (LLM) with structured content
構造化コンテンツで大規模言語モデル(LLM)を訓練すべき6つの理由



Alex Abey
アレックス・アベイ

16 Jun 2023
2023年6月16日

At this point, there is no question that LLMs will radically change the way enterprises deliver content to employees, customers, partners, and regulators. While it’s clear this change is coming, it’s less clear what this means for how enterprises create and manage their content. A particular question I’m hearing a lot these days is whether enterprises still need to invest in structuring and enriching their content, or whether LLMs can generate satisfactory results from unstructured and un-enriched text. After all, the base models from OpenAI, Anthropic, and others do a pretty amazing job considering they are trained on raw text and don’t explicitly consider markup such as HTML or XML tags at all during the initial training process.
現時点で、LLM は、企業が従業員、顧客、パートナー、規制当局にコンテンツを提供する方法を根本的に変えることになることに疑問の余地はありません。この変化がやってくることは明らかですが、これが企業のコンテンツの作成と管理の方法に何を意味するかはあまり明らかではありません。最近特によく聞く質問は、企業は依然としてコンテンツの構造化と充実化に投資する必要があるのか​​、それとも LLM は非構造化および充実していないテキストから満足のいく結果を生み出すことができるのか、というものです。結局のところ、OpenAI、Anthropicなどの基本モデルは、生のテキストで訓練され、初期訓練プロセス中にHTMLタグやXMLタグなどのマークアップを明示的にまったく考慮していないことを考えると、かなり素晴らしい仕事はします。

My answer to this question is that investing in structuring and enriching your enterprise content turbocharges the results you can deliver via an enterprise LLM. It’s not an either/or question. Structured content enables LLMs to deliver on their promise.
この質問に対する私の答えは、エンタープライズ コンテンツの構築と強化に投資することで、エンタープライズ LLM を通じて提供できる結果が大幅に向上するということです。それはどちらか一方の質問ではありません。構造化コンテンツにより、LLM は約束を果たすことができます。

Garbage-in Garbage-Out
ごみを入れれば、ごみが出てくる
LLMs suffer from a GIGO (garbage-in garbage-out) problem. They learn patterns and associations from the data they are trained on. If the training data is flawed, contains biases, or inaccuracies, or includes low-quality content, the model will learn and replicate those flaws in its responses. LLMs don't have inherent knowledge or understanding. They rely on the statistical patterns present in the data they were trained on.


Why does this matter in an enterprise knowledge management scenario? Well, the two initial objections to the use of LLMs in the enterprise centered on data protection and accuracy. Let’s look at each of these.
企業のナレッジ マネジメント シナリオにおいて、これがなぜ重要なのでしょうか? そうですね、企業内での LLM の使用に対する最初の2つの反対意見は、データ保護と正確性を中心にしていました。それぞれを見てみましょう。

Data protection
データ保護
It became evident almost immediately that the issue of protecting sensitive enterprise data would be solved quickly. Today there are approaches like Amazon’s Bedrock service and Microsoft’s Azure OpenAI Services that solve this problem in their private clouds. Enterprises can also license pre-trained foundation or base models to run on-premises if desired, or experiment with open source. Data does not have to leave your enterprise perimeter.
企業の機密データの保護の課題はすぐに解決されることがほぼすぐに明らかになりました。現在、Amazon の Bedrock サービスや Microsoft の Azure OpenAI サービスなど、私的クラウドでこの問題を解決するアプローチが存在します。企業は、必要に応じて、事前訓練された基盤モデルまたは基本モデルのライセンスを取得して、オンプレミスで実行したり、オープンソースを実験したりすることもできます。データは企業の境界を離れる必要はありません。

Accuracy
正確性
For enterprises, it’s the accuracy problem that is more vexing. The tolerance for possible hallucination is much lower in an enterprise knowledge management scenario than in consumer use cases. Explaining to a customer or regulator that the false data your team provided was fabricated by an LLM is not going to fly. This is where GIGO becomes a concern, and where structuring, enriching, and curating enterprise data becomes vital.
企業にとって、より厄介なのは精度の問題です。企業のナレッジ管理シナリオでは、消費者のユースケースよりも幻覚の可能性に対する許容度がはるかに低くなります。顧客または規制当局に、チームが提供した虚偽のデータは LLM によって捏造されたものであることを説明しても、通用しません。ここで GIGO が懸念され、企業データの構造化、充実化、キュレーションが重要になります。

―――――――――――――――――続く――――――――――――――――――

下記URLから続きを読むことができます。また、図付きの元のレイアウトで読める原文ファイルも入手可能。今月1か月分のファイルは100円で取り寄せられますが、次の月からは600円に値上げします。

https://note.com/tongansunmi/n/nd22322abcf93?sub_rt=share_pb​

==============================
インターネット・コンピュータランキング
==============================
ネットサービスランキング
==============================






お気に入りの記事を「いいね!」で応援しよう

Last updated  2024.02.26 17:13:46
コメントを書く


■コメント

お名前
タイトル
メッセージ
画像認証
上の画像で表示されている数字を入力して下さい。


利用規約 に同意してコメントを
※コメントに関するよくある質問は、 こちら をご確認ください。


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x
X

© Rakuten Group, Inc.
Design a Mobile Website
スマートフォン版を閲覧 | PC版を閲覧
Share by: