情報開発と利活用

情報開発と利活用

PR

Profile

令和維新

令和維新

Category

カテゴリ未分類

(111)

連絡

(24)

交流会

(27)

セミナー

(29)

参考情報

(138)

オフ会

(36)

on-line報告会

(13)

翻訳ビジネス

(8)

情報開発

(270)

ビッグデータ

(79)

ブロックチェーン

(222)

人工知能

(390)

IOT

(283)

仮想通貨

(775)

コンテンツ

(120)

政治経済

(1702)

先端技術

(919)

DITA

(47)

テレワーク

(28)

UX

(0)

文書管理

(8)

テクニカルライテイング

(17)

学習

(9)

訓練

(1)

XMLソリューション

(3)

メタバース

(99)

Web3

(66)

投資

(134)

IoT

(27)

投資信託

(1)

ビットコイン

(546)

イーサリアム

(146)

NFT

(41)

オンライン

(0)

受動収入

(14)

ソーシャルメデイア

(0)

DAO

(2)

DeFi

(68)

暗号通貨

(151)

トークノミクス

(21)

アルトコイン

(216)

空中投下

(16)

スマート契約

(4)

ステーブルコイン

(41)

(5)

生成AI

(5)

SCM

(4)

ウオレット

(9)

不労所得

(51)

セキュリテイ

(4)

ミームコイン

(50)

CBDC

(5)

PoS

(3)

PoW

(1)

ETF

(11)

仮想通貨ETF

(1)

予言

(7)

裁定取引

(1)

GameFi

(5)

マイニング

(6)

RWA

(19)

DePIN

(18)

SWFT

(1)

WLFI

(1)

アービトラージ

(7)

XRP

(43)

大統領選

(4)

BCH

(1)

取引ボット

(17)

トレーデイング

(17)

不動産

(1)

詐欺

(4)

貿易戦争

(1)

医療

(1)

金融

(2)

TEZOS

(1)

CARDANO

(2)

カルダーノ

(3)

ステーキング

(4)

チェーンリンク

(1)

開発

(0)

HEDERA

(1)

スマートマネー

(0)

流動性

(0)

AIエージェント

(6)

401k

(1)

国際送金

(1)

solano

(1)

AI

(1)

Keyword Search

▼キーワード検索

Shopping List

お買いものレビューがまだ書かれていません。
2021.05.28
XML
カテゴリ: 情報開発

Calculating the score is equally simple: if  l1  and  l2  are the lengths of the two strings, and  d  is their Levenshtein distance, the score is: ( l1 + l2 d )/( l1 + l2 ).
スコアの計算はシンプルです: もし l1 l2 は2つの文字列の長さで、 dが 彼らの Levenshtein 距離であるなら そのスコアは次の通りです:( l1 l2 / l1 l2 )。

There are other fuzzy matching techniques, but I used this one as a starting point.
他のファジーマッチングテクニックがありますが、私はこれを出発点として使いました。

Preparing the content for analysis
解析のためにコンテンツを準備します

Ideally, the content needs to be stripped of all markup. The text of one block element should all be on one line. My original thought was to write (or find) a DITA-OT plugin that would publish a bookmap to CSV, where each record would contain the file name and one block (or paragraph, if you prefer) of text.
理想的には、そのコンテンツはすべてのマーク付けを取り去る必要があります。 1つのブロック要素の本文はすべて1行上にあるべきです。 私の最初の考えは、 CSV (あるいは段落、もしあなたがそちらをより望むなら)への ブックマップを発行するであろう DITA- OTのプラグイン書く(あるいは見い出す)ことでした。そこでは、それぞれの記録がファイル名と1つのテキストブロック(あるいは段落、好むなら)を含むであろう。

This took more effort than the analysis script, believe it or not. After a brief experiment with a “plain text” plugin, I decided to try exporting to Markdown, a transform built-in to DITA-OT 3.1 and newer. From there, a utility called  pandoc  stripped the remaining markup and eliminated line-wrapping. The commands can be placed in a shell script:
これは解析スクリプトより多くの努力を要しました、信じようが信じまいが。 「平文」プラグインでの短い実験の後に、私は コードを外して取り出すことや DITA - OTの3 . 1そしてもっと新しいものへの組み込み変換の試みをすることを決めました。そこから、 pandoc と呼ばれるユーテリテイが残っているマーク付けをはずして、そして行のラッピングを排除しました。 そのコマンドはシェルスクリプトに置くことができます:

dita --format=markdown_github --input=book.ditamap --args.rellinks=none

cd out

for i in *.md; do

 f=`basename $i .md`

 pandoc --wrap=none -t plain -o $f.txt $i

done

delete index.txt


インターネット・コンピュータランキング
========================
ネットサービスランキング
========================










お気に入りの記事を「いいね!」で応援しよう

Last updated  2021.05.28 10:44:07
コメント(0) | コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x
X

© Rakuten Group, Inc.
X
Design a Mobile Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: