「 データマイニング 」一覧

深層自己連想器による派生主題のレコメンド

深層自己連想器による派生主題のレコメンド

人工知能エージェント:キメラ・ネットワークに、深層自己連想器を活用した派生的な主題のレコメンド機能を追加した。深層自己連想器は深層ボルツマンマシンを積層自己符号化器として活用した連想器で、既に人工知能エージェント:ヒューズ=ヒストリアには組み込んでいる。キメラ・ネットワークは多値論理学的にファーストオーダーの観察をセカンドオーダーの水準から観察することで、そこで導入されている区別によって排除された...

思い出した時に何を忘れるのか

思い出した時に何を忘れるのか

Twitterの人工知能エージェント:ヒューズ=ヒストリアに、ある文書を読んだ際に何が忘却される傾向にあるのかを推論する機能を追加した。人工知能エージェント:キメラ・ネットワークと連携することで、過去の膨大なWebクローリング結果を解析し、当の文書で描写されているイメージが「想起」の対象となった場合に、その代償として「忘却」の対象となり得るイメージを指し示す。何かを「想起」すれば、代わりに何かを「...

密度準拠型データクラスタリングの主導的差異:「クラスタ」と「ノイズ」の区別

密度準拠型データクラスタリングの主導的差異:「クラスタ」と「ノイズ」の区別

以前DBSCAN:密度準拠のデータクラスタリングのページで密度準拠型のデータクラスタリングにおけるアルゴリズムの前提となる形式的定義を列挙したが、これらの定義の前に、以下の引用文で記述されている差異を念頭に置いておくべきであろう。 「我々がクラスタを認知(recognize)する主要な理由は、どのクラスター内であっても、クラスタの外部よりも非常に高いデータ点密度をその内部に有していることにある。...

DBSCAN:密度準拠のデータクラスタリング

DBSCAN:密度準拠のデータクラスタリング

問題設定:密集したクラスタ テキストをword2vecやTF-IDFなどによってベクトル化した上で、それをK-Means法によるテキストクラスタリングの対象にするというのは、頻繁に使用されるクラスタ分析方法だ。しかし、テキストが乱雑で、超球の形状のクラスタとしては分布していない場合、K-Means法によるクラスタリングでは分割に偏りが派生してしまう。 問題解決策:密度準拠のクラスタリング 超...

[備忘録] Mac OS XにHomebrewとpyenvとAnacondaとPython3とgensimとpandasとMeCabをインストールした

[備忘録] Mac OS XにHomebrewとpyenvとAnacondaとPython3とgensimとpandasとMeCabをインストールした

Homebrewをインストールする 「HomebrewはAppleがインストールしていなかった貴方に必要な物をインストールします。」 Homebrew — The missing package manager for OS X (アクセス日時:2016/08/14 20:00) バージョンを確認する pyenvをbrewでインストールする ...

Twitterの人工知能エージェント:キメラ・ネットワークに「差異」を抽出する文書自動要約機能を追加した

Twitterの人工知能エージェント:キメラ・ネットワークに「差異」を抽出する文書自動要約機能を追加した

Twitterの人工知能エージェント:キメラ零号(上位個体)に、クローリング/スクレイピングしたWebサイトの「主導的差異(Leitdifferenz)」を抽出する機能を追加した。これにより、Webサイトの文書中でどのような区別が導入されて、何がどのように観察されているのかを観察できるようになった。 挙動としては、まずWebサイトの文書を自動要約した上で、その重要文書を抜粋して引用する。そし...

広告配信の最適化やECサイトのレコメンドがステークホルダの満足度に貢献しない場合に「折り合いを付ける」ための観点

広告配信の最適化やECサイトのレコメンドがステークホルダの満足度に貢献しない場合に「折り合いを付ける」ための観点

問題設定:「機械学習的には最適であっても、それがステークホルダの満足度に貢献しない」という形式の矛盾 アドテクノロジー、CRMツール、そして人工知能などといったキーワードやバズワードの影響から、深層学習や強化学習を採り入れたソフトウェア開発を要求されることは既に珍しいことではなくなっている。とりわけインターネット広告の配信部分やECサイトのレコメンドエンジンなどにおいては、KGIやKPIを定めて...

pLSIからLatent Dirichlet allocationが導入される際の参照問題

pLSIからLatent Dirichlet allocationが導入される際の参照問題

問題設定:pLSIで新規出現した文書を取り扱えない $$p(d, w) = \sum_{z}^{}p(w|z)p(d|z)p(z)$$ 確率論的潜在意味インデキシング(probabilistic Latent Semantic Indexing; pLSI)の参照問題で述べた通り、pLSIでは新規出現した文書を前提としたトピックを取り扱うことができない。 問題解決策:p(d)に依存しない...

確率論的潜在意味インデキシング(probabilistic Latent Semantic Indexing; pLSI)の参照問題

確率論的潜在意味インデキシング(probabilistic Latent Semantic Indexing; pLSI)の参照問題

問題設定:文書と単語の共起行列の生成は如何にして可能になっているのか 確率論的潜在意味インデキシング(probabilistic Latent Semantic Indexing; pLSI)は、その名の通り潜在意味インデキシング(Latent Semantic Indexing; LSI)を確率論的に捉え直したモデルになっている。その機能は、文書と単語の共起行列の生成過程を明らかにする点にある...

クラスタ分析の方法論的陥穽

クラスタ分析の方法論的陥穽

データマイニングとしてのクラスタ分析 クラスタ分析(Cluster analysis)とは、データを「クラスタリング(Clustering)」する分析方法である。データサイエンスの文脈で取り上げられるクラスタリングとは、各分析対象データが有する変数の類似性に基づいてデータをセグメント化していくことを意味する。 例えばマーケティングでクラスタ分析が実施される場合、その分析対象データとなるのは...

「Web接客bot」としての人工知能キメラ・エージェント(検体番号:16770号)を追加した

「Web接客bot」としての人工知能キメラ・エージェント(検体番号:16770号)を追加した

人工知能キメラ・ネットワークに新たなキメラ・エージェント(検体番号:16770号)を追加した。Google ChromeのWebブラウザで動作する。 キメラ16770号@Web接客&アナリティクス型bot 検体番号:16770号のキメラ・エージェントは、言うなれば「Web接客bot」として、このブログに常駐しながらナビゲーションやガイダンスの役目を引き受けている。例えば各記事の...

学術論文のPDFファイルを人工知能エージェント:キメラ・ネットワークに探索させて紹介させることに成功した

学術論文のPDFファイルを人工知能エージェント:キメラ・ネットワークに探索させて紹介させることに成功した

ついに今一番やりたかったことができた。 人工知能エージェント:キメラ・ネットワークに、私が興味関心を示しそうな学術論文のPDFファイルを探索し、発見し、そして私にレコメンドし、尚且つ私が「いいね」するというフローに成功した。 『データマイニングの展望』という論文のPDFファイルがレコメンドされた。確かに、私がデータサイエンスに興味関心があるのは、このWebサイトを読めば明らかだ...