本ブログ全記事270万語を使って計量テキスト分析をしてみた(1) text mining on my entire weblog 1 

No related posts.

このエントリーをはてなブックマークに追加

■ファッションブログの傾向性を擬似的に覗く

ブログ記事を使ったマルタンマルジェラの計量テキスト分析でも行いました、別名テキストマイニング。
文章を分類して計量化して分析することでなんらかの関係性や要因を抽出することを目的としています。

巷に溢れている文章を単語やフレーズに分ける。出現頻度や相関関係を分析する。文章の背後にある有用な情報を抽出する。

日本語は品詞から構成されていて、名詞、動詞、助詞、形容詞、副詞、接続詞、感動詞、助動詞といった単語のことです。文法上の性質、機能、形態、意味などで分類した区分のことです。

これを利用して、大量の文章をテキストとして計量化して、統計分析を施してみようというのがテキストマイニングです。難しいことはここでは書きません。結論から書いていき、なるべく簡単にこの分析の背景を述べたいと思います。

まずは、待てない人に結果発表。本ブログ、約270万語(多かった!)から抽出された語をインターネットのファッションブログの傾向性と擬似的に見た結果・・・、

1:本ブログで一番抽出された語は「ブランド」である

2:本ブログはおおまかに分類すると8種類のクラスターに分類される

それは「イベント」「商品情報」「商品イメージ」「ショップ」「海外のファッション動向」「売上ランキング」「ドラマの衣装協力」「ファッショントレンド」である

3:このうち、「ショップ」「商品情報」「ファッショントレンド」「ドラマの衣装協力」のクラスターが近いポジションにあることがわかった。

4:本ブログでは、「ファッション」という抽出語がほかの抽出された語に強いつながりを持ち、影響を与える親玉である可能性がある。

簡単に言うとこんな感じ。これから丁寧に説明していきますが、難しいことはなるべく省くのでお付き合いください。

そもそも本ブログの記事でテキストマイニングをする理由

インターネットにおけるファッショントレンド、流行というものは、現実世界とどの程度乖離があるか?これは、なかなかわかりづらいことですが、テキストの傾向で何か見えてこないだろうか?それが私の考えでした。

本 ブログ以外でも、たくさんのファッションブログをサンプルとして使いたかったし、そもそもブログだけではなくwebマガジンもテキストを使いたかったので すが、実現性は低いですし、多くなると分析ができなくなる。1千万語以上のテキストは、ほとんどデータベース状態の量になりますので(汗)。ですので、恐 縮ですが本ブログを使わせて頂きました。なるべく、私個人の考え、思いを省くように設定しましたが、完全ではないと思います。ですので、改善の余地はあり ますが、毎日流れるファッショントレンド、流行、ブランド情報の事柄を載せてきたつもりなので、その点、何か有意なものが可視化できたらと思います。

テキストマイニングを行うための方法と手続き

■分析に使用した記事

本ブログ全ての記事 6522個分

■操作化(分析ができるように記事をカスタマイズすること)

1:全記事をhtmlファイルとしてSeesaa引越し機能を使ってエクスポート。

2:htmlファイルをテキストファイルに変換する

3: テキストファイルになった文章の掃除。htmlタグなどの記号を消す。その後、ブログの題名「ブランドファッション通信」をヘッダーとし て

ではさむ。さらに、6522記事分区切るためヘッダー

をすべて つける。これらの作業は、プログラミング言語の1つであるPerlで行った。

4:それをテキストファイルとして、テキストマイニングのフリーソフトkh coderを使用して前処理を行う。

5:語の取捨選択をする
kh coderにある「使用しない語の指定」から「僕、私、武欄堂、笑、書く、読む、自分、言う、出る、1つ、思う、考える」を省きました。何度も分析を繰り 返した結果、これらのテキストが私の自分の思い、考えがほかのテキストとつながってしまうことが分かったので省きました。

6:以上から、kh coderを用いて文章の単純集計を行いました。その結果が以下。

総抽出語数 2748587
異なり語数(品詞の数) 71618
209545
段落 135720
H2(記事数) 6522
H1(ブログの数) 1

抽出語と簡単な分析

■抽出された語ベスト150

kh coderから抽出語リストを出しました。そして、それを頻出150語(出てきたテキストランキングベスト150)が以下の通りです。

1位~50位 51位~100位 101位~150位

20111126021503

1位は「ブランド」で9753回です。2位に「思う」なんですよね。一応使わないように設定したのですが、抽出するにあたり僕の考えとは別の意味で何か意味があるのか、ないのか・・・この辺難しい。
3位に「円」、4位に「ファッション」、5位に「セール」と続きます。ブランドでは「ユニクロ」が41位で登場。91位にマルタンマルジェラです。

抽出語数ランキング 763回から9753回に150語が集中。

20111126022656

これは出現回数(横軸)と文章数(縦軸)でグラフをプロットしたものです。「○」は、抽出語です。確かに、出現回数1000近くから9000くらいに集中していることが分かるかと思います。

■階層型クラスター分析からテキストを分類する

20111126025107

このように、抽出された語を、いくつかの塊(群)にしていくことをクラスター分析といいます。それで、本分析では8つにわかれました。 といっても、もうどこの家系図だよ!と突っ込みたいくらいの量ですよね(笑)。
クラスター分析の結果8つに分類することができました。ここからが、試行錯誤です。
この8つのクラスターに質的な名前をつけてあげます。

分 類されているテキストの意味を踏まえ、「イベント」「商品情報」「商品イメージ」「ショップ」「海外のファッション動向」「売上ランキング」「ドラマの衣 装協力」「ファッショントレンド」という8つのクラスターに名前をつけました。そして、この8つにどのくらい全記事の中に登場しているかを測ります。これ をコーディングといいます。

20111126125829

売上ランキングが11.96%と低いですが、あとはかなり高い%となっていますので、今回は8つにしておきます。

さ て、ここまでで、本ブログは、イベント、海外のファッション動向、商品イメージ、商品情報、ショップ、ドラマの衣装協力、売上ランキング、ファッショント レンドに関する記事で、構成されていることがわかりました。次では、さらに複雑な分析を行なっていきたいと思います。しかし、ご安心あれ。図表を大量し使 いますから、視覚的に楽しめる結果発表です。

ここまででわかったこと。

1:本ブログで一番抽出された語は「ブランド」である
2:本ブログの記事から抽出したテキストをおおまかに分類すると、8種類になる
3:、「イベント」「商品情報」「商品イメージ」「ショップ」「海外のファッション動向」「売上ランキング」「ドラマの衣装協力」「ファッショントレンド」の8つクラスターにわかれた

では次では、さらに複雑な多変量解析というもので、抽出された語の重み付けの関係性を観ていきます。

【続き】本ブログ全記事270万語を使って計量テキスト分析をしてみた(2) 

No related posts.

Subscribe to RSS via Email:

Subscribe with Brand Fashion Communication and get updates frequently in your inbox

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <img localsrc="" alt="">

メゾンマルタンマルジェラのジャケットとシューズ

メゾンマルタンマルジェラのジャケットとシューズ

ニューバランス576BCL

ニューバランス576BCL

1205のハリスツイードジャケット

1205のハリスツイードジャケット

1205のスイスコットンシャツ

1205のスイスコットンシャツ

Shopping