データマイニングのLINEスタンプ作成ならスタンプファクトリー

データマイニング

データマイニング（）とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである。DMと略して呼ばれる事もある。通常のデータの扱い方からは想像が及びにくい、ヒューリスティク（heuristic、発見的）な知識獲得が可能であるという期待を含意していることが多い。とくにテキストを対象とするものをテキストマイニング、そのなかでもウェブページを対象にしたものをウェブマイニングと呼ぶ。英語では"Data mining"の語の直接の起源となった研究分野である（データベースからの知識発見）の頭文字をとってKDDとも呼ばれる。データマイニングの定義としては、「明示されておらず今まで知られていなかったが、役立つ可能性があり、かつ、自明でない情報をデータから抽出すること」、「データの巨大集合やデータベースから有用な情報を抽出する技術体系」などがある。データマイニングは、通常はデータの解析に関する用語として用いられるが、人工知能という用語などと同様、包括的な用語であり、様々な文脈において多様な意味で用いられる。1989年に起きた"Knowledge Discovery in Databases"と呼ばれる学術研究分野の確立が、データマイニングという研究分野の直接の起源である。データマイニングの発展には、1990年以降の計算機の性能向上や大量のデータ蓄積が可能となったことが直接的に関係している。デジタル形式でのデータの収集は、コンピュータを用いてデータ解析をすることを念頭に置いて1960年代には既に行われつつあった。関係データベースとその操作用の言語SQLが1980年代に出現し、オンデマンドで動的なデータ解析が可能となった。1990年代に至り、データ量は爆発的に増大した。データウェアハウスがデータの蓄積に用いられ始めた。これに伴い、データベースにおける大量データを処理するための手法としてデータマイニングの概念が現れ、統計解析の手法や人工知能分野での検索技術等が応用されるようになった。2010年代には膨大なデータを利用してデータマイニングを行うビッグデータ解析を用いた実用的なサービスが多数登場して提供されている。メインフレームが金融企業の基幹業務システムとして稼働開始した。同時に、デジタルデータの収集,蓄積,利用の試みが開始された。論文上で"Data mining"という語の使用が行われる。但し、語の定義は現在とは大きく異なっており、1970年代においては否定的なニュアンスで使用されている。現在の"Data mining"の定義と類似する"Knowledge Discovery in Databases"という語が出現する。関係データベースシステムとその操作用言語であるSQLが出現する。データウェアハウスの運用が開始される。1990年頃から始まった計算機の急激な性能向上により"Knowledge Discovery in Databases"の研究が大幅に加速される。インターネットへの常時接続が一般家庭にも普及する。インターネット上に蓄積されたデータが加速度的に増加する。後にデータの主要な供給源の1つとなる友人紹介型のソーシャル・ネットワーキング・サービスが2002年より相次いで提供され始める。コンピュータとインターネットの普及に着目し、ビジネスにおいて膨大に蓄積され活用しきれなくなったデータの分析を専門に行う企業も徐々に出現し始める。英国"The Economist"誌において"big data"の語が提唱された。コモディティ化によりコンピュータの計算能力が安価になり、高速データ処理用のコンピュータ・クラスタの構築が容易にできるようになった。データ分析のコストが下がり、ビッグデータ解析の応用が進むようになった。データサイエンティストという名称の職業が台頭し始めた。また、ビッグデータを用いたデータマイニングを応用したサービスが一般向けにも提供され始めた。コグニティブ・コンピューティング・システムが商用で実用化された。テレビ番組の紹介コーナーでも、インターネット上に存在するビッグデータの統計分析結果を元に流行のトレンドを紹介するようになった。データ集合の中から，高頻度で発生する特徴的なパターンを見つける。クラス分類は与えられたデータに対応するカテゴリを予測する問題。与えられたデータに対応する実数値を予測する問題データの集合をクラスタと呼ぶグループに分ける。クラスタとは、同じクラスタのデータならば互いに似ていて、違うクラスタならば似ていないようなデータの集まり。

出典:wikipedia

データマイニング

関連ワード