線形分類器のLINEスタンプ作成ならスタンプファクトリー

線形分類器

線形分類器（）は、特徴の線形結合の値に基づいて分類を行う確率的分類器である。機械学習において、分類は項目群を特徴値に基づいてグループに分類することを目的とする。分類器への入力特徴ベクトルが実数ベクトル formula_1 であるとき、出力のスコアは次のようになる。ここで、formula_3 は重み付けの実数ベクトル、"f" は2つのベクトルのドット積を必要な出力に変換する関数である。重み付けベクトル formula_3 はラベル付き訓練例で学習することで変化していく。"f" はあるしきい値以上の値を第一クラスに分類し、それ以外を第二クラスに分類するといった単純な関数であることが多い（二項分類）。より複雑な "f" としては、ある項目があるクラスに属する確率を与えるものなどがある。二項分類問題は、高次元の入力空間を超平面で分割する操作として視覚化できる。その超平面の一方の側にある点は分類において "yes" とされた点であり、もう一方の側にある点は "no" とされた点である。線形分類器は、特に formula_1 が疎であるとき最も高速な分類器であるため、分類の速度が重要な場合に使われることが多い。ただし、決定木の方が速い場合もある。また、線形分類器は formula_1 の次元が大きいときにうまく機能する。例えば、文書分類において formula_1 の各要素は文書における個々の単語の出現回数などになる。そのような場合、線形分類器は正則化されているべきである。線形分類器 formula_3 のパラメータを決定する手法は大まかに2つに分類される。1つは条件付き確率 formula_9 をモデル化したものである。そのようなアルゴリズムとして以下のものがある。2つめは識別モデルと呼ばれるもので、訓練例の出力の品質を最大化しようとするものである。訓練コスト関数に項を追加することで、最終モデルの正則化が容易に実現できる。線形分類器の識別訓練の例として、以下のものがある。なお英語でいうと、線形判別分析（Linear Discriminant Analysis）と識別モデル（Discriminative Model）は関連がありそうだが、上のように分類されている。LDAは主成分分析（Principal Component Analysis、PCA）との対比で意味を持つ名前である。LDAは教師あり学習アルゴリズムであり、PCAは教師なし学習アルゴリズムである。識別訓練は条件付き確率分布をモデル化する方式よりも正確であることが多い。しかし、欠落データの扱いは条件付き確率分布モデルの方が容易なことが多い。上述の線形分類器のアルゴリズムはいずれも、カーネルトリックを使って、異なる入力空間 formula_11 上の非線形アルゴリズムに変換できる。

出典:wikipedia

線形分類器

関連ワード