自動要約(じどうようやく)は、コンピュータプログラムを用いて、文書からその要約を作成する処理である。作成される要約は、要約の対象となる文書の最も重要な要素のみを残しているべきであり、いわゆる情報のオーバーロードに伴い自動要約に対する関心も増している。首尾一貫した要約を作成するためには要約の長さや書き方のスタイル、文法などといった点が考慮されなければならない。自動要約の応用先の1つはGoogleなどの検索エンジンであるが、もちろん独立した1つの要約プログラムといったものもありうる。自動要約は、要約の目的や要約の対象とする文書の数、要約の方法などによっていくつかの種類に分類することができる。指示的要約は、要約の元となった文書を読むべきか否かという情報を提供する。例えば、新聞記事の見出しは記事全体の簡潔な要約となっており、読者に対して元の記事全体を読むべきか否か判断する材料を与えるという点において指示的要約である。一方、報知的要約は、要約そのものが元となった文書を代替しうる要約である。例えば、ニュース番組の字幕は、聴覚に何らかの障害のある視聴者に対してはアナウンサーによる音声の代替として機能するため、報知的要約と言える。単一文書要約は、単一の文書を要約の対象とするものである。例えば、1つの新聞記事を要約する作業は単一文書要約である。複数文書要約は、複数の文書を要約の対象として、それらから単一の要約を作成するものである。典型的には、Googleニュースなどのニュース・アグリゲーターによって収集された同一事件に関する記事の集合を入力として、それらの簡潔な要約を作成するものである。抽出的要約は、要約の対象となる文書に含まれる単語や句、文といった単位をうまく抽出し、それらを組み合わせることで要約を作成する。一方、生成的要約は、文書を一度何らかの中間表現(あるいは意味表現)に変換し、この中間表現を元に自然言語生成の技術を用いて要約を作成する。そのため、生成的要約によって作成された要約には元の文書に含まれていない表現が含まれることもありうる。生成的要約には、文書を中間表現に正確に変換すること(すなわち、精度の高い自然言語理解を実現すること)、そこから要約を生成するための自然言語生成器が必要になるといった問題が存在するため、もっぱら研究の焦点は抽出的要約にあてられている。現在の自動要約の中心となるアプローチは抽出的要約である。抽出的要約は以下の手続に従って行われる。他の多くの自然言語処理アプリケーションと同様に、自動要約においても文分割は基本となる処理である。抽出的要約の場合は特に文を単位として行われることが多いため、文分割の精度は重要である。基本的には、句点などを機械的に検出しそれをもって文境界を推定するが、統計的な手法による文境界推定も行われている。文分割によって得られた文の短い亜種を作成する。文分割によって文書から分割された文と、文短縮によって生成されたそれらの亜種を入力して、何らかの目的関数に基づいて与えられた要約長を満たす文の組み合わせを探索する。重要文抽出によって選択された文集合を最終的な要約として出力するため、文集合に対して順序を与える必要がある。単一文書要約の場合は抽出された文の入力文書における位置に基づいて順序を与えればよい。一方、複数文書要約の場合は、異なる文書から文が選択されている場合、そのように順序を与えることができない。そのため、文集合に対して適切な順序を与える方法が必要となる。単に文を抜き出してそれらを組み合わせて要約を作成した場合、照応関係が問題となる場合がある。例えば、以下のような2つの文があったとする:このとき、2番めの文が要約に選ばれ、1番めの文が要約に選ばれなかった場合、2番めの文の「彼」が指すものがわからなくなってしまう。このような時には2番めの文の「彼」を「エイブラハム・リンカーン」に置き換える処理が必要になる。
出典:wikipedia
LINEスタンプ制作に興味がある場合は、
下記よりスタンプファクトリーのホームページをご覧ください。