ウェブアーカイブのLINEスタンプ作成ならスタンプファクトリー

ウェブアーカイブ

ウェブアーカイブ（Web Archive）は、WWW（Web、ウェブ）全体もしくはその一部を収集し、そのコレクションを後世の研究者、歴史家、一般大衆のために保存して、アーカイブとしたもの。Webのサイズは膨大であるため、Webアーカイブではクローラを使って自動収集を行う。最大規模のWebアーカイブ機関は、Web全体のアーカイブ作成を自動・手動の両面で行っている「インターネット・アーカイブ」（Internet Archive）である。各国の国立図書館もまた文化的に重要なWebコンテンツを保存しようとしており、フランスでは2001年にウェブページのウェブアーカイブ化を義務化する法律が成立した。2003年7月には、世界各国の国立図書館等が連携してウェブアーカイブの技術開発を行うための国際コンソーシアムとして、国際インターネット保存コンソーシアム（IIPC）が設立されている。2004年には、日本でもこの方面のアーカイブを検討するという方向が小泉内閣で打ち出され、国立国会図書館による事業が始まった。Webアーカイブはクローラを使ってウェブページの収集プロセスを自動化している。クローラはWebの一般利用者がブラウザを使ってWebコンテンツを閲覧するのと同じようなやり方でWebページを辿っていく。Heritrixクローラは有名なツールの一つであり、アーカイブ的なクロールを行うのに用いられている。Webアーカイブで収集されるのは、あらゆる種類のWebコンテンツである。これにはHTMLのウェブページ、スタイルシート、JavaScript、画像、ビデオなどが含まれる。さらに収集したリソースに関するメタデータも蓄積する。例えば、アクセス日時、MIMEタイプ、サイズなど。これらのメタデータにより、アーカイブされているコレクションの信頼性と同一性を確保できる。Webアーカイブは収集を主としてクロールに頼っているため、Webクローリングの難しさに影響を受ける。Webは非常に巨大なため、その大部分を収集するには相当な計算機資源を必要とする。また、Web自体の内容の変化も速いため、サイト全体をクローラが収集する前にその内容が変わってしまうことさえある。Webアーカイブが対処しなければならないのは技術的な側面だけではなく、知的財産権といった法的、社会的側面もある。Peter Lyman (2002)は「Webは一般にパブリックドメインのソースのように見られているが、これは著作権付きの情報である。従って、アーキビストはWebをコピーする法的権利を保持していない。」と述べている。「インターネット・アーカイブ」のようにアーカイブしたコンテンツを一般に公開しているアーカイブの中には、コンテンツの所有者が一般公開を希望しない場合には、アーカイブしたコンテンツを公開から外したり、削除できるようにしているところもある。また、特定の場所からのみアクセス可能にしたり、特定の決められた利用法でのみアクセス可能にしたりしているアーカイブもある。「インターネット・アーカイブ」のようなアーカイブサイトは、ロボット（クローラ）が自動でサイトを片っ端からかき集めている一方、利用者が手動で任意のサイトを保存する機能もある。手動保存はURLを指定することで行われる。手動保存専用のアーカイブサイトとしては、「ウェブ魚拓」、「ひよっ Hiyo.jp」がある。(保存するページの言語は関係ない)。海外での例としては「」、「archive.is（旧称 archive.today）」がある。

出典:wikipedia

ウェブアーカイブ

関連ワード