ウェイバックマシン

Article

July 1, 2022

Wayback Machineは、カリフォルニア州サンフランシスコに本拠を置く非営利ライブラリであるInternetArchiveによって設立されたWorldWideWebのデジタルアーカイブです。 1996年に作成され、2001年に一般公開されたこの機能により、ユーザーは「過去にさかのぼって」、過去のWebサイトの外観を確認できます。その創設者であるBrewsterKahleとBruceGilliatは、機能しなくなったWebページのアーカイブされたコピーを保存することにより、「すべての知識への普遍的なアクセス」を提供するWaybackMachineを開発しました。 1996年5月12日に発売されたWaybackMachineには、2009年末時点で3,820万件を超えるレコードがありました。毎日100万件を超えるWebページが追加されています。 1996年、インターネットアーカイブの創設者であるブリュースターケールとマサチューセッツ工科大学(MIT)の大学院生であるブルースギリアットは、普遍的にアクセス可能なデジタルライブラリを作成するためのツールとしてWaybackMachineを開発し、すべての知識への普遍的なアクセスというInternetArchiveの使命をサポートしました。

歴史

Wayback Machineは、サービスを5年後に公開することを目的として、1996年5月12日にキャッシュされたWebページのアーカイブを開始しました。インターネットアーカイブの創設者であるBrewsterKahleとBruceGilliatは、2001年10月にカリフォルニア州サンフランシスコでWaybackMachineを主にWebサイトが変更されたとき、またはWebサイトがシャットダウンされたときに、Webサイトのコンテンツが消えるという問題に対処します。このサービスにより、ユーザーはアーカイブされたバージョンのWebページを経時的に表示できます。これは、アーカイブでは「3次元インデックス」と呼ばれます。 KahleとGilliatは、インターネット全体をアーカイブし、「すべての知識への普遍的なアクセス」を提供することを期待してマシンを作成しました。 「ウェイバックマシン」という名前は、架空のタイムトラベルおよび翻訳デバイスである「ウェイバックマシン」を指しています。アニメ「ロッキーとブルウィンクルと仲間たちの冒険」でミスター・ピーボディとシャーマンのキャラクターが使用しました。漫画のセグメントの1つである「Peabody'sImprobableHistory」では、キャラクターはマシンを使用して、歴史上の有名なイベントを目撃し、参加し、しばしば変更しました。 1996年から2001年まで、情報はデジタルテープに保存され、Kahleは時折、研究者や科学者が「不格好な」データベースを利用できるようにしました。アーカイブが2001年に5周年を迎えたとき、カリフォルニア大学バークレー校での式典で公開され、一般に公開されました。 Wayback Machineが発売されるまでに、すでに100億を超えるアーカイブページが含まれていました。データは、インターネットアーカイブのLinuxノードの大規模なクラスターに保存されます。時々、新しいバージョンのWebサイトを再訪してアーカイブします(以下の技術的な詳細を参照してください)。ウェブサイトのURLを検索ボックスに入力してサイトを手動でキャプチャすることもできます。ただし、ウェブサイトでWayback Machineがサイトを「クロール」してデータを保存できる場合に限ります。2020年10月30日、WaybackMachineはコンテンツのファクトチェックを開始しました。

技術的な詳細

ソフトウェアは、Webを「クロール」し、Webページ、Gopher階層、Netnews(Usenet)掲示板システム、およびダウンロード可能なソフトウェアに公開されているすべての情報とデータファイルをダウンロードするために開発されました。これらの「クローラー」によって収集される情報には、インターネット上で利用可能なすべての情報が含まれているわけではありません。データの多くは発行者によって制限されているか、アクセスできないデータベースに保存されているためです。部分的にキャッシュされたウェブサイトの不整合を克服するために、Archive-It.orgは、機関やコンテンツ作成者がデジタルコンテンツのコレクションを自主的に収集して保存し、デジタルアーカイブを作成できるようにする手段として、インターネットアーカイブによって2005年に開発されました。ソース、サードパーティからインポートされたもの、アーカイブによって内部的に生成されたもの。例えば、クロールはSloanFoundationとAlexaによって提供され、クロールはNARAとInternet Memory Foundation、CommonCrawlのミラーに代わってIAによって実行されます。 「ワールドワイドウェブクロール」は2010年から実行されており、グローバルWebをキャプチャします。ドキュメントとリソースは20220106085103などのタイムスタンプURLで保存されます。スナップショットキャプチャの頻度はWebサイトごとに異なります。 「ワールドワイドウェブクロール」のウェブサイトは「クロールリスト」に含まれ、サイトはクロールごとに1回アーカイブされます。サイズによっては、クロールが完了するまでに数か月から数年かかる場合があります。たとえば、「ワイドクロール番号13」は2015年1月9日に開始し、2016年7月11日に完了しました。ただし、一度に複数のクロールが進行中であり、サイトが複数のクロールリストに含まれている可能性があります。そのため、サイトがクロールされる頻度は大きく異なります。2019年10月の時点で、ユーザーは1分あたり15件のアーカイブリクエストと取得に制限されています。

ストレージ容量と成長

技術が何年にもわたって発展するにつれて、WaybackMachineのストレージ容量は増加しました。 2003年には、わずか2年間のパブリックアクセスの後、WaybackMachineは12テラバイト/月の速度で成長していました。データは、インターネットアーカイブのスタッフがカスタム設計したPetaBoxラックシステムに保存されます。最初の100TBラックは、2004年6月に完全に稼働しましたが、それよりもはるかに多くのストレージが必要であることがすぐに明らかになりました。インターネットアーカイブは、カスタマイズされたストレージアーキテクチャを2009年にSun Open Storageに移行し、Sunで新しいデータセンターをホストしています。サンマイクロシステムズのカリフォルニアキャンパスにあるモジュラーデータセンター。 2009年の時点で、Wayback Machineには約3ペタバイトのデータが含まれており、毎月100テラバイトの速度で成長していました。WaybackMachineの新しい改良版は、更新されたインターフェイスとアーカイブされたコンテンツの新しいインデックスを使用して、2011年に公開テストに利用できるようになりました。キャプチャは、毎日のクロールの数を視覚化する幅の円でカレンダーレイアウトに表示されますが、アスタリスクや高度な文字で重複をマークすることはありません。検索ページ。キャプチャ間のナビゲートを容易にするために、上部のツールバーが追加されました。棒グラフは、何年にもわたる1か月あたりのキャプチャの頻度を視覚化します。その後、「変更点」、「概要」、グラフィカルなサイトマップなどの機能が追加されました。その年の3月、Wayback Machineフォーラムで、「新しいWayback Machineのベー

Original article in language