在互联网档案馆的幕后参观活动中,创始人Brewster Kahle向我们解释了该档案馆如何保存数字化和实物媒体。
译自 A Visit to the Physical Internet Archive 。
本月早些时候,我参加了旧金山举办的AI工程师峰会。趁此机会,我参观了互联网档案馆的实体仓库,该仓库位于旧金山以东20分钟车程的加州里奇蒙小镇。
我提前买了一张票,预订了10月11日星期三下午6点的“互联网档案馆幕后参观”活动。我准时在活动开始前到达了现场,很高兴我没提前到,因为这个物理档案馆位于一个工业园区的仓库里,这个地方除了仓库似乎没有其他可供游客活动的地方。
我叫Uber把我送到一个标有互联网档案馆的停车场,可是在那里我却找不到通往仓库的公共入口。现场还有其他几个互联网历史爱好者,和我一样一脸困惑,我们尴尬地互相打招呼,讨论我们是否来到了正确的地点。最后,在街道尽头约200米外,有工作人员发现了我们,向我们招手示意过去。
互联网档案馆物理档案仓库,加州里奇蒙
原来参观的群众已经自觉地进入了主建筑,一边喝着档案馆提供的免费可乐、啤酒和矿泉水,一边吃着小吃。群众中有上了年纪的人(可能是20世纪60、70年代在硅谷工作的那一代),也有年轻极客(我猜许多可能是图书管理员或专业网站管理员——我就是后者的一个例子)。
大约半小时后,导览正式开始,三四十人聚集在一个头发稀疏、满头灰发、穿着热情红衫的男子面前。他当然就是互联网档案馆的创始人布鲁斯特·卡莱(Brewster Kahle)。起初,我很惊讶他亲自进行导览,但很快就明白,卡莱全身心投入到互联网档案馆的使命中。他首先带我们参观存放旧书及其他历史材料的货运集装箱,同时滔滔不绝地讲述着互联网档案馆的情况(“互联网档案馆是一个非营利图书馆,我们在1996年就已经成立了27年。”)。
布鲁斯特·卡莱站在集装箱前。
在后续的游览中,卡莱热情洋溢地向我们展示了书本扫描机,指出了一摞摞被捐赠给档案馆的盒子(里面装满了书籍、视频磁盘、黑胶唱片、磁带和其他各类媒体),还站在一旁骄傲地看着他的电影档案管理员向我们解释他们如何将老式家用视频转换成高清数字化文件。这让我近距离看到了互联网档案馆的日常运作情况,这里有一批友好的加州员工在负责运营,其中也包括卡莱的儿子卡斯伦(Caslon)。
说到互联网档案馆,大家肯定首先想到它在2001年推出的 Wayback Machine(回溯机器),它从1996年开始就在存档网页。卡莱在导览中说: “我们每天收藏大约10亿个网址,这个数字惊人地大。”“Wayback Machine 目前收藏了2.5万亿个网页快照,被每秒查询6000到7000次。”
但是,正如这个仓库的非正式名称“物理档案馆”所示,它收藏的是实体介质——书籍、目录、旧计算机磁盘、胶卷、黑胶唱片和磁带等等。每件新的物品送达后,互联网档案馆的工作人员首先判断它是否重复,这个过程被称为“去重”。重复的将被丢弃或赠送。非重复的将被数字化保存,实物也会被存放。(附带一提,互联网档案馆表示,它只在拥有实体书的前提下才提供该书的数字版。)
互联网档案馆的老式电影扫描仪
“我们从2000年代初就开始数字化书籍,”卡莱说,“我们最终制作了自己的书籍扫描仪。”他补充说,互联网档案馆每年可以数字化“约100万本书”,至今总共数字化了700至800万本。(在其官网的“关于”页面,互联网档案馆称拥有“4100万本书籍和文本”,所以大多数应该是除书以外的文本。)
关于音乐,它历来有多种格式——LP唱片、CD、磁带、MP3等。卡莱特别热衷78转唱片,他说这种唱片存在于1900至1950年左右。“大约有200至300万张,”他说,“我们已经数字化了约45万张。”
一箱箱媒介物品,被达斯·维达的纸板人像“看管”着
“我们正在努力数字化所有类型的媒介,”卡莱继续说。“我发现的趋势是,物品变得过时的速度越来越快。你不仅无法访问过去的内容,就算可以访问,也没有以便于实际使用的方式呈现给你。”
注意: 如果您有兴趣向互联网档案馆捐赠物品,请查看该馆网页,列出了它目前可以接受的媒介类型。
参观小组中有人问卡莱互联网档案馆需要多久购买一次新服务器,来存储这持续不断涌入的新媒体。
“持续不断,”他回答道。“我们每两个月或三个月购买一对新服务器机架——因为它总是成对出现。[...] 在一个机架中,你现在可以放大约5PB的容量。”
互联网档案馆以前两代存储设备; 左边是1990年代的StorageTek 9710,右边是第一代PetaBox(2004)。
当然,由于今年来自书籍出版业和音乐业的法律攻击(后者涉及78转唱片项目),互联网档案馆一直在新闻头条。卡莱在游览中对这些法律挑战进行了几次挖苦式的评论,但很明显它对互联网档案馆造成了影响。 “这仍在法庭审理,”他叹了口气,关于书籍出版商的诉讼,“而且非常昂贵。”
那么互联网档案馆如何生存的呢?卡莱说,互联网档案馆主要依靠捐款运转,来自11万个人的平均每人5美元的捐款,以及“基金会给我们大笔资金”。互联网档案馆还向图书馆和其他组织提供订阅服务。
“我们还通过,嗯,不花太多钱来维持运营,”他补充道。 “我的意思是,你注意到服务器都没有空调吧?如果太热的话,我们就打开窗口。所以,这很环保。但它也不昂贵。”
加利福尼亚州里奇蒙互联网档案馆外景。对互联网历史爱好者来说,这是一个有趣的夜晚!