Google boss warns of 'forgotten century' with email and photos at risk

Digital material including key historical documents could be lost forever because programs to view them will become defunct, says Vint Cerf

Vint Cerf: ‘We are nonchalantly throwing all of our data into what could become an information black hole.’ Photograph: Murdo Macleod

Piles of digitised material – from blogs, tweets, pictures and videos, to official documents such as court rulings and emails – may be lost forever because the programs needed to view them will become defunct, Google’s vice-president has warned.

Humanity’s first steps into the digital world could be lost to future historians, Vint Cerf told the American Association for the Advancement of Science’s annual meeting in San Jose, California, warning that we faced a “forgotten generation, or even a forgotten century” through what he called “bit rot”, where old computer files become useless junk.

Cerf called for the development of “digital vellum” to preserve old software and hardware so that out-of-date files could be recovered no matter how old they are.

“When you think about the quantity of documentation from our daily lives that is captured in digital form, like our interactions by email, people’s tweets, and all of the world wide web, it’s clear that we stand to lose an awful lot of our history,” he said.

“We don’t want our digital lives to fade away. If we want to preserve them, we need to make sure that the digital objects we create today can still be rendered far into the future,” he added.

The warning highlights an irony at the heart of modern technology, where music, photos, letters and other documents are digitised in the hope of ensuring their long-term survival. But while researchers are making progress in storing digital files for centuries, the programs and hardware needed to make sense of the files are continually falling out of use.

“We are nonchalantly throwing all of our data into what could become an information black hole without realising it. We digitise things because we think we will preserve them, but what we don’t understand is that unless we take other steps, those digital versions may not be any better, and may even be worse, than the artefacts that we digitised,” Cerf told the Guardian. “If there are photos you really care about, print them out.”

Ancient civilisations suffered no such problems, because histories written in cuneiform on baked clay tablets, or rolled papyrus scrolls, needed only eyes to read them. To study today’s culture, future scholars would be faced with PDFs, Word documents, and hundreds of other file types that can only be interpreted with dedicated software and sometimes hardware too.

The problem is already here. In the 1980s, it was routine to save documents on floppy disks, upload Jet Set Willy from cassette to the ZX spectrum, slaughter aliens with a Quickfire II joystick, and have Atari games cartridges in the attic. Even if the disks and cassettes are in good condition, the equipment needed to run them is mostly found only in museums.

The rise of gaming has its own place in the story of digital culture, but Cerf warns that important political and historical documents will also be lost to bit rot. In 2005, American historian Doris Kearns Goodwin wrote Team of Rivals: the Political Genius of Abraham Lincoln, describing how Lincoln hired those who ran against him for presidency. She went to libraries around the US, found the physical letters of the people involved, and reconstructed their conversations. “In today’s world those letters would be emails and the chances of finding them will be vanishingly small 100 years from now,” said Cerf.

He concedes that historians will take steps to preserve material considered important by today’s standards, but argues that the significance of documents and correspondence is often not fully appreciated until hundreds of years later. Historians have learned how the greatest mathematician of antiquity considered the concept of infinity and anticipated calculus in 3BC after the Archimedes palimpsest was found hidden under the words of a Byzantine prayer book from the 13th century. “We’ve been surprised by what we’ve learned from objects that have been preserved purely by happenstance that give us insights into an earlier civilisation,” he said.

Researchers at Carnegie Mellon University in Pittsburgh have made headway towards a solution to bit rot, or at least a partial one. There, Mahadev Satyanarayanan takes digital snapshots of computer hard drives while they run different software programs. These can then be uploaded to a computer that mimics the one the software ran on. The result is a computer that can read otherwise defunct files. Under a project called Olive, the researchers have archived Mystery House, the original 1982 graphic adventure game for the Apple II, an early version of WordPerfect, and Doom, the original 1993 first person shooter game.

Inventing new technology is only half the battle, though. More difficult still could be navigating the legal permissions to copy and store software before it dies. When IT companies go out of business, or stop supporting their products, they may sell the rights on, making it a nightmarish task to get approval.

“To do this properly, the rights of preservation might need to be incorporated into our thinking about things like copyright and patents and licensing. We’re talking about preserving them for hundreds to thousands of years,” said Cerf.

TCP/IP 를 개발해 '인터넷의 아버지' 중 한 명으로 꼽히는 구글의 부사장 빈트 서프는 캘리포니아 산호세에서 개최된 미국 과학진흥협회 연례모임에서 '우리가 살고 있는 시대는 잊혀진 세대, 아니면 잊혀진 세기가 될 수도 있다'고 경고했습니다.


서프는 종이 등의 물리적인 매체에 기록되어 저장된 과거의 기록물들과는 달리 현대에는 사람들이 간단한 메모에서부터 사진과 음악, 영상에 이르기까지 모든 자료를 디지털화해 저장하고 있는데 이는 우리가 깨닫지 못하는 사이에 자료들을 정보의 블랙홀에 던져넣는 것과 다름이 없다고 표현하였습니다. 일견 디지털 매체에 기록된 자료들이 물리적 매체에 기록된 자료들보다 더욱 오래 지속될 수 있을 것 같지만, 아주 오랜 기간 동안 지속되는 디지털 매체와 세월이 지나도 이를 판독할 수 있는 방식이 유지되지 않는다면 오히려 더욱 빠른 정보의 손실만을 낳을 것이기 때문입니다.


이는 아주 가까운 과거의 자료들이 이미 훨씬 오래 전의 자료들보다 접근하기 더 어려워졌다는 사실을 통해 알 수 있습니다. 수천 년 전에 파피루스에 기록된 글이나 수백년 전에 양피지에 기록된 글은 지금도 아무런 도구 없이 읽을 수 있지만, 80년대 컴퓨터가 사용하던 카세트에 든 자료를 읽기 위해서는 기약도 없이 고물상을 뒤지거나 박물관으로 향해야 할 것이기 때문입니다. 그것도 기록이 남을 때의 이야기이며, 디지털 자료들은 단 한 번의 조작으로 순식간에 지워져 사라질 수도 있습니다. 서프는 2005년 에이브러햄 링컨의 대통령 선거전에 관한 책을 쓰기 위해 미국의 여러 도서관들을 돌아다니며 당시 쓰여진 편지들을 조사했던 역사가 도리스 컨즈의 이야기를 하면서, 만일 미래의 역사가가 현대 대통령들의 선거전에 관한 책을 쓰기 위해 이메일들을 찾아보려고 해도 헛수고일 것이라고 말했습니다.


그는 또한 현대의 역사가들도 가치가 있는 자료들을 보존하는 데 노력을 기울이고 있다는 점은 인정하지만, 어떤 자료의 중요성이 수백 년이 지나서야 드러나는 경우가 많아 결국 손실은 피할 수 없다는 설명도 덧붙였습니다. 그리고 기원전 3세기의 수학자들이 무한과 미적분학에 대한 개념을 예측하였다는 사실을 현대의 역사가들이 알 수 있었던 이유가 바로 13세기 비잔틴 제국의 기도서 사이에서 우연히 아르키메데스의 문서가 발견되었기 때문이었다는 사례를 그 예로 들었습니다.


컴퓨터의 작동을 에뮬레이션하는 카네기 멜론 대학교의 올리브 프로젝트 등 현대의 디지털 기록물을 미래까지 보존하는 연구가 계속 진행되고는 있으나 디지털 자료의 보존에 있어 해결해야 하는 문제는 개발만이 아닙니다. 복제와 보존을 위해서는 저작권 문제를 거치지 않을 수 없는데, 소프트웨어 등을 개발한 기업이 도산하여 권리를 처분하였다면 이를 해결하기 위해서 굉장히 복잡한 과정을 밟아야만 하기 때문입니다. 서프는 저작권, 특허권 등을 고려함에 있어 이제는 보존권도 묶어서 생각해야 수백 년, 수천 년을 지속될 기록물들을 남길 수 있는 방법일 수 있다고 끝맺었습니다.


"당신이 정말 소중하게 생각하는 사진들이 있거든 반드시 인쇄해서 간직하십시오."

