Archivo de Internet
Archivo de Internet | |
---|---|
Chico | ONG |
Fundación | 1996 |
Sede | ![]() |
Área de acción | Preservación digital |
presidente | Brewster Kahle |
Lema | acceso universal a todo el conocimiento |
Sitio web | |
Archivo de Internet sitio web | |
---|---|
URL | archive.org/ |
Tipo de sitio | Libreria digital |
Lengua | inglés |
Registro | Opcional |
Lucro | No |
Creado por | Brewster Kahle |
Lanzamiento | Mayo de 1996 |
Estado actual | activo |
Eslogan | acceso universal a todo el conocimiento |


Internet Archive es una biblioteca digital sin fines de lucro que tiene el propósito expreso de permitir un "acceso universal al conocimiento" [1] [2] . Ofrece un espacio digital permanente para acceder a diversos tipos de recursos: por ejemplo, sitios web, audio, imágenes en movimiento (videos) y libros. Internet Archive fue fundado por Brewster Kahle en 1996 y es parte del IIPC ( Consorcio Internacional de Preservación de Internet ). [3] Además de su función principal de almacenamiento, Internet Archive es una organización que hace campañas para Internet gratis y abierto, y es una organización sin fines de lucro reconocida oficialmente en los Estados Unidos .
Las oficinas administrativas tienen su sede en San Francisco, mientras que los centros de datos se encuentran en San Francisco, Redwood City y Mountain View en California . La colección digital más masiva de la biblioteca es el archivo web, una especie de colección de "imágenes fijas" de la World Wide Web catalogadas por fecha de adquisición. Para garantizar la estabilidad y seguridad de los datos almacenados, toda la colección tiene un espejo en el servidor Bibliotheca Alexandrina en Alejandría, Egipto . El archivo permite al público cargar y descargar material digital desde y hacia sus servidores sin costo alguno.
También permite el acceso a uno de los proyectos de archivo digital más grandes de libros existentes, es parte de la Asociación Estadounidense de Bibliotecas y está oficialmente reconocida por el estado de California como biblioteca pública. [4] La empresa tiene 200 empleados, muchos de los cuales están involucrados en el escaneo de volúmenes de papel en centros especializados. La oficina principal de San Francisco tiene treinta empleados. Internet Archive tiene un presupuesto anual de aproximadamente $ 10 millones, que proviene principalmente de una variedad de fuentes: las ganancias de los servicios relacionados con el rastreo web , colaboraciones, subvenciones, donaciones y la Fundación Kahle-Austin. [5]
Según el sitio web de Internet Archive, "muchas sociedades dan importancia a la preservación de los artefactos relacionados con su patrimonio cultural. Sin estos artefactos, la civilización no tiene memoria y no tiene forma de aprender de sus éxitos y fracasos. Nuestra cultura ahora siempre produce. Más productos en formato digital. La misión de Internet Archive es ayudar a preservar estos artefactos y crear una biblioteca digital en Internet para investigadores, historiadores y académicos ".
Historia
Brewster Kahle fundó Internet Archive en 1996, el mismo período en el que fundó la empresa Alexa Internet , una empresa dedicada al servicio de rastreo web . Internet Archive comenzó a almacenar la World Wide Web en 1996, pero la colección no estuvo disponible hasta 2001 , cuando se desarrolló Wayback Machine. En 1999, Internet Archive se amplió agregando más colecciones, incluido Prelinger Archive . Actualmente, Internet Archive incluye, entre otras cosas, texto, audio, imágenes en movimiento y software. Alberga una variedad de otros proyectos, incluido un archivo de imágenes de la NASA , Indexing Service Archive-It y Open Library , un catálogo de volúmenes editado por software similar a una wiki.
El 25 de marzo de 2020, luego de la pandemia de COVID-19 , The Internet Archive lanzó la Biblioteca Nacional de Emergencias, una iniciativa que permite el acceso gratuito de texto completo a toda la colección digital de más de 1 millón de títulos en el catálogo. [6] [7]
Proyectos
Wayback Machine
Wayback Machine es la interfaz web utilizada por Internet Archive para la extracción de datos en sitios web desde archivos. Los sitios archivados representan una especie de "imágenes fijas" recopiladas en el momento de la adquisición de las páginas a través del software de indexación de Internet Archive. El nombre "Wayback Machine" proviene del término "WABAC Machine" utilizado en una de las historias de la serie animada Rocky y Bullwinkle . [8] El servicio, gracias a las arañas de Alexa , almacena a lo largo del tiempo los cambios y tendencias de los diferentes sitios web . Para sitios más pequeños, no tiene un almacenamiento en caché común, o las páginas rara vez se almacenan.
Es un servicio útil en los siguientes casos:
- estudio de la evolución de los sitios web;
- recuperación de páginas y sitios perdidos;
- buscar pruebas una vez publicadas y luego eliminadas.
El servicio permite acceder a versiones archivadas de páginas web del pasado, una especie de "archivo tridimensional" en palabras de Internet Archive. Millones de sitios web con sus datos (imágenes, texto, documentos relacionados, etc.) se almacenan en una base de datos gigante . No todos los sitios web están disponibles debido a la elección de muchos propietarios de sitios de excluir sus sitios de la indexación. Al igual que con todos los sitios basados en datos de rastreadores web, también faltan grandes áreas de la web por una serie de razones técnicas. A lo largo de los años, finalmente se han encontrado varios problemas legales relacionados con el archivo y la cobertura o no de los sitios, aunque estos no son el resultado de acciones deliberadas. [9]
El uso del término "Wayback Machine" en el contexto de Internet Archive se ha vuelto tan común que "Wayback Machine" e "Internet Archive" se han convertido casi en sinónimos en la cultura popular ; por ejemplo, en la serie de televisión Law & Order: Criminal Intent (en el episodio "Legacy", que se emitió por primera vez el 3 de agosto de 2008, titulado Amor virtual en la contraparte italiana), uno de los protagonistas del episodio utiliza la "Wayback Machine" para encontrar una copia archivada de un sitio web. La "instantánea" de los sitios archivados durante los distintos pasos del rastreador se vuelve públicamente accesible generalmente después de 6 a 18 meses.
Ejemplos de sitios web archivados por Internet Archive y vistos a través de Wayback Machine:
- Archivo de Internet ( archivo recursivo )
- Wikipedia , en web.archive.org.
- Google , en web.archive.org.
Internet Archive utiliza el protocolo Robots Exclusion Standard (a través del archivo robots.txt ) para la exclusión voluntaria de sitios de su base de datos. Internet Archive respeta las directivas del archivo robots.txt asegurándose de que sus bots no indexen las páginas. Por esta razón, Internet Archive ha hecho que varios sitios web no estén disponibles y son completamente inaccesibles a través de Wayback Machine. En caso de sitios bloqueados, solo almacena el archivo robots.txt .
Internet Archive aplica las reglas de robots.txt de forma retroactiva si un sitio bloquea la araña de Internet Archive a través del archivo robots.txt, entonces todas las páginas ya almacenadas por dominio dejan de estar disponibles. Además, el mismo comportamiento está reservado para todos los sitios web que lo soliciten explícitamente: por este motivo, cada vez que el propietario de un sitio solicita su exclusión del índice, la solicitud es consentida [10] , ya que no es "Internet Archivo interesado en preservar u ofrecer acceso a sitios web u otros documentos en Internet propiedad de personas que no quieren que sus materiales estén en nuestra colección ". [11]
Por ejemplo, la dirección https://web.archive.org/*/https://www.ubuntu-it.org , muestra las páginas copias de la página
- https://www.ubuntu-it.org,
- dividido según la fecha de guardado en el Archivo de Internet.
Biblioteca abierta
Open Library , entre cuyos fundadores también se incluye al activista digital Aaron Swartz [12], es una biblioteca digital creada con el objetivo de recopilar fichas para cada libro que se haya publicado e ingresarlas en una única base de datos; una especie de versión de código abierto de WorldCat , nacida en oposición al proyecto de digitalización Google Books [13] (en italiano, Google Books ). El proyecto nació en 2007 e incluye algunos millones de fichas de catálogo y libros digitalizados de dominio público que son totalmente accesibles y descargables. [14] Open Library es un proyecto que se basa en software gratuito y de código abierto, el código fuente es totalmente accesible desde el sitio de referencia. Desde junio de 2010, Open Library también ofrece un libro electrónico de servicio de préstamo realizado en colaboración con el distribuidor de contenido digital estadounidense OverDrive y bibliotecas estadounidenses [15] .
Archive-It
Desarrollado en 2006, Archive-It es un servicio que permite a instituciones y entidades individuales construir y preservar colecciones de material digital. [16] A través de una aplicación web, los suscriptores del servicio pueden recopilar, catalogar, indexar y, en el transcurso de 24 horas, acceso completo al archivo. Las colecciones se almacenan en servidores y el Archivo de Internet es accesible al público a través de búsquedas de texto completo. Todo el material digital se almacena en dos copias (una primaria y otra de respaldo), se indexa regularmente en el Archivo de Internet general y se puede enviar una copia de los datos a los suscriptores que lo soliciten. En 2009 Archive-It cuenta con 125 instituciones asociadas en 42 estados de EE. UU. Y en 11 países para un total de 1.500 millones de URL y 963 colecciones públicas. Las instituciones que han firmado el servicio Archive-It son principalmente bibliotecas académicas y universidades, archivos estatales, instituciones federales, museos y organizaciones culturales, incluida la Organización de Literatura Electrónica , los Archivos del Estado de Carolina del Norte , la Comisión de Archivos y Bibliotecas del Estado de Texas. , la Universidad de Stanford , la Biblioteca Nacional de Australia , el Grupo de Bibliotecas de Investigación (RLG) y muchos otros.
Imágenes de la NASA
El proyecto Imágenes de la NASA se creó gracias a un Acuerdo de Ley Espacial entre Internet Archive y la NASA para hacer accesibles al público los archivos de imágenes, videos y audio producidos por la agencia a lo largo de los años a través de un único archivo totalmente indexado y accesible a través de búsquedas. El sitio web se lanzó en julio de 2008 y ha llegado a contener más de 100.000 archivos.
Colecciones de recursos multimedia
Además de los archivos web, Internet Archive mantiene grandes colecciones de activos multimedia digitales reconocidos, por quienes los subieron al sitio, en el dominio público en los Estados Unidos o distribuidos con una licencia que permite la redistribución gratuita, como las licencias Creative Commons . . Los activos se clasifican según el tipo de medio (imágenes en movimiento, audio, texto) y en otras subclasificaciones según diversos criterios.
Colección de películas
La colección de imágenes en movimiento (Moving Image Collection) Internet Archive incluye: noticieros; dibujos animados clásicos; propaganda de guerra; Prelinger Archive , un archivo especial que contiene material considerado "efímero" como una película patrocinada por empresas y organizaciones, películas educativas y películas caseras, anuncios y otro material cuyos derechos de autor han expirado. Las colecciones de recursos digitales son muchas y varían según el tema y la fuente de recuperación; la colección brickfilm , por ejemplo, contiene una serie de películas realizadas en stop-motion con ladrillos Lego; otra recopilación se refiere a las elecciones presidenciales estadounidenses de 2004 y la campaña electoral relacionada. La colección de Independent News incluye una serie de colecciones, incluida la del concurso de 2001 World At War de Internet Archive, para el que los concursantes crearon cortometrajes para demostrar la importancia del acceso a la información y la historia. Los archivos relativos al ataque a las Torres Gemelas del 11 de septiembre de 2001 contienen material de archivo producido por las principales cadenas de televisión y el evento fue transmitido en vivo ese día.
Película
En las colecciones de películas también hay versiones originales de películas famosas, que incluyen:
- El club de los 39
- El acorazado Potemkin
- El nacimiento de una nación
- Lirio roto
- El siglo del yo
- Farsa
- Revuelta de Columbia
- Dos horas mas
- En las garras de los rieles
- El gabinete del doctor Caligari
- Lo que se debe y no se debe hacer en las citas
- Desvío
- Agachate y cubrete
- Escape de Sobibor
- Isabel de Inglaterra
- Como gané la guerra
- Rapacidad
- Cáñamo para la victoria
- Intolerancia
- El mocoso
- Viaje a la luna
- Labios mentirosos [ poco claro ]
- M - El monstruo de Düsseldorf
- El hombre que sabía demasiado
- Manos: Las manos del destino
- Consentimiento de fabricación: Noam Chomsky y los medios
- Noche de los muertos vivientes
- Nosferatu (no de dominio público fuera de los Estados Unidos)
- Plan 9 desde el espacio exterior
- El poder de las pesadillas (no público)
- Corbata shan gong zhu
- Locura por el porro
- Locura sexual
- Lady Lou
- El triunfo de la voluntad
- Los siete episodios de Why We Fight
Colección de audio
La colección de audio incluye música, libros de audio, noticias, transmisiones de radio antiguas y una gran variedad de otros archivos de audio. La colección Live Music Archive incluye más de 50,000 grabaciones de conciertos de artistas independientes y artistas establecidos y conjuntos musicales que adoptan reglas laxas en el registro de sus conciertos, como Grateful Dead y Smashing Pumpkins .
Colección de textos
La colección incluye textos de libros digitalizados de varias bibliotecas de todo el mundo, así como muchas colecciones especiales. Internet Archive tiene 23 centros de escaneo en cinco países, digitalizando aproximadamente 1000 libros por día, financiado por bibliotecas y fundaciones. [17] En noviembre de 2008, cuando había alrededor de 1 millón de textos, la colección completa ocupaba alrededor de 0,5 petabytes , incluidas imágenes sin procesar, archivos PDF, OCR y datos sin procesar. [18]
Entre 2006 y 2008, Microsoft Corporation colabora con Internet Archive a través de su proyecto Live Search Books , escaneando más de 300.000 libros que se han agregado a la colección, así como apoyo financiero y equipos de escaneo. El 23 de mayo de 2008, Microsoft anunció que pondría fin al proyecto Live Book Search y al escaneo de libros nuevos. [19] Microsoft ha puesto a disposición libros digitalizados sin restricciones contractuales y ha donado su equipo de escaneo a su antiguo socio.
En octubre de 2007, los usuarios de Internet Archive comenzaron a cargar libros de dominio público desde Google Books . [20] En enero de 2010, Google recopiló 900.000 libros escaneados, lo que representa más de la mitad del total de libros disponibles en archive.org. Los libros son idénticos a las copias que se encuentran en Google y están disponibles para uso y descarga ilimitados , como todos los materiales de Internet Archive.
Internet Archive es miembro de Open Book Alliance , una organización que ha estado entre las más críticas del acuerdo entre la Asociación de Editores Estadounidenses y Google para digitalizar libros.
En 2016, también tras el escándalo de las elecciones presidenciales , Internet Archive inició una colaboración con las versiones de Wikipedia en varios idiomas mediante la preparación de un programa para la sustitución automática de los enlaces rotos en la plantilla Citation. En su reemplazo, Internet Archive Bot [21] coloca la ' URL de la copia digital de esta fuente en Internet Archive, con una vista previa de dos páginas para contextualizar la cita.[22]
Nota
- ^ (EN) Preguntas frecuentes de Internet Archive presentadas el 15 de abril de 2013 en Wikiwix.
- ^ (EN) Internet Archive: acceso universal a todo el conocimiento archivado el 13 de octubre de 2013 en Internet Archive .
- ^ (EN) Miembros archivados el 13 de junio de 2010 en Internet Archive . (Consorcio Internacional para la Preservación de Internet)
- ^ (EN) "Internet Archive oficialmente a la biblioteca" Archivado el 1 de septiembre de 2016 Wikiwix., 2 de mayo de 2007.
- ^ (EN) CabinetMagazine.org Archivado el 19 de marzo de 2013 en Internet Archive .
- ^ Palmer Haasch, The Internet Archive lanzó una biblioteca pública digitalizada sin esperas de más de 1 millón de libros que normalmente solo están disponibles para escuelas y bibliotecas , en insider.com.
- ^ Anuncio de la Biblioteca Nacional de Emergencias en archive.org. Consultado el 26 de marzo de 2020 ( presentado el 26 de marzo de 2020).
- ^ (ES) Verde brezo, Una biblioteca tan grande como el mundo: Brewster Kahle tiene la tecnología para reunir el último archivo de conocimiento humano. ¿Qué lo detiene? Leyes restrictivas de derechos de autor , Business Week Online, 28 de febrero de 2002. Consultado el 25 de junio de 2007 ( presentado el 1 de junio de 2002).
- ^ (EN) Thelwall, M. y Vaughan, L. (2004). ¿Una historia justa de la Web? Examen del equilibrio de los países en Internet Archive, Library & Information Science Research, 26 (2), 162-176.
- ^ (ES) Algunos sitios no están disponibles debido a Robots.txt u otras exclusiones Archivado el 15 de abril de 2011 en Internet Archive ..
- ^ (ES) ¿Cómo puedo eliminar las páginas de mi sitio de Wayback Machine? Archivado el 10 de octubre de 2013 Archivo de Internet ..
- ^ Aaron Swartz El proyecto Open Library en openlibrary.org. Consultado el 2 de mayo de 2019 ( presentado el 27 de junio de 2015).
- ^ (ES) Antone Gonsalves, Internet Archive afirma avances en contra de la iniciativa de bibliotecas de Google , InformationWeek, 20 de diciembre de 2006. Recuperado el 5 de enero de 2007 ( presentado el 14 de octubre de 2007).
- ^ ( ES ) La biblioteca abierta hace su debut en línea , Chronicle of Higher Education, The Wired Campus, 19 de julio de 2007. Consultado el 26 de enero de 2013 (presentado por 'URL original del 30 de septiembre de 2007).
- ^ Small Moves: Open Integrates Digital Library Lending , en blog.openlibrary.org. Consultado el 26 de enero de 2013.
- ^ (EN) Stefanie Olsen, Preserving the Web one group a time , CNet News.com, 1 de mayo de 2006.
- ^ (EN) Libros que escanean para ser financiados públicamente archivado el 24 de septiembre de 2009 en Internet Archive ., Anuncio de Brewster Kahle, 23 de mayo de 2008.
- ^ (EN) "Acceso masivo a OCR para 1 millón de libros", archivado el 6 de diciembre de 2008 en Internet Archive ., Via Open Library Blog, por raj, 24 de noviembre de 2008.
- ^ (ES) "Búsqueda de libros terminando" Archivado el 20 de agosto de 2008 en Internet Archive ., Blog de búsqueda en vivo. Anuncio oficial de Microsoft. Último acceso el 23 de mayo de 2008.
- ^ (EN) Google Books en Internet Archive Archivado el 3 de octubre de 2013 Internet Archive ..
- ^ También puede consultar la discusión IABot blue que enlaza con los libros de archivo de Internet del 14 de noviembre de 2019, presente en la versión en inglés de Wikipedia.
- ^ The Internet Archive Wikipedia Is Making More Reliable , en wired.com, 11 de marzo de 2019. Consultado el 24 de noviembre de 2019 ( presentado el 24 de noviembre de 2019).
Artículos relacionados
- Proyecto Gutenberg
- Archivo web
- Preservación digital
- PANDORA
- WebCite
- Rastreador web
- Web 3.0
- HathiTrust
Otros proyectos
-
Wikimedia Commons contiene imágenes u otros archivos en Internet Archive
enlaces externos
- (EN) Sitio web oficial en archive.org.
- (ES) Blog oficial en blog.archive.org.
- Archivo de Internet (canal) en YouTube .
- (ES) Archivo de Internet , en GitHub .
- Brewster Kahle, Archiving the Internet , en Scientific American , marzo de 1997 (presentado por 'URL original el 11 de octubre de 1997).
- Leonard Berbers, The Ark of memory , en Corriere della Sera (archivado por 'URL original 22 de julio de 2014).
- (EN) Guía para los recursos del Archivo de Internet , en WikiHow .
- Otros proyectos y recursos
- (ES)páginas web del servicio de captura y almacenamiento en archive.is.
- (EN) Servicio avanzado de archivo y recuperación de publicaciones científicas , en datacite.org.
- (EN) del Laboratorio de Innovación del Servicio de Bibliotecas de Harvard en perma.cc.
- (EN) Servicio de almacenamiento de material científico y educativo en webcitation.org.
- (EN) NDIIPP de EE. UU. Y Negociación de contenido , en mementoweb.org. (servicio de búsqueda avanzada)
- (ES) Las 11 mejores alternativas Wayback Machine en 2017 para verificar el historial de sitios web , en pingzic.net. Recuperado el 13 de mayo de 2018 (presentado por 'url original 13 de mayo de 2018).
Control de autoridad | VIAF (ES) 123 343 900 · LCCN (ES) n2001062537 · GND (DE) 1222513323 · BNF (FR) cb170635025 (fecha) · NLA (ES) 54356800 · WorldCat Identidades (ES)LCCN-n2001062537 |
---|