CCS de IBM desbloquea datos en archivos PDF para aplicaciones de IA

Solo podemos esperar que las operaciones de minería de datos con CCS no despierten superinteligencia maliciosa.

Una historia de ciencia ficción que destaca con orgullo entre la multitud esfuego de aguas profundas” Por Verner Vinge. Este pequeño bribón (un libro, no Vernor) contiene suficientes ideas estimulantes para dos o tres libros, todo envuelto en una sola pieza.

Uno de estos conceptos es que las galaxias en general, y la Vía Láctea en particular, están divididas en volúmenes concéntricos llamados “zonas de pensamiento” que corresponden a densidades estelares a escala galáctica. Hay cuatro de esas zonas. profundidad impensable, que contiene el núcleo de la galaxia. próximo, zona lenta, Donde se encuentran la tierra y nuestro sistema solar.esto es finalmente bajoy finalmente llegar a la capa más externa. Trascenderque contiene el halo galáctico.

Las zonas reflejan diferencias fundamentales en las leyes fundamentales de la física, que afectan a todo tipo de cosas, incluida la inteligencia y los viajes más rápidos que la luz (FTL). La inteligencia biológica es posible en la zona lenta, pero no la verdadera inteligencia artificial perceptiva (IA). Además, el viaje FTL no puede comenzar en la zona lenta. En comparación, los viajes FTL, la antigravedad, la inteligencia artificial inteligente, etc. son posibles en Beyond (odio pensar en lo que vive en Transcend).

La historia comienza con un equipo de humanos que viven en High Beyond realizando un estudio arqueológico en Lower Transcend. Actualmente están en un planeta deshabitado, explorando un archivo de datos de 5 mil millones de años que ofrece un potencial de riqueza inimaginable (si puede leer los datos). Desafortunadamente, despiertan una superinteligencia latente dentro de los archivos y ahí es cuando las cosas realmente comienzan a tomar forma (tenga en cuenta que todo esto sucede en el prólogo. Todavía 1. ¡No ha llegado al capítulo!).

La razón por la que me estoy rascando la cabeza con esto aquí es que los problemas relacionados con el acceso a datos de formatos archivados actualmente me preocupan mucho. No puedo decirte a cuántos programas de software, aplicaciones y archivos de datos no puedes acceder porque están almacenados en medios más antiguos (¿te suena el término “disquete de 8 pulgadas”?) porque actualmente están siendo capturado, sí. – formato obsoleto.

PDF es un formato de archivo desarrollado por Adobe Systems en la década de 1990 para capturar y mostrar documentos que contienen formato de texto e imágenes. Software de aplicación, hardware y sistemas operativos.

Actualmente hay un estimado de 2,5 billones de archivos PDF en circulación. Muchos tienen la forma de manuales de instrucciones para bienes de consumo, incluidos electrodomésticos y productos electrónicos. informes anuales de empresas y artículos científicos revisados por pares.

Sin embargo, aunque el formato PDF es excelente para compartir e imprimir, tiene problemas con la IA. El uso de la minería de datos y el aprendizaje profundo está en auge hoy en día, pero hasta ahora la IA no ha podido extraer datos directamente de archivos PDF. Como resultado, esta riqueza de conocimientos, en lo que respecta a las aplicaciones de aprendizaje automático y aprendizaje profundo, es utilizada por ingenieros, investigadores y analistas financieros para realizar tareas como descubrir nuevos materiales, inventar nuevos medicamentos y descubrir tendencias en los mercados financieros. La fuente permanece oscura.

Si tan solo esta investigación pudiera hacerse con IA. (Fuente: captura de pantalla de video de IBM)

Para abordar este problema, los científicos de IBM crearon un nuevo enfoque para abordar los desafíos más amplios de la conversión de PDF. Son los primeros en presentar su nuevo Servicio de Transformación de Corpus (CCS) basado en la nube en una prestigiosa feria comercial. Conferencia de ciencia de datos KDDse llevará a cabo en Londres, Inglaterra, del 19 al 23 de agosto.

como descubrimos este videoDespués de recibir capacitación en solo una docena de documentos PDF, el servicio puede ingerir millones de PDF en cuestión de días, estructurando y desbloqueando los datos para varias aplicaciones de IA.

como se explica en papel KDDCCS permite a los usuarios analizar y anotar documentos (es decir, recopilar datos reales), entrenar algoritmos de clasificación de aprendizaje automático y, en última instancia, convertir cualquier tipo de PDF o documento de mapa de bits en un canal estructurado que se puede convertir a un formato de representación de contenido.

“fuego de aguas profundas”, Las operaciones de minería de datos impulsadas por CCS no despiertan una superinteligencia maliciosa.

CCS de IBM desbloquea datos en archivos PDF para aplicaciones de IA

Blockchain trae nuevas oportunidades a la atención médica

Potencial de crecimiento de las redes eléctricas inalámbricas

El metaverso habilitado para AR aprovecha la tecnología antigua

CCS de IBM desbloquea datos en archivos PDF para aplicaciones de IA

Entradas relacionadas

Blockchain trae nuevas oportunidades a la atención médica

Potencial de crecimiento de las redes eléctricas inalámbricas

El metaverso habilitado para AR aprovecha la tecnología antigua