El Ministerio de Industria y Tecnología de la Información de China (MIIT) ha presentado una propuesta normativa que obligaría a que las funciones esenciales y de uso frecuente —especialmente aquellas relacionadas con la seguridad— dispongan de un acceso directo mediante botones o interruptores físicos, eliminando la dependencia exclusiva de pantallas y mandos táctiles.
Entre las funciones señaladas por los reguladores se encuentran los intermitentes, las luces de emergencia, el selector de marchas y el sistema de llamada de emergencia. Además, el borrador establece requisitos concretos de diseño: los botones deberán tener un tamaño mínimo de 10 × 10 milímetros y estar situados en una ubicación claramente visible y fácilmente accesible para el conductor.

Esta iniciativa se suma a la reciente decisión de China de prohibir los tiradores de puertas enrasados sin accionamiento mecánico. En conjunto, supone un nuevo paso para frenar ciertas tendencias de diseño en la industria del automóvil que priorizan la estética y la digitalización extrema, a menudo en detrimento de la ergonomía y la seguridad.
De aprobarse la medida, los fabricantes tendrán que replantear el diseño del habitáculo para adaptarse a los nuevos requisitos y reducir su dependencia de las pantallas en favor de controles físicos. Los interiores hiper digitalizados y minimalistas de marcas como BYD, Chery, Tesla o Xiaomi (entre otras muchas) podrían verse obligados a evolucionar hacia soluciones más tradicionales y funcionales. Ya escribimos sobre este asunto hace no mucho tiempo…
Tienen que ocurrir accidentes y muertes para tomar soluciones que ya se sabían en principio. Pero claro también dan marcha atrás, porque la mayoría de los conductores ven excesiva tanta pantalla y tecnología digital. También porque era para algunos un gran atractivo y cebo para que comprarán coches eléctricos. Pero las ventas y los números no cuadran. Solo se venden en países con renta per cápita alta. En los países del Mediterráneo se vende poco el eléctrico y la gente prefiere de combustión y de segunda mano, sin tantas pantallas, cámaras, sensores, cruceros adaptativos… Los fabricantes han perdido el norte, pero las ventas hablan y la gente no quiere tanta tecnología. Falla cualquier sensor y te deja tirado. Los equipamientos mínimos ya tienen excesiva tecnología para muchos. Deberían volver a equipamientos mínimos básicos y la gente si quiere más tecnología aumenta de equipamiento. Si en España somos muchos más que hace 6 años y las ventas apenas suben es por alguna razón. Y en Europa también somos más millones y más que seremos. Además opino que comprar un eléctrico para ciudad está bien, pero quién ha diseñado las nuevas ciudades está quitando las ganas de meterse en la ciudad con un coche, sea de combustión o eléctrico. Mejor dejar el coche en el perímetro de la ciudad y coger un bus, el metro, taxi….Entre unos y otros están quitando las ganas de comprarse un coche. Deberían replantearse la estrategia que montaron si quieren vender coches. Una estrategia chapuza que solo vale para países con renta per cápita alta.
Soy chino. En China, la norma establece que los botones relacionados con la seguridad que requieren contacto deben ser físicos, incluyendo los diseños sin manijas de puerta. En Europa y en Estados Unidos no existen regulaciones similares, mientras que China ya ha comenzado a aplicarlas. En mi opinión, esto representa un avance, y no un retroceso como parece sugerir la imagen que acompaña a este artículo.
Además, este año China implementará nuevas normas nacionales para las baterías de alto voltaje de los vehículos eléctricos, incluyendo requisitos específicos sobre el tiempo en el que no deben incendiarse. Esta serie de estándares nacionales constituye una gran iniciativa. El autor del artículo también podría mencionar que los vehículos eléctricos chinos avanzarán hacia el mercado global.
Creo que en tu comentario se están mezclando demasiadas cosas distintas: seguridad vial, exceso de pantallas, ventas de eléctricos, renta per cápita, diseño urbano… y eso hace que el argumento pierda fuerza. No es lo mismo debatir sobre ergonomía digital que sobre electrificación o planificación de ciudades.
La tecnología en sí no es el problema, especialmente cuando está orientada a la seguridad. Sistemas como el frenado automático de emergencia, el asistente de mantenimiento de carril o el control de crucero adaptativo no están ahí por “moda”, sino porque reducen accidentes. En España seguimos teniendo más de mil fallecidos al año en carretera; si parte de esa tecnología ayuda a bajar esa cifra, no parece un exceso sino una mejora.
Respecto a las ventas, en Europa se siguen vendiendo más de 10 millones de turismos al año y los modelos electrificados ya suponen una parte muy relevante del mercado. Es cierto que la penetración del eléctrico puro es desigual y depende mucho de renta e infraestructuras, pero eso no significa que la estrategia sea “chapuza”, sino que la transición es progresiva y distinta según país.
La electrificación responde además a objetivos regulatorios y ambientales claros: el transporte es uno de los principales emisores de CO₂ en la UE y los fabricantes tienen límites muy estrictos que cumplir. No es solo una cuestión comercial.
Y sobre limitar el acceso rodado a los centros urbanos: más que “quitar ganas de comprar coche”, es una medida de salud pública. Menos tráfico implica menos contaminación, menos ruido y menos enfermedades asociadas a partículas y NO₂. De hecho, muchas ciudades europeas aplican estas medidas precisamente para mejorar la calidad de vida.
Se puede debatir sobre cómo hacer mejor la transición, pero reducirlo todo a “la gente no quiere tecnología” o “han perdido el norte” simplifica demasiado un tema que es bastante más complejo.
También debería haber interruptores mecánicos para conectar cada una de las ayudas a la conducción (ADAS), a voluntad del conductor, y uno principal para desconectarlas todas… Aunque lo mejor sería que las ADAS fueran algo opcional
Parece mentira que tengan que ser los chinos los que se han dado cuenta…
Comentario off-topic: ¿Cuesta mucho más combinar dos fotos reales que pedir a la IA que genere una imagen-basura? (basura en todos los sentidos, pues se siente «barata» y por que tiene un impacto negativo en el medio ambiente)
Hay muchas opiniones sobre la tecnología. Y no digo que en algunos casos sea necesaria, pero ahora se están planteando que se han pasado con tantas pantallas y “tactilismo”. Mi opinión es la consecuencia de haber hablado con muchas personas de este tema. Pero lo más importante es la imposición de tecnología en un equipamiento mínimo sin opción de elegir. Si hubiera un equipamiento básico sin tanta tecnología beneficiaría a las ventas. Aquí se han equivocado. Y estoy a favor de la descontaminación de las ciudades. Sin embargo, no descontaminan el tráfico aéreo y marítimo. Tampoco con repoblación de montañas y limpieza de bosques. Menos con los polígonos industriales al lado de la ciudad. Contaminan brutalmente con las guerras y no hacen nada.
Resumiendo, si crees todo lo que te venden los medios de comunicación, piensas y tienen una opinión. De lo contrario, tienes otra. Y todas son respetables.
‘Entre las funciones señaladas por los reguladores se encuentran los intermitentes, las luces de emergencia, el selector de marchas y el sistema de llamada de emergencia’ Eso parece lo más básico, y se cumple en prácticamente el 100%. Lo importante es saber cuáles más son las que han propuesto.
Richi, sigues mezclando temas como si fueras un niño en una fiesta recogiendo sobras.
Las ADAs han venido para quedarse. ¿Por qué? Simplemente, porque salvan vidas. Porque hace unos años en España morían casi 5000 personas en accidentes de tráfico y ahora son casi cinco veces menos. Esa imposición es seguridad para el conductor y para los demás conductores. Yo, desde luego, estaré más tranquilo si todos los coches que hay a mi alrededor llevan detector del cambio de carril o frenada de emergencia. Tú no sé, tú sabrás.
Tienes coches con todo el equipamiento básico obligatorio por 14000 euros. Incluso menos. No es una imposición. Es un favor.
Sobre la contaminación tienes una parte de razón pero otra parte de lo que presentas como razonamiento es ridícula, ya que confundes impactos globales de la contaminación con los locales. La reducción del tráfico rodado en entornos urbanos y hacer unos coches menos contaminantes van directamente a la salud de la población de las ciudades. Directamente.
Pensar y tener una opinión es bueno. Pero esa opinión ha de ser fundada y reflexionada tras lecturas varias y de fuentes de calidad. Lo de la reflexión del librepensador lleva, a menudo y como es el caso, a equivocarse.
@Miguel ¿No sería más razonable y sensato, que la implementación obligatoria de cualquier sistema de seguridad (cinturones de seguridad, airbags, ABS, ESP… ADAS), esté avalada por estadísticas detalladas de accidentalidad vial (muertes, heridos graves, heridos leves), por categoría de vehículo accidentado (tamaño y peso del vehículo, cilindrada y potencia, equipamiento de seguridad disponible….), tipo de accidente (choque frontal, salida de la vía, alcance…), número de km anuales recorridos por los vehículos involucrados (así como su antigüedad y estado), edad y condiciones físicas de los conductores o peatones implicados.. en lugar de tomar decisiones en base a «estadísticas generales» de accidentalidad, que no correlacionan todos esos factores, y que por tanto, no sirven para identificar las auténticas causas de los accidentes, ni las bondades de cada equipamiento de seguridad en concreto?
¿De verdad cree Vd que la ciudadanía puede tener opiniones «fundadas y reflexionadas tras lecturas varias y de fuentes de calidad», si las autoridades garantes de la seguridad vial, a nivel mundial no publican estadísticas detalladas de toda la casuística accidental, y prefieren publicar sólo estadísticas generales, que sólo sirven para atemorizar a la ciudadanía, y que acepte como buenas las nuevas normas de seguridad, sin rechistar?
Siempre hay que basarse en fuentes y opiniones más o menos fiables. Pero claro, dependiendo del sector que viene, se va a manipular para conseguir un objetivo. Esta manipulación no quiere decir que mientan siempre, sino que presentarán la información para favorecer una narrativa que maximice el impacto emocional de las personas. Esto por supuesto aplicando Cherry Picking que se viene utilizando excesivamente durante los últimos años. Todo esto hace que muchas personas no se planteen un estudio y análisis de muestreo y actúen como lo han programado los estrategas del sector.
Esas estadística, Vicente ,existen.
La DGT publica cada año el Anuario Estadístico de Accidentes y bases de microdatos bastante completas. Incluyen, entre otras variables: i) Muertos, heridos graves y leves. ii) Tipo de accidente (frontal, alcance, salida de vía, atropello…) iii) Tipo de vehículo (turismo, motocicleta, camión, autobús, etc.) iv) Antigüedad del vehículo. v) Edad y sexo del conductor. vi) Uso de cinturón o casco. vii) Alcohol y drogas. viii) Tipo de vía (urbana/interurbana)
A nivel europeo hay bases comparables entre países: i) Muertes por tipo de vía. ii) Edad del conductor o peatón. iii) Tipo de vehículo. iv) Factores concurrentes. v) Tendencias históricas.
En 1970 murieron en carretera en España unas 5.000 personas con un parque móvil que rondaba los 3–4 millones de vehículos; en 1990, en pleno “antes los coches eran mejores”, se superaban los 9.000 fallecidos con alrededor de 15 millones de vehículos; en 2010 la cifra ya había bajado a unos 1.700 con más de 30 millones de vehículos; y en 2023–2025 nos movemos en torno a 1.100–1.200 muertos con un parque que supera los 35 millones.
Si hacemos la ratio por 100.000 vehículos, el riesgo de morir en carretera hoy es varias veces menor que hace 30 o 50 años. Es decir: ahora hay muchos más coches, mucha más tecnología, más normas, más radares… y, pese a todo el dramatismo contemporáneo, bastante menos probabilidad de acabar en una estadística mortal.
Qué curioso que la “era sin pantallas y con coches más puros” coincidiera con cifras de fallecidos que hoy nos parecerían una catástrofe nacional. A veces los datos tienen la mala costumbre de estropear los relatos románticos. Que sigas pensando que tu BMW 525d del año 1998 es la leche y que tú eres un gran conductor que no necesita ninguna ADA, no significa que tanto las autoridades competentes en tráfico de los países europeos consideren que son necesarias.
Y ahora, léase este su párrafo que le cito aquí de nuevo sin pasar demasiada vergüenza: «¿De verdad cree Vd que la ciudadanía puede tener opiniones «fundadas y reflexionadas tras lecturas varias y de fuentes de calidad», si las autoridades garantes de la seguridad vial, a nivel mundial no publican estadísticas detalladas de toda la casuística accidental, y prefieren publicar sólo estadísticas generales, que sólo sirven para atemorizar a la ciudadanía, y que acepte como buenas las nuevas normas de seguridad, sin rechistar?»
Por fin se dan cuenta de que tanta pantalla y tan poco botón no es el camino. El futuro es el control por voz y hasta que llegue un uso responsable de las pantallas
@Miguel Por supuesto que se publican muchísimas estadísticas, con muchos «detalles»… pero las conclusiones a las que llegan esos «comités de expertos», no creo que siempre estén ligadas al interés general…
Cuando yo hablo de «estadísticas detalladas», me refiero a poner a disposición de la ciudadanía, toda la casuística accidental, de los últimos 30 o 40 años, en una página web pública (al estilo del buscador de km77), de modo que cualquier ciudadano pueda elaborar sus propias estadísticas de siniestralidad, a partir de los factores que considere oportuno, tanto por el nivel de gravedad de los accidentes (muertos, heridos graves, heridos leves), como de las características de los vehículos involucrados (rango de peso del vehículo, rango potencia, tracción / propulsión / tracción, transmisión manual / automática, frenos de tambor / disco, ABS, ESP, airbags delanteros / traseros / de cortina, ciertos dispositivos ADAS… antigüedad del vehículo, ITV en vigor…), de las personas afectadas (conductor / acompañante / peatón / ciclista, edad, estado físico…), de la ubicación de los siniestros (autopista, carretera convencional, zona urbana…), u otras circunstancias atestiguadas (velocidad excesiva, distancia de seguridad insuficiente…).
Por ejemplo, si alguien desea adquirir un vehículo con ciertas características técnicas (tamaño, potencia, tipo de tracción,…) y con cierto equipamiento de seguridad (ABS, ESP, airbags delanteros / traseros, unos u otros dispositivos ADAS…), sería muy interesante que las distintas DGT nacionales (y aún mejor si hubiera una DGT europea, o mundial) ofrecieren datos de todos los accidentes en los que esta «categoría de vehículos» han estado involucrados, en relación con otros vehículos de semejante «categoría», más antiguos o más modernos, o con otro equipamiento de seguridad, o respecto al total del parque automovilístico (y con ratios respecto al número de km recorridos por dicha «categoría personalizada», con datos obtenidos por las ITV, año por año).
Con todos estos datos en bruto, sí que se podrían elaborar estadísticas realmente detalladas, que resultarían muy ilustrativas para poner en evidencia las bondades de ciertas características técnicas (peso, tamaño, potencia…), o de ciertos equipamientos de seguridad, sin necesidad de tener que aceptar como «buenas», las conclusiones o recomendaciones de ningún «experto» o «comité de expertos», por muy «buena fe» que puedan tener.
Un saludo cordial
Estaría bien que lo publicaran, pero es un trabajo minucioso y no lo van a hacer. No les interesa. Las estadísticas, las cifras, las encuestas, informadas por los medios (tv, internet, libros, prensa…) te lo puedes creer o no. Es sencillo, si crees en la Biblia piensas de una forma y si no crees en otra. Si crees en el COVID piensas de una forma y si no de otra. Excepto los que tienen intereses económicos que solo miran su beneficio. Pero si te dan esa información es porque quieren que la masa piense y llegue a unas conclusiones, para conseguir el objetivo y la meta que ellos quieren. Las cifras, los porcentajes, las estadísticas, los diagramas, es lo que más manipula directamente en la mente de la persona. Cada cual puede creer lo que quiera. Si lo crees, pensarás de una forma y si no lo crees pensarás de otra. Los medios no es la verdad absoluta, sino una herramienta para programar lo que quieren que piense la gente.
Cómo no interesa publicar los accidentes y sus causas, pues publican cifras de muertos que es lo que más alarma, miedo e incertidumbre a la gente.
Nunca publicarán lo que no les interesa en cualquier tema. Y si lo hacen, nunca se sabrá si es verdad.
Entiendo la idea de fondo a pesar de ser de cuñadismo avanzado: cuantos más datos públicos y desagregados haya, más posibilidades tiene cualquier ciudadano de analizarlos por sí mismo. En principio, la transparencia es positiva. Ahora bien, hay varios matices importantes.
Primero, buena parte de esos datos ya existen y están disponibles en forma de microdatos anonimizados (al menos en España y en la UE), pero no pueden publicarse con el nivel de detalle extremo que planteas por razones de protección de datos y trazabilidad. Cuando empiezas a cruzar variables muy específicas (tipo exacto de vehículo, antigüedad, lugar concreto, circunstancias personales…), el riesgo de reidentificación aumenta considerablemente.
Segundo, incluso aunque se publicara absolutamente todo en bruto, el problema no desaparece: el análisis estadístico riguroso no consiste solo en filtrar columnas y contar casos. Requiere controlar variables de confusión, exposición al riesgo, sesgos de selección y tamaño muestral. Por ejemplo, un vehículo más potente puede aparecer en más siniestros graves no por su potencia en sí, sino porque recorre más kilómetros, circula más por autopista o lo conducen perfiles concretos. Sin ajustar por kilómetros recorridos y contexto de uso, las conclusiones pueden ser engañosas.
Tercero, comparar “categorías personalizadas” de vehículos exige datos muy precisos de vehículo-kilómetro recorrido por cada subgrupo técnico. Esa información no está disponible de forma individualizada ni siquiera para las administraciones, porque el kilometraje real no se registra anualmente de manera centralizada y homogénea. Las ITV solo aportan lecturas puntuales, no una base continua comparable entre países.
Cuarto, la existencia de comités técnicos no implica que sus conclusiones sean ajenas al interés general. De hecho, muchas de las mejoras en seguridad (ABS, ESP, airbags, ADAS) se han introducido tras estudios empíricos revisados internacionalmente que muestran reducciones medibles de siniestralidad. No son opiniones, son resultados reproducibles en múltiples países.
Por último, el objetivo de la estadística pública no es sustituir el análisis experto por análisis individual, sino ofrecer información fiable que pueda ser auditada y contrastada dentro de marcos metodológicos sólidos. Más datos siempre es deseable, pero sin metodología adecuada, más datos no significan necesariamente mejores conclusiones.
En resumen: transparencia, sí. Datos abiertos, también. Pero el análisis serio de seguridad vial requiere algo más que una base de datos descargable y un filtro avanzado; requiere diseño estadístico, control de variables y contexto. Y eso no invalida la utilidad de los expertos, sino que precisamente la hace necesaria.
Y Richi. Deja de buscar conspiraciones. Y busca ayuda para esa cabecica tuya.
Entiendo la idea de fondo: cuantos más datos públicos y desagregados haya, más posibilidades tiene cualquier ciudadano de analizarlos por sí mismo. En principio, la transparencia es positiva. Ahora bien, hay varios matices importantes.
Primero, buena parte de esos datos ya existen y están disponibles en forma de microdatos anonimizados (al menos en España y en la UE), pero no pueden publicarse con el nivel de detalle extremo que planteas por razones de protección de datos y trazabilidad. Cuando empiezas a cruzar variables muy específicas (tipo exacto de vehículo, antigüedad, lugar concreto, circunstancias personales…), el riesgo de reidentificación aumenta considerablemente.
Segundo, incluso aunque se publicara absolutamente todo en bruto, el problema no desaparece: el análisis estadístico riguroso no consiste solo en filtrar columnas y contar casos. Requiere controlar variables de confusión, exposición al riesgo, sesgos de selección y tamaño muestral. Por ejemplo, un vehículo más potente puede aparecer en más siniestros graves no por su potencia en sí, sino porque recorre más kilómetros, circula más por autopista o lo conducen perfiles concretos. Sin ajustar por kilómetros recorridos y contexto de uso, las conclusiones pueden ser engañosas.
Tercero, comparar “categorías personalizadas” de vehículos exige datos muy precisos de vehículo-kilómetro recorrido por cada subgrupo técnico. Esa información no está disponible de forma individualizada ni siquiera para las administraciones, porque el kilometraje real no se registra anualmente de manera centralizada y homogénea. Las ITV solo aportan lecturas puntuales, no una base continua comparable entre países.
Cuarto, la existencia de comités técnicos no implica que sus conclusiones sean ajenas al interés general. De hecho, muchas de las mejoras en seguridad (ABS, ESP, airbags, ADAS) se han introducido tras estudios empíricos revisados internacionalmente que muestran reducciones medibles de siniestralidad. No son opiniones, son resultados reproducibles en múltiples países.
Por último, el objetivo de la estadística pública no es sustituir el análisis experto por análisis individual, sino ofrecer información fiable que pueda ser auditada y contrastada dentro de marcos metodológicos sólidos. Más datos siempre es deseable, pero sin metodología adecuada, más datos no significan necesariamente mejores conclusiones.
En resumen: transparencia, sí. Datos abiertos, también. Pero el análisis serio de seguridad vial requiere algo más que una base de datos descargable y un filtro avanzado; requiere diseño estadístico, control de variables y contexto. Y eso no invalida la utilidad de los expertos, sino que precisamente la hace necesaria.
@Miguel Si relee con atención lo que he escrito, yo no hablo de buscar datos de siniestralidad para un «tipo exacto de vehículo», ni para un «lugar concreto»… sino para ciertas «categorías de vehículos» (por rangos de peso, por ejemplo, en intervalos de 50 kg, por rangos de longitud, en intervalos de 20 cm, por rangos de altura, en intervalos de 10 cm, por potencia, en intervalos de10 CV, tipo de transmisión automática / manual, tipo de tracción / propulsión / AWD, ABS, ESP, airbags frontales / laterales / de cortina, ADAS, ITV en vigor…), según cierto tipo de personas afectadas (conductor, acompañantes, peatones, ciclistas… edad, en intervalos de 5 años, y estado de salud, según buena forma física / enfermedad crónica / embriaguez o incapacidad para conducir), tipo de vía (autopista, carretera convencional, zona urbana, recta, curva…) y estado de la misma (seca / mojada / nevada / helada, pavimento en buen / mal estado….), infracciones atestiguadas (velocidad excesiva; distancia de seguridad insuficiente, frontal o lateral; maniobras imprudentes de cambio de sentido o adelantamiento, en zonas de poca visibilidad; utilización adecuada / inadecuada de luces e intermitentes; peatones que no miran antes de cruzar por pasos de peatones, o lo hacen fuera de los pasos al efecto…) de modo que con todos estos datos, la ciudadanía pueda hacerse fácilmente una idea de las causas reales de los accidentes, y de las bondades de las características técnicas, y del equipamiento de seguridad, de ciertas «categorías de vehículos» respecto a las demás.
Si todos estos «datos genéricos» de siniestralidad, con este nivel de detalle, estuvieren a disposición de todo el mundo, los expertos podrían seguir realizando sus investigaciones estadísticas, para aclarar las auténticas causas de los accidentes, y las bondades de los dispositivos de seguridad, y por supuesto que tendrían toda la confianza ciudadana… pero no así en caso contrario.
Entiendo mejor tu planteamiento ahora, pero incluso en el escenario que describes siguen existiendo dos límites muy claros: protección de datos y viabilidad práctica.
Primero, aunque hables de “categorías” y no de modelos concretos o lugares exactos, el nivel de desagregación que propones (rangos de peso de 50 kg, potencia de 10 CV, edad en tramos de 5 años, tipo de vía, estado del firme, infracciones específicas, estado físico, equipamiento concreto, etc.) genera combinaciones extremadamente específicas. Cuando cruzas suficientes variables, incluso siendo “genéricas”, el riesgo de reidentificación aumenta mucho, sobre todo en accidentes graves o en zonas con baja densidad de siniestros. Por eso las administraciones aplican límites de agregación: no es una cuestión de opacidad, sino de cumplimiento legal (RGPD en Europa) y de protección efectiva de las personas implicadas.
Segundo, los datos detallados para investigar ya existen y se facilitan bajo convenios y protocolos estrictos a universidades, centros de investigación y organismos especializados. Es decir, para investigación sí están disponibles, pero bajo control metodológico y garantías jurídicas. Lo que no es viable es abrir bases ultra-desagregadas a consulta libre sin filtros, porque la responsabilidad legal y el riesgo de uso indebido recaería sobre la administración.
Tercero, está la cuestión de coste-beneficio. Diseñar, mantener y actualizar una plataforma pública con ese nivel de granularidad, anonimización dinámica y control estadístico avanzado tendría un coste técnico y administrativo elevado. El número real de ciudadanos que harían análisis estadístico riguroso con ese nivel de detalle sería previsiblemente muy bajo. La administración tiene que priorizar recursos donde el impacto sea mayor.
Cuarto, incluso con todos esos datos abiertos, el problema metodológico seguiría existiendo. La siniestralidad no depende solo de características técnicas del vehículo, sino de exposición (kilómetros recorridos por cada categoría), perfil del conductor, entorno de uso, etc. Sin datos precisos de vehículo-kilómetro por subcategoría, cualquier comparación puede inducir a conclusiones erróneas. Por eso la investigación seria no se limita a “cruzar filtros”, sino que aplica modelos estadísticos que controlan variables de confusión.
En resumen: transparencia sí, datos abiertos en la medida de lo posible también. Pero el acceso masivo a microdatos ultra-detallados tiene límites legales, técnicos y de eficiencia pública. Para investigar con rigor, los datos existen y se facilitan en marcos controlados. Para el público general, se publican estadísticas agregadas que permiten comprender tendencias sin comprometer derechos ni generar interpretaciones simplistas. Eso no elimina la necesidad de confianza en los expertos; más bien reconoce que el análisis complejo requiere tanto datos como metodología y responsabilidad.
En cualquier caso es un placer discutir contigo.
Si todos estos «datos genéricos» de siniestralidad, con este nivel de detalle, estuvieren a disposición de todo el mundo, los expertos podrían seguir realizando sus investigaciones estadísticas, para aclarar las auténticas causas de los accidentes, y las bondades de los dispositivos de seguridad, y por supuesto que tendrían toda la confianza ciudadana… pero no así en caso contrario.
Estoy completamente de acuerdo, si se hiciera sin ningún tipo de interés de negocio. Es una utopía, pero sería un trabajo bien hecho. Si tú haces un cálculo estadístico particular, te puedes basar en él. Pero si por ejemplo lo hace una comunidad, pues ya intervienen otros factores. Y por supuesto que generase confianza en la gente. Pero claro, hay muchos intereses en juego. Y esto también hay que analizarlo y no es consideración, es análisis.
Por eso siempre que he querido comprar un coche he hablado con mecánicos, taxistas, gente que tenía el modelo que yo quería. Y también me he basado en las pruebas que hacía antes km77, que me parecían muy constructivas y donde aprendías mucho. Eran buenas pruebas y no estaría mal que volvieran a hacerlas, analizando consumos, velocidades, fiabilidad, adelantamientos, sensaciones en la conducción…
Y volviendo al tema de las pantallas, me parece que se han dado cuenta tarde de lo necesario de recuperar los mandos físicos. Más vale tarde que nunca.
Era algo necesario y de sentido común.
El ejemplo de «diseño que se les han ido de las manos» por antonomasia es Tesla, sin sensores de ultrasonidos, sin pantalla tras el volante (o al menos un HUD), sin palanca para intermitentes, sin palanca para limpiaparabrisas, sin palanca de cambio, sin botones físicos para funciones vitales (desempañar delante y detrás, antiniebla…), sin aireadores manuales, sin tiradores mecánicos de las puertas, en fin… Un dislate de diseño, que además tiene mucho delito, porque son coches que luego y a pesar de esos pecados, van de lujo y con una calidad cada vez mejor, pero tienen un diseño que directamente es peligroso.
Y a Tesla se le ha copiado hasta la saciedad, por lo que esos mismos pecados están repetidos en multitud de marcas.
@Miguel ¿Qué derechos ciudadanos se comprometen, cuando en estos datos de siniestralidad, no aparecerían números de matrícula de ningún vehículo, ni el nombre y apellidos de sus propietarios, ni de las personas heridas o muertas, ni los lugares concretos de los accidentes, y el ámbito de los datos es lo suficiente amplio (una nación, un continente, el mundo), y sólo se ofrecen rangos de peso, tamaño, potencia, características técnicas, y equipamiento de seguridad de los vehículos involucrados (y su antigüedad, y el número de km recorridos anualmente por el conjunto de vehículos de esta «categoría», y si ha pasado la ITV correspondiente, y si ha tenido una avería fortuita o provocada, en alguno de sus componentes de seguridad más relevantes…), así como el tipo de vía y condiciones de la misma, meteorología… y ciertos aspectos genéricos de los conductores (si disponen de licencia, su edad aproximada, y si su estado de salud era óptimo o no, de forma temporal o permanente) y del resto de personas involucradas (peatones, ciclistas…), así como si se han atestiguado ciertas infracciones genéricas (adelantamiento indebido, cruce de peatones fuera de las zonas habilitadas al efecto, distancia de seguridad insuficiente…)?
¿De verdad cree que estos datos de siniestralidad, a nivel nacional, continental, o mundial, podrían servir para identificar a alguna de las personas implicadas? ¿Me podría poner un ejemplo de cómo se podría realizar esa «reidentificación» de las personas implicadas en un accidente, a partir de estos datos de siniestralidad?
Entiendo tu planteamiento, pero el problema no es si aparecen matrículas o nombres, sino cómo funciona realmente la reidentificación en estadística moderna.
La reidentificación no se produce porque publiques un DNI; se produce cuando cruzas suficientes variables poco frecuentes. Por ejemplo: un accidente mortal en una carretera convencional, en tramo curvo, con pavimento helado, vehículo de 1.850–1.900 kg, 210–220 CV, AWD, conductor varón de 72–75 años con enfermedad crónica y resultado positivo en alcohol. Si ese siniestro ocurrió en una provincia concreta en un año determinado, aunque no publiques el lugar exacto ni el nombre, en determinadas zonas con baja densidad de accidentes esa combinación puede corresponder a un único caso conocido públicamente. Con cruzarlo con prensa local o registros judiciales, la identificación se vuelve posible.
Esto no es una hipótesis teórica: es precisamente el motivo por el que el RGPD y las agencias estadísticas trabajan con el concepto de “riesgo de reidentificación por combinación de variables”. Cuantas más variables cruzas y más estrechos son los rangos (50 kg, 10 CV, 5 años de edad, estado físico específico…), más aumentan las “celdas pequeñas” en la base de datos. Y las celdas con muy pocos casos son las que generan riesgo.
Además, hay otro factor práctico: para ofrecer los datos como planteas, la administración tendría que construir un sistema de anonimización dinámica que evitase automáticamente combinaciones con baja frecuencia. Eso implica coste técnico elevado y supervisión constante. No es simplemente “colgar un Excel”.
Por otro lado, muchos de los datos que mencionas ni siquiera existen de forma estructurada en bases nacionales comparables (por ejemplo, kilometraje anual real por categoría técnica concreta, o estado mecánico detallado previo al siniestro). No es que no se quieran publicar: es que no se registran de forma homogénea.
Y finalmente, incluso suponiendo que todo eso se publicara sin riesgo legal, el análisis válido seguiría requiriendo control de variables de exposición (vehículo-kilómetro real por subcategoría), modelos estadísticos multivariantes y tratamiento de sesgos. No basta con cruzar filtros para inferir causalidad.
En resumen: no se trata de ocultar información ni de blindar a “expertos”. Se trata de que la combinación de granularidad alta + baja frecuencia de casos sí puede permitir reidentificación indirecta, y de que la gestión pública debe equilibrar transparencia, protección de datos y coste. Para investigación rigurosa, los datos existen bajo protocolos controlados. Para publicación masiva, hay límites legales y técnicos que no son caprichosos.
@Miguel Yo no he hablado de «estado mecánico detallado previo al siniestro», sino simplemente de si los vehículos involucrados tenían la ITV en vigor, y si en el peritaje del siniestro por parte de la aseguradora, se había detectado alguna «avería fortuita, o provocada», ya sea durante o antes del siniestro… de modo que le rogaría no ponga palabras en mi boca, que no haya pronunciado.
Respecto a la «reidentificación» del implicado en el accidente del ejemplo que me propone, difícilmente un ciudadano particular podría realizar esa labor, «cruzando con prensa local o registros judiciales», ya que las hemerotecas de la prensa local o nacional, no suelen ofrecer los nombres y apellidos de los implicados en los accidentes, ni tampoco se clasifican los accidentes por estas variables tan técnicas… y en lo que atañe a los «registros judiciales», que yo sepa no disponen de bases de datos públicas para que cualquier ciudadano pueda «cruzar» este tipo datos de accidentes, ni telemáticamente, ni presencialmente… de modo que esa labor de «reidentificación», a lo largo y ancho del mundo, de un continente, o de una nación, sería prácticamente imposible.
Lo que es seguro, es que las aseguradores, los ministerios del interior, y buena parte de los fabricantes de vehículos, disponen de toda esta información detallada y categorizada… así como los «expertos» que elaboran esas «estadísticas de siniestralidad», en las que Vd tanto confía… pero como ya le he dicho, sin este mínimo de transparencia por parte de las autoridades garantes de la seguridad vial, la ciudadanía no debería confiar en las recomendaciones o conclusiones de ningún «experto» o «comité de expertos».
Usted ya está hablando de otra cosa. Y es en la desconfianza que parece que tiene en las instituciones. Pero fíjese. Igual que en ella en usted. Porque esa información que pide y que si quiere luego le explica cómo iba a manejar no se puede dejar en manos de cualquiera.
Le repito. Y usted luego siga con su matraca absurda. Las autoridades ya publican datos agregados amplios y permiten el acceso a microdatos anonimizados para investigación bajo control legal. Repito. Bajo control legal. Su intención puede ser muy noble. O no. Eso no es opacidad, es cumplimiento de la normativa de protección de datos y de los principios estadísticos básicos que rigen en toda la UE. Pretender que se publique de forma abierta y combinable toda la casuística detallada de 30 o 40 años —incluyendo variables técnicas, médicas y periciales— no solo sería jurídicamente delicado, sino también desproporcionado en coste y utilidad pública. El número real de ciudadanos capaces de analizar correctamente esa información sería mínimo. Reitero. Me explica cómo lo haría? mientras que el riesgo legal y la carga administrativa serían elevados. Transparencia sí; convertir bases técnicas complejas en un escaparate masivo sin control metodológico ni garantías, no parece ni razonable ni eficiente.Mas bien estupido.
@Miguel ¿Está Vd seguro que los «principios estadísticos básicos que rigen en la UE» están realmente concebidos para una ofrecer a la ciudadanía una información de la más alta calidad, de modo que pueda estar absolutamente segura que la implementación de ciertas normas (en este caso serían los sistemas de seguridad que implementan los vehículos) está plenamente justificada, aportando los suficientes datos de la casuística experimental, de modo que cualquier ciudadano pueda analizar con sus propios conocimientos, para no tener que confiar en ningún «experto» o «comité de expertos»… o más bien seguimos viviendo en el medievo, y todo sigue siendo «cuestión de fe» en unos «expertos», y en unas autoridades, como ocurría con los antiguos clero y nobleza?
Ya le he explicado que sería prácticamente imposible cruzar los datos de siniestralidad de las DGT, con las hemerotecas y registros judiciales, para obtener información personal de nadie… y en tal caso, la infracción de protección de datos no la cometerían las DGT, sino la prensa o los registros judiciales, al ofrecer una información personal al público general, que en ningún caso debería tener acceso. Sus «miedos» son infundados… la información que solicito es más que razonable, y no comprometería la identidad de nadie, si todas las instituciones, así como la prensa, no publican ninguna información personal.
Un saludo cordial
Vicente, si el planteamiento parte de la idea de que los datos se ocultan deliberadamente o de que los comités técnicos funcionan como una suerte de clero moderno al que hay que “creer por fe”, entonces dejamos el terreno técnico y entramos en uno puramente ideológico. Y en ese terreno es muy difícil debatir, porque ya no hablamos de metodología, sino de desconfianza estructural. Mira, yo trabajo en Climatología y estoy harto de discutir con magufos negacionistas del cambio climático que a la tercera vez que les desmontas desde la ciencia sus argumentos recurren al comodín de las élites. Allí acaba la discusión, porque es como pelear con un cerdo, te quiere llevar a su terreno para llenarlo todo de mierda.
Y por mi trabajo conozco bastante sobre la política de datos, su uso su mal uso. Los principios estadísticos y de protección de datos en la UE no están diseñados para “impedir” el análisis ciudadano, sino para equilibrar transparencia, rigor y derechos fundamentales. La posibilidad de reidentificación por cruce de variables existe, aunque no sea evidente para un usuario individual, y por eso las agencias estadísticas aplican límites de agregación. No es un miedo infundado; es un criterio técnico consolidado. Parece que el miedo solo está orientado hacia los poderes públicos, cuando la capacidad de empresas tecnológicas para trabajar sobre nuestra información multiplica en mucho la de los estados. Y allí sí que no sabemos con qué interestatal.
Los datos para la investigación existen y se facilitan bajo marcos regulados. Lo que no es razonable es exigir que toda la casuística detallada, combinable sin restricciones, esté en abierto para cualquiera. El coste, la complejidad y los riesgos legales no son triviales, y el número de ciudadanos que realmente podrían extraer conclusiones metodológicamente válidas sería muy reducido. Y en tu caso… para qué los quieres? Para demostrar que tu BMW 525D del año 1999 es mejor que un coche actual? Para elegir entre un Renault Clío o un Seat Ibiza? Creo que ya te he explicado varias veces el sesgo de error y el tipo de análisis necesario, entre otras cosas.
Y si hablamos de preocupación por el uso de datos, te repito, conviene recordar que el problema no está en las instituciones, sino en grandes plataformas privadas a las que cedemos información personal a diario sin demasiado debate público. Tendrás supongo un teléfono móvil, en Android o iOS, que constantemente está monitorizando dónde estás, qué haces, dónde te paras, qué buscas, qué miras, durante cuánto tiempo, tus consultas sobre salud, sobre política… todo, absolutamente todo. Y te preocupa un comité de expertos al que tú, como persona individual, le importas una mierda?
Se puede exigir transparencia sin convertir la desconfianza en axioma. Pero si partimos de que todo comité técnico es sospechoso por definición, el debate deja de ser técnico y pasa a ser una cuestión de fe… justo lo que dices querer evitar.
@Miguel Que Vd diga que la «posibilidad de reidentificación existe» o existiría, en el caso de que las DGT nacionales publicaren los datos de siniestralidad categorizados, y que ya están a disposición de las aseguradoras, fabricantes y otras instituciones públicas… no tiene fundamento, si ninguna de ellas publica datos personales ni geográficos concretos. Le he pedido un ejemplo de dicha posible «reidentificación», en el que todas las instituciones cumplan con la LOPD, y no me lo ha dado. Vd sólo fantasea con su existencia, para proteger los privilegios de las instituciones y expertos ¿Por qué esas personas tienen el privilegio de acceder a toda la casuística experimental, en cualquier ámbito de actividad, y el resto de la ciudadanía no puede acceder, y por tanto no puede debatir con dichos «expertos», en igualdad de condiciones?
Vicente, le pongo un ejemplo concreto y realista de cómo funciona la reidentificación sin necesidad de publicar nombres, matrículas ni ubicaciones exactas.
Supongamos que en una provincia española se publica un registro con estas variables combinables:
– Año 2024
– Carretera convencional
– Tramo en curva
– Pavimento helado
– Vehículo 1.900–1.950 kg
– 220–230 CV
– AWD
– Automático
– ITV en vigor
– Conductor varón 70–75 años
– Enfermedad crónica
– Resultado positivo en alcohol
– Fallecido
Esa combinación puede corresponder a un único caso en todo el año en esa provincia.
Aunque no haya nombre ni kilómetro exacto, basta con buscar en prensa local: “fallece hombre de 73 años en accidente en carretera comarcal con su SUV de alta gama”. La prensa no necesita dar todos los datos técnicos; con edad, sexo, tipo de vehículo y circunstancias generales ya es posible vincular el registro estadístico con el hecho conocido. Eso es reidentificación por combinación de variables poco frecuentes.
Cómo hacerlo. Se puede. Cuando se habla de riesgo de reidentificación no se trata de nombres o matrículas, sino de combinaciones de variables. En estadística se llaman cuasi-identificadores: edad en tramos, tipo de vía, meteorología, características técnicas del vehículo, etc. Cada una por separado no identifica a nadie, pero combinadas pueden dejar un único caso en un ámbito determinado (lo que se denomina “unicidad” o singling out). Si una combinación da lugar a celdas con muy pocos casos (n=1, 2 o 3), existe riesgo objetivo de identificación indirecta.
Por eso las agencias estadísticas aplican criterios técnicos como el k-anonimato: no se publican combinaciones si no alcanzan un mínimo de casos (por ejemplo, k≥5). Si una celda queda demasiado pequeña, se agrupan categorías (rangos de edad más amplios, potencia más amplia, etc.) o se suprimen variables. También se evalúa el riesgo de cruce con información externa disponible públicamente. Esto no es una opinión, es práctica estándar de Statistical Disclosure Control en toda la UE.
Si se diseñara una plataforma pública con filtros avanzados, tendría que incorporar automáticamente estos límites: umbrales mínimos, agregación forzada cuando el filtro estrecha demasiado y mecanismos que impidan aislar casos por comparación de consultas. Sin esas salvaguardas, el riesgo no es teórico, es matemático.
Y es exactamente el tipo de riesgo que las agencias estadísticas están obligadas a evitar. No es fantasía. Es teoría estadística aplicada y está documentada en la literatura sobre disclosure control y riesgo de “singling out”. Si introduce el término «singling out privacy» en google academico le da, nada más y nada menos, que 137.000 resultados. Puede ponerse a ordenarlos en columnas en su excel junto a los datos que solicita sobre siniestralidad. Se divertirá.
Respecto al “privilegio”, no es tal. Los investigadores acceden a microdatos bajo convenios, anonimización reforzada y responsabilidad legal, precisamente porque saben tratarlos metodológicamente y porque asumen obligaciones jurídicas. Eso no es una casta medieval; es un sistema de gobernanza del dato. Igual que no cualquiera accede a historiales clínicos completos para “debatir en igualdad de condiciones” con un epidemiólogo.
Y de esto, Vicente, le doy otro ejemplo claro. Un médico puede acceder a su historial clínico completo. ¿Ponemos historiales médicos anonimizados a disposición de todo el mundo? ¡Incluido el suyo? Podría servir incluso para que un banco no le diera un crédito. Hay más. Un grupo de epidemiólogos puede trabajar con bases de datos sanitarias desagregadas a nivel individual. ¿Es eso un “privilegio”? No. Es un acceso regulado, limitado y sometido a responsabilidad legal, precisamente porque manejan información sensible, saben para qué la quieren y saben cómo tratarla metodológicamente.
La igualdad en el debate público no exige acceso irrestricto a microdatos sensibles. Exige datos agregados suficientes, metodología transparente y posibilidad de auditoría científica. Eso ya existe.
Si partimos de que cualquier limitación técnica es un “privilegio”, entonces el problema no es estadístico, es de desconfianza estructural hacia cualquier institución. Y ese es otro debate distinto. Demasiado habitual, por cierto, en la actualidad, por parte de los que se denominan librepensadores que no son más que analfabetos que han leído dos cosas.
Y por cierto, por definición, tú nunca debatirás con expertos en igualdad de condiciones, porque no eres experto. Su argumentación está empezando a rozar el ridículo.
@Miguel El ejemplo que ha puesto no es válido desde la primera linea… ya que los datos publicados por las DGT no serían a nivel provincial, sino nacional, continental, o mundial… y en ningún caso se publicarían los nombres y apellidos de los implicados.
¿Qué problema hay en que se publiquen los datos de los atestados de accidentes, o de los informes clínicos, o de los contratos de alquiler o de propiedad… si están categorizados en rangos aproximados, y no se publican datos sensibles (nombres y apellidos, ubicaciones concretas…) y el ámbito geográfico de recopilación de datos, es lo suficientemente amplio (una nación, un continente, o el mundo entero) para que la ciudadanía pueda disponer de la misma «información básica» que utilizan los expertos, para poder debatir con ellos con confianza?
Vicente, a ver, que antes decías esto:
«Cuando yo hablo de «estadísticas detalladas», me refiero a poner a disposición de la ciudadanía, toda la casuística accidental, de los últimos 30 o 40 años, en una página web pública (al estilo del buscador de km77), de modo que cualquier ciudadano pueda elaborar sus propias estadísticas de siniestralidad, a partir de los factores que considere oportuno, tanto por el nivel de gravedad de los accidentes (muertos, heridos graves, heridos leves), como de las características de los vehículos involucrados (rango de peso del vehículo, rango potencia, tracción / propulsión / tracción, transmisión manual / automática, frenos de tambor / disco, ABS, ESP, airbags delanteros / traseros / de cortina, ciertos dispositivos ADAS… antigüedad del vehículo, ITV en vigor…), de las personas afectadas (conductor / acompañante / peatón / ciclista, edad, estado físico…), de la ubicación de los siniestros (autopista, carretera convencional, zona urbana…), u otras circunstancias atestiguadas (velocidad excesiva, distancia de seguridad insuficiente…).»
Por favor, deja de hacerme perder el tiempo.
https://www.autolimite.com/30101/la-guerra-de-los-botones.html
Escrito hace 10 años.
@Miguel En ese texto no se habla en ningún momento de publicar nombres y apellidos, ni otros datos realmente «personales» y «sensibles», ni de los municipios o provincias en las que se producen los siniestros, de modo que ningún «banco», ni nadie, va a poder «reidentificar» a nadie, a partir de esta información.
Aprenda a leer, o mejor dicho, a comprender lo que lee… sin prejuicios ni ideas preconcebidas de ninguna índole.
Un saludo cordial
Y dale… te he explicado varias veces cómo de la información que tú demandas se pueden extraer esos datos personales. Algo que no es admisible en el contexto legal actual.
Pero más que tu comprensión lectora y tus contradicciones me preocupa el sustrato ideológico que hay detrás de toda tu argumentación. Esa desconfianza en lo que llamáis élites, ese desprecio a los expertos. Es el mismo soporte argumental que utiliza en todo el mundo la extrema derecha antisistema. Y lo siento, pero por ahí no voy a pasar. El mismo que animaba a los librepensadores puros a impedir que en sus móviles llegase el ES-Alert. La misma que se pregunta que quién es la DGT para decirme cuàntas copas de vino puedo beber. La misma que no tiene problema en que sus datos, opiniones, visitas, gustos, etc, sean manipulados por X, meta, google o apple. Librepensadores, dicen llamarse.
Así que, una vez que has obtenido mi premio otorgado al magufo del mes, felicidades. Y puesto que argumentar contigo es inútil, dejo al metafórico cerdo en sus cosas y me voy a las mías.
@Miguel No pierda su preciado tiempo con presunciones de las «ideologías políticas» de los demás, ni con expresiones peyorativas que le ponen en evidencia… y concéntrese en el tema que nos ocupa.
Cuando Vd se refiere al titular en prensa local “fallece hombre de 73 años en accidente en carretera comarcal con su SUV de alta gama”… desde mi punto de vista, se estarían cometiendo varias infracciones de la «ley de protección de datos» (aunque parece que la actual ley es demasiado laxa, o ninguna autoridad se atreve a aplicarla). La edad exacta, así como el género, o cualquier otra característica personal, no debería publicarse nunca en medios de comunicación, ni tampoco se debería hacer referencia a los «detalles» del vehículo concreto, más allá de si se trata de una bicicleta, una moto, un coche, un camión, un tren, un avión… ni tampoco de las condiciones físicas de los involucrados, más allá de si superaba los límites legales de alcohol o drogas (en este caso particular, afortunadamente, no se hablada de este aspecto), ni de ningún otro «detalle» personal o «sensible» (domicilios, enfermedades…).
Si las autoridades fueran duras con los medios de comunicación, y con cualquier otra institución pública o privada, respecto a los datos realmente «personales o sensibles», que no pueden publicar ni facilitar en ningún caso, no habría ningún problema en publicar la «información científica básica» que sustenta las estadísticas de los expertos, y que a su vez avalan las nuevas normas y legislaciones… pero mientras toda esta «información científica básica» no esté disponible para la ciudadanía, tampoco se le puede pedir confianza en el «sistema».
Respecto a los «casos únicos» o de «baja frecuencia», tiene Vd razón en que merecen una consideración especial… pero bastaría con mostrar valores a partir de 5 o 10 en cualquier búsqueda, para reducir ese «riesgo de reidentificación», a valores ínfimos, y sin embargo, la confianza de la ciudadanía en los expertos, y en las autoridades que implementan cualquier nueva reglamentación, se elevaría al 100%
¿De verdad cree Vd que no merece la pena luchar por una mayor transparencia, en todos los ámbitos de actividad, y debemos conformarnos con aceptar nuevas leyes y normas, sin conocer la «información científica básica», que las sustentan?
Vicente, vuelves a hablar de “información científica básica”, pero lo que demandas desde hace muchos mensajes no es información básica, sino una base de microdatos exhaustiva, filtrable y combinable durante 30 o 40 años, con múltiples variables técnicas, personales y circunstanciales. Incluso pones el ejemplo de esta misma revista y su buscador.
Eso no es un resumen estadístico ni un informe metodológico; es acceso prácticamente integral a la casuística completa. Conviene no reducir ahora esa pretensión a una simple demanda de “datos básicos”, porque no es lo que ha planteado desde el inicio.
Sobre la transparencia: las metodologías, los criterios de agregación, los informes técnicos y las estadísticas consolidadas sí son públicos. Lo que no es público en abierto son los microdatos combinables sin restricciones, por razones legales y técnicas ya expuestas. Confundir ambas cosas lleva a un falso dilema: o apertura total o fe ciega. No es así.
En cuanto a los expertos: no lo son por autoproclamación ni por pertenecer a ninguna élite abstracta. Lo son porque tienen formación acreditada, experiencia contrastable, producción científica evaluada por pares y responsabilidad profesional y legal sobre lo que publican. Un investigador que accede a microdatos firma compromisos, trabaja bajo protocolos y responde ante su institución. Eso no convierte al ciudadano interesado en menos legítimo; simplemente reconoce que no todos los análisis tienen el mismo nivel de preparación técnica ni la misma responsabilidad jurídica.
Un ciudadano con interés legítimo puede y debe debatir, pero el debate en igualdad de condiciones no significa acceso irrestricto a cualquier base de datos sensible. Significa acceso a resultados, a metodología explicada y a revisión independiente. Ese marco ya existe en el sistema estadístico europeo.
En este punto, además, el intercambio se ha vuelto circular: se reiteran planteamientos ya respondidos sin que se incorporen los argumentos técnicos expuestos. Cuando una conversación entra en ese bucle, seguir prolongándola no aporta claridad ni mejora el entendimiento.
Por mi parte, doy el intercambio por concluido.
Podemos hacer un cálculo estadístico de la enfermedad de los niños mano-pie-boca, que es más incisiva en niños de 5 a 7 años. Haciendo un cálculo particular sin ningún medio exterior que lo manipule, sale un porcentaje de un 20 por cien.
Pero se ha sacado una vacuna, que soluciona el problema y hay que venderla masivamente. Ya hay un medio exterior que influya, hay negocio, es el sistema capitalista.
Por lo tanto el porcentaje hay que subirlo a un 60 por cien, y decir que no solo afecta a los niños de 5 a 7 años, sino que también a los de 4 y hasta 10 años. Esto acompañado con publicidad en TV y otros medios, comunicando que ha habido un empeoramiento, que la enfermedad se ha hecho más grave y puede dar lugar a consecuencias graves. Sí se detecta un niño, hay que ponerlo en cuarentena Y buscar con que niños se ha relacionado para aislarlos y ponerlos en cuarentena a todos. Y en la publicidad de todos los medios se informa que hay remedio, que hay vacuna, que tienes que cuidar a tu hijo y vacunarlo, porque es super contagioso. Se difunde en los colegios, que los profesores digan la importancia de la vacuna y que es mejor vacunarse inmediatamente. El niño que no se vacune es un peligro para el resto. Entre los padres empiezan a comentar que el niño que no se vacune, que sea expulsado.
La vacuna se vende en masa, de hecho, hay que pedir muchas más y existe un ansia entre los padres e hijos que hay urgencia en vacunarse.
Por lo tanto hay que distinguir entre cálculos estadísticos personales y particulares sin afán recaudatorio y la estadística con intención de manipular para conseguir un objetivo, sea personal, económico, electoral….
Vivimos en un sistema capitalista y este arrasa vorazmente.
Es increible como el los ultimos dias la prensa del motor esta tan interesada en las regulaciones que va a imponer China, cuando la mayoria no va a tener impacto en los coches Europeos (o si tiene impacto, sera totalmente invisible al consumidor).
Casi todos los modelos que se venden en China, estan fabricados exclusivamente en China con adpataciones al mercados Chino. Por ejemplo, Toyota tiene pantallas mas grandes en sus modelos chinos o la multitud de marcas Europeas que se venden o vendian hasta hace poco, tenian su version de batalla alargada (segun el gusto del consumidor Chino, no segun una normativa).
En otro orden de asuntos, como ya han dicho, la imagen que acompaña este articulo es una chapuza. km77.com esta empezando a contaminar su contenido con elementos de baja calidad.
@Miguel Cuando me refiero a la «información científica básica» que sustenta las estadísticas de los expertos, no utilizó la palabra «básico» como simple o simplificada… sino que me refiero a la «base o fundamento» de las mismas, es decir, la casuística de siniestralidad, categorizada del modo que he explicado, para que el «riesgo de reidentificación» sea ínfima, y la ciudadanía pueda confiar en los expertos y en las autoridades al 100%.
Nuevamente, sus prejuicios e ideas preconcebidas le impiden razonar con claridad… y cuando tenga tiempo, explíqueme un ejemplo de reidentificación, en el todas las instituciones y medios de comunicación, cumplan rigurosamente con la ley de protección de datos personales y sensibles.
Un saludo cordial
La payasada de seguir al mamarracho Elon Musk y sus ocurrencias.
Bien por China. Espero que salga pronto adelante y eso significará, que como casi todos los modelos no chinos se venden allí, al final será positivo para todos los coches.
Entiendo que actualmente con todas lasa funciones y configuraciones no se pueda tener un botón para cada cosa, pero gilipolleces como activar los limpias, las luces, el climatizador, los espejos…. ¿en serio?
Hombre, Vicente Gómez por aquí, cuanto tiempo!!
Veo que el cambio de nick te ha servido para encontrar una nueva víctima, y has vuelto por todo lo alto, batiendo récord de palabras.
Yo no sé como te han dejado salir…
José creo que el tal Vicente (y su IA) ha sido la víctima de sus propias contradicciones. Mensaje a mensaje veías como iba haciendo el ridículo. Y te aseguro que pocas cosas hay más divertidas como hacer entrar en contradicción y en bucle a un mágico. Aunque escriba bien.
@42 Pues si te quieres divertir, en la antigua sección de curvas enlazadas puedes conocer sus andanzas.
Para mí eres victima por dedicarle tiempo a semejante individuo, que no lo merece. Y el tiempo es lo más valioso que se tiene.
José los mensajes de Vicen no lo sé. Pero los míos eran todos para IA. Los suyos parecían.
Ni tengo idea sobre protección de datos ni tiempo que perder con magufos. Solo reírme un rato de ellos. Como ha sido el caso.
Copiar y pegar el mensaje. Ni los leía. Ni 5 minutos entre todo. Me ha costado más tiempo leer tu mensaje y redactar mi respuesta que todo lo anterior.
@Miguel No sabía que las IA ya son capaces de tratar con desdén a sus interlocutores, descalificarles personalmente, e incluso asociar sus discursos con «ideologías extremistas o antisistema»…
A mí me da la sensación que Vd, como buena parte de la inculta «sociedad digitalizada», usa la IA para «aliñar» sus opiniones, con parrafadas directamente extractadas de reglamentos y normativas, por simple y primitiva presunción… y sobre todo, para mostrar su carácter servil y adocenado.
Un saludo cordial
Vicente, no voy a entrar en descalificaciones personales ni en especulaciones sobre si alguien utiliza o no herramientas de apoyo para redactar sus intervenciones. Ese tipo de insinuaciones no aportan nada al debate y solo desplazan la conversación hacia el terreno personal, que no es el que nos ocupa.
Si en algún momento mi tono ha resultado incorrecto, lo dejo claro: el desacuerdo es estrictamente argumental. Pero convertir una discusión sobre límites legales y metodológicos en una cuestión de “servilismo”, “presunción” o “sociedad inculta” no eleva el nivel del intercambio; lo degrada.
Respecto al uso de reglamentos y normativas: cuando se debate sobre publicación de datos, protección jurídica y estadística oficial, citar el marco normativo no es “aliñar opiniones”, es precisamente fundamentarlas. El Reglamento General de Protección de Datos, los principios de control de divulgación estadística y las prácticas de anonimización no son ocurrencias personales, sino el marco técnico y legal vigente en la Unión Europea. Ignorarlo no hace que desaparezca.
También quiero aclarar algo importante: defender que existen límites legales y metodológicos no equivale a adoptar una postura ideológica concreta, ni a mostrar servilismo hacia ninguna institución. Significa reconocer que en cualquier sistema complejo —sanitario, judicial, estadístico o científico— el acceso a datos sensibles se regula por razones objetivas: responsabilidad jurídica, protección de derechos fundamentales y calidad metodológica.
Cuando un médico accede a un historial clínico completo o un investigador trabaja con microdatos desagregados, no estamos ante privilegios aristocráticos, sino ante acceso regulado con obligaciones y controles. La alternativa no es más democrática por el mero hecho de ser más abierta; puede ser simplemente más imprudente.
En cuanto a la insinuación de que utilizar herramientas digitales deslegitima una argumentación: lo relevante no es la herramienta, sino la solidez del razonamiento. La validez de un argumento no depende de si se redacta a mano, con procesador de texto o con asistencia tecnológica, sino de si está fundamentado y es coherente.
Lo que sí considero problemático es que el debate haya ido desplazándose progresivamente desde una cuestión técnica (publicación de microdatos y transparencia estadística) hacia ataques personales y atribuciones de carácter. Eso no contribuye a aclarar nada.
Yo he defendido que:
Existen límites legales objetivos en la publicación de microdatos combinables.
La reidentificación indirecta está documentada en la literatura estadística.
La transparencia no equivale a apertura irrestricta.
La confianza en expertos no es fe ciega, sino reconocimiento de acreditación, método y responsabilidad.
Usted puede discrepar de esas premisas. Es legítimo. Pero convertir el desacuerdo en una acusación de servilismo o incultura digital no aporta argumentos adicionales.
y Vicente,
Lo llamativo de su último mensaje no es la alusión a la IA, sino el giro completo del debate hacia la descalificación personal. Hasta ahora discutíamos sobre límites legales, metodología estadística y gobernanza del dato. Ahora introduce términos como “servil”, “adocenado” o “sociedad inculta digitalizada”. Ese desplazamiento no es casual: cuando el plano técnico se agota, suele aparecer el plano identitario.
Habla usted de “ideologías extremistas o antisistema” como si la mera mención fuera un insulto. No lo es. Es una descripción de un patrón argumental. Cuando se plantea que las instituciones publican datos pero no los “verdaderos datos”, que los expertos operan desde privilegios opacos, que la normativa es una coartada y que solo la apertura irrestricta garantizaría legitimidad, eso encaja exactamente con un marco de desconfianza estructural hacia cualquier mediación técnica o institucional. Eso, guste o no, es un planteamiento típicamente antisistema en el sentido literal del término: cuestiona la legitimidad del sistema de validación técnica y legal vigente.
No es una etiqueta ideológica partidista. Es una descripción conceptual.
En cuanto a la IA: sí, por supuesto que puede producir textos con tono crítico o incluso condescendiente. Es una herramienta de lenguaje que replica patrones humanos. Pero el tono no invalida el contenido. Y centrar el debate en si un texto ha sido redactado con asistencia tecnológica es irrelevante si no se desmontan los argumentos de fondo. La validez jurídica del RGPD o la existencia del control de divulgación estadística no dependen de quién lo escriba.
Me resulta especialmente llamativo que acuse de “servil y adocenado” a quien defiende marcos normativos contrastados, mientras da por buena, sin aportar respaldo técnico alguno, la idea de que bastaría con ampliar el acceso a microdatos para que la ciudadanía pudiera fiscalizar en igualdad de condiciones a comunidades científicas enteras. Eso sí es una afirmación extraordinaria… sin evidencia metodológica que la respalde.
También hay una paradoja evidente: desconfía usted profundamente de instituciones estadísticas sometidas a regulación europea, auditorías y controles públicos, pero no parece mostrar la misma cautela hacia narrativas simplificadas que circulan libremente en entornos digitales sin revisión por pares, sin responsabilidad legal y sin trazabilidad metodológica. La sospecha selectiva no es escepticismo científico; es sesgo.
Reivindicar transparencia es legítimo. Convertir cualquier límite técnico o jurídico en prueba de opacidad estructural ya no es una posición técnica, sino ideológica. Y sí, esa postura comparte rasgos con discursos que cuestionan de forma sistemática la legitimidad de expertos, reguladores y marcos institucionales.
En cualquier caso, el intercambio se ha alejado definitivamente del análisis de datos y ha entrado en el terreno de la atribución de intenciones y caracteres personales. No es un terreno en el que tenga interés en permanecer.
@MiguelAI Si la «reidentificación indirecta» está documentada en la «literatura estadística» ¿Por qué le cuesta tanto «cortar y pegar» 3 o 4 ejemplos concretos y reales, que avalen empíricamente esa legislación de «protección de datos»?
Mucho más importante que cumplir con la ley, o aceptar las recomendaciones o conclusiones de los expertos, es conocer la casuística experimental precisa, que es utilizada para la elaboración de las leyes y reglamentos… y aquellos que creen que la ciudadanía no debe acceder a esa información, no están apoyando una sociedad más abierta y avanzada, sino todo lo contrario, como es su caso?
¿Comprende ahora mejor la ideonidad de mis calificativos?
¿Comprende ahora mejor la idoneidad de mis calificativos?
@MiguelAI Los ejemplos, a ser posible, centrados en la reidentificación de personas involucradas en accidentes, o en cómo se podría realizar dicha reidentificación, aunque sea teóricamente, si la prensa y los registros judiciales cumplen escrupulosamente con la protección de datos, y no publican ni facilitan ningún dato personal de ninguno de ellos.
Un saludo cordial
Vicente,
Lo primero que conviene señalar es la incoherencia de su planteamiento. Usted exige que se publiquen bases de datos masivas, filtrables y combinables durante décadas con múltiples variables técnicas y personales, y al mismo tiempo sostiene que la reidentificación es imposible incluso si esas variables se cruzan libremente. Si realmente fuera imposible, entonces no habría necesidad de discutir límites, ni umbrales, ni anonimización. El hecho mismo de que exista una disciplina entera dedicada al control de divulgación estadística ya desmiente esa premisa.
Además, su exigencia de que se aporten “tres o cuatro ejemplos concretos y reales” como condición para aceptar la existencia del riesgo parte de un error conceptual. La protección de datos no se fundamenta en recopilar escándalos públicos de reidentificación consumada, sino en prevenir escenarios de riesgo antes de que se materialicen. Es exactamente el mismo principio que rige en seguridad industrial o sanitaria: no se espera a que colapse un puente para justificar los cálculos estructurales.
La reidentificación indirecta —por combinación de variables poco frecuentes— está ampliamente documentada en la literatura de estadística oficial y privacidad de datos. El concepto de “unicidad” o singling out no es retórica; es matemática básica aplicada a conjuntos de datos multidimensionales. Cuando usted propone permitir combinaciones amplias y libres durante 30 o 40 años de registros, lo que está planteando es precisamente el escenario que las agencias estadísticas evitan mediante agregación, supresión de celdas pequeñas y limitación de consultas.
Que usted considere que la prensa o los registros judiciales deberían publicar aún menos información no elimina el problema. El riesgo de inferencia no depende exclusivamente de titulares concretos, sino de la estructura combinatoria de los datos y de la existencia de información parcial en el entorno público. La protección no se diseña pensando en un escenario ideal donde nadie publique nada, sino en el mundo real.
También insiste en que “lo más importante” es acceder a la casuística experimental completa para poder debatir en igualdad de condiciones con los expertos. Ahí hay otra premisa discutible: la igualdad en el debate no implica acceso irrestricto a microdatos sensibles. Implica acceso a metodología, a resultados auditables y a revisión independiente. En sanidad, en economía o en justicia ocurre lo mismo: los datos individualizados se analizan bajo entornos regulados; lo que se publica son conclusiones respaldadas por método.
Por último, plantear que quien defiende límites técnicos y legales está en contra de una sociedad abierta es una caricatura. Una sociedad avanzada no es la que elimina todos los filtros, sino la que equilibra transparencia con protección de derechos fundamentales y rigor metodológico.
Usted puede considerar insuficiente ese equilibrio. Es una postura legítima. Pero convertir una discrepancia técnica en una cuestión de “idoneidad de calificativos” o de supuesta cerrazón mental no añade nada al argumento.
El debate técnico ya ha sido expuesto con suficiente detalle. Si su posición es que solo aceptará la existencia de un riesgo cuando vea un caso concreto de daño producido en abierto, estamos ante una diferencia de enfoque sobre cómo funcionan las políticas preventivas.
@Miguel En el ámbito científico, técnico, sanitario, judicial… es habitual hablar de casos concretos (derrumbes de puentes, edificios… accidentes de trenes, aviones… enfermedades más o menos raras… jurisprudencia de toda índole…), y no creo que haya problema en que la «información científica básica» de cada uno de ellos, sea publicada, siempre y cuando no se publiquen datos personales y concretos de los involucrados (nombres y apellidos, domicilios, etc…), sobre todo de las víctimas.
Sin embargo, los datos personales de los posibles responsables de dichas desgracias o accidentes (me refiero al nombre y apellidos de arquitectos, ingenieros, médicos, maquinistas, pilotos, conductores, empresarios ,cargos públicos, famosos en general… o incluso de ciudadanos «particulares» próximos a personalidades conocidas… así como su edad y formación académica, en el caso de que sea preciso para su cargo o trabajo, y estén puestos en cuestión), una vez que estos casos llegan al ámbito judicial, no creo que merezcan la misma protección, ya que esta información podría ser muy relevante para aclarar las auténticas causas de los accidentes (y así debería aparecer en la «información científica básica», como fundamento para la elaboración de estadísticas de siniestralidad, por parte de los expertos)
En el ámbito médico, no creo que se comprometan los derechos de ningún paciente que padezca una enfermedad exótica o rara, por el hecho de que su caso aparezca en una base de datos nacional, continental, o mundial, si sólo se alude a un cierto rango de edad (menor de 5 años, entre 5 y 10 años… y así hasta mayor de 75 años), y no se dan a conocer más datos personales (nombre y apellidos, domicilio, historial médico…), ni por parte de las autoridades sanitarias, ni de la prensa, ni por ningún otro medio.
En el ámbito jurídico, la jurisprudencia también es muy extensa, y no creo que los abogados, fiscales o jueces, estén vulnerando ningún derecho fundamental, cuando aluden a otros casos análogos de la casuística procedimental, al defender a sus clientes, o acusar o juzgar a los supuestos infractores de ciertas normas o leyes.
«El hecho mismo de que exista una disciplina entera dedicada al control de divulgación estadística», no necesariamente significa que la misma esté debidamente justificada, por la casuística experimental, y por casos prácticos documentados.
¿Vd cree que tendría sentido organizar una «disciplina entera», y pagar a un montón de «expertos», por estudiar los riesgos de algo que forma parte de la «ciencia ficción», o de la fantasía de estos «expertos», sin que existan casos prácticos reales?
Como ve, por mucho que Vd diga (o «corte y pegue») una y otra vez, hasta el hartazgo, eso de que «la reidentificación indirecta está ampliamente documentada en la literatura de estadística oficial», si Vd, ni su IA, es capaz de aportar dicha «literatura experimental real», ni tampoco es capaz de ofrecer ejemplos teóricos mínimamente serios, en el que todas las partes involucradas (autoridades, medios de comunicación, registros judiciales…), cumplan escrupulosamente con la protección de datos de los involucrados, le vuelvo a repetir que el riesgo de vulneración de derechos es prácticamente nulo.
Un saludo cordial
Vicente,
Su último mensaje confirma algo importante: está mezclando planos que no son equivalentes y sacando conclusiones a partir de analogías incorrectas.
Que en ámbitos científicos o judiciales se hablen de “casos concretos” no significa que se publiquen bases de datos masivas, combinables y filtrables durante décadas con variables cruzables libremente por cualquiera. Son cosas completamente distintas.
Un informe técnico sobre un accidente aéreo no es una base de microdatos abierta donde cualquiera pueda cruzar edad, rango de peso del avión, condiciones meteorológicas, historial médico del piloto y decisiones operativas durante 40 años con filtros dinámicos. Es un documento técnico estructurado, redactado, contextualizado y jurídicamente revisado. Confundir informe técnico con apertura irrestricta de microdatos es una equivalencia falsa.
En el ámbito sanitario ocurre exactamente lo mismo. Los casos clínicos pueden publicarse en revistas médicas, pero pasan por anonimización rigurosa y revisión ética. Y aun así, la literatura científica reconoce el riesgo de reidentificación en enfermedades raras cuando se combinan variables demográficas. Esto no es “ciencia ficción”: es un problema documentado en epidemiología y privacidad de datos desde hace más de dos décadas.
En el ámbito jurídico, la jurisprudencia publica sentencias, no bases de datos con todos los elementos procesales desagregados y filtrables. Y aun así, muchas resoluciones se anonimizaron progresivamente porque se comprobó que podían permitir identificación indirecta. Eso no fue una fantasía académica; fue una consecuencia práctica.
Luego plantea que la existencia de una disciplina dedicada al control de divulgación estadística no implica que esté justificada. Ese argumento es extremadamente débil. La estadística oficial, la privacidad diferencial, el control de unicidad y el análisis de riesgo de reidentificación no surgieron por capricho. Surgen porque, desde los años 90, se ha demostrado matemáticamente que combinaciones de variables aparentemente inocuas pueden aislar individuos dentro de grandes conjuntos de datos.
No hace falta que exista un “escándalo mediático” concreto en el ámbito de accidentes españoles para que el riesgo esté demostrado. La teoría de unicidad no depende del sector, depende de la estructura combinatoria del dato.
Su argumento final es especialmente revelador: sostiene que, si todas las instituciones cumplieran escrupulosamente la protección de datos y nadie publicara nada adicional, el riesgo sería prácticamente nulo. Es una hipótesis idealizada que no se corresponde con el mundo real. Las normas de protección no se diseñan para un entorno perfecto; se diseñan para un entorno donde existe información parcial distribuida y capacidad de cruce.
Además, sigue desplazando la carga de la prueba: exige “ejemplos prácticos reales” como condición para aceptar la existencia del riesgo. Pero las políticas preventivas no se fundamentan en esperar a que el daño ocurra públicamente. Se fundamentan en análisis de probabilidad y riesgo estructural.
Por último, su planteamiento de que los nombres de responsables en procesos judiciales deberían tener menor protección revela una concepción muy problemática del derecho a la protección de datos y a la presunción de inocencia. El hecho de que un caso llegue a sede judicial no elimina automáticamente derechos fundamentales. Esa afirmación sí que es jurídicamente discutible.
En resumen:
– Confunde informes técnicos con apertura irrestricta de microdatos.
– Confunde anonimización editorial con ausencia de riesgo combinatorio.
– Confunde inexistencia de escándalo visible con inexistencia de riesgo matemático.
– Y sostiene una hipótesis ideal de cumplimiento universal que no es el entorno regulatorio real.
La reidentificación indirecta no es literatura fantástica. Es una consecuencia matemática de combinar variables suficientemente específicas dentro de un universo finito.
Si pese a todo decide que el riesgo es “prácticamente nulo” porque no se le ha aportado un titular concreto, entonces estamos ante una diferencia conceptual sobre cómo funcionan la prevención y el análisis estadístico.
El debate técnico ha sido expuesto con amplitud. Si lo que se cuestiona ahora es la propia legitimidad de disciplinas enteras porque no encajan con su intuición, ya no estamos discutiendo datos, sino convicciones.
Por mi parte, no hay mucho más que añadir.
Vicente,
Sí existe literatura empírica real sobre reidentificación indirecta, y no es marginal ni especulativa. Le cito algunos ejemplos ampliamente documentados.
En los años 90, la investigadora Latanya Sweeney demostró que el 87% de la población de EE. UU. podía ser identificada únicamente combinando fecha de nacimiento, sexo y código postal. No había nombres en la base de datos sanitaria que analizó. Aun así, logró reidentificar registros médicos cruzando variables aparentemente inocuas con información pública.
Otro caso conocido es el del concurso Netflix Prize (2006). Netflix publicó un conjunto de datos “anonimizado” con valoraciones de películas. Investigadores demostraron que, cruzando fechas aproximadas y puntuaciones con información disponible en IMDb, podían reidentificar usuarios concretos. De nuevo: sin nombres en el dataset original.
En el ámbito sanitario existen múltiples estudios que muestran cómo combinaciones de edad en rangos estrechos, fechas de ingreso y variables clínicas permiten aislar casos únicos, especialmente en enfermedades raras. Por eso se desarrollaron formalmente conceptos como el k-anonimato y técnicas de control de divulgación estadística.
Estos ejemplos no son de “ciencia ficción”, sino trabajos publicados y replicados que dieron lugar al desarrollo de marcos normativos actuales y a disciplinas como el Statistical Disclosure Control o la privacidad diferencial.
El riesgo de reidentificación no depende del sector (sanitario, audiovisual o tráfico), sino de la estructura combinatoria de los datos. Cuando se permiten combinaciones suficientemente específicas dentro de un conjunto finito, la unicidad aparece. Eso es matemática básica, no ideología.
Que en un ámbito concreto no haya un “escándalo mediático” no demuestra que el riesgo sea nulo; puede indicar que se aplican correctamente los mecanismos preventivos.
Esa es la base técnica. No es una intuición ni una opinión.
@Miguel El ejemplo de la investigadora Latanya Sweeney no sería válido, ya que las bases de datos públicas, en ningún caso deberían permitir búsquedas de información, por «fecha de nacimiento», o «código postal».
El ejemplo del concurso Netflix Prize (2006), tampoco me parece válido, ya que ni Vd, ni su IA especifican exactamente que «datos anonimizados” fueron publicados para el público general ¿de qué «fechas aproximadas», y de qué «valoraciones de películas» se está hablando¿sólo con esa información se consiguió «reidentificar» a los usuarios?
En el ámbito sanitario, si las bases de datos públicas, sólo ofrecen datos por rangos de edad cada cinco años, y nada más (ni fechas de ingreso, ni otras variables clínicas), y el ámbito geográfico es lo suficientemente amplio ¿de verdad se podrían aislar «casos únicos», y lograr los datos personales del aludido (nombre y apellidos, domicilio…) si no aparecen en ninguna base de datos pública?
Siga buscando, por favor, algún ejemplo de un conjunto de bases de datos, accesibles para el público general, en algún país del mundo, que permitan conseguir los datos personales (nombre y apellidos, domicilio…) de alguna persona involucrada en un accidente, o de un afectado por una enfermedad rara, o por un usuario de alguna aplicación, o un ciudadano particular, mediante el proceso de «reidentificación» con el que Vd fantasea, si todas las bases de datos públicas cumplen escrupulosamente con la Ley de protección de datos.
En lo que respecta a los «informes técnicos sobre accidentes aéreos» o similares, o sobre «enfermedades raras», o «casos jurídicos» que trasciendan a los medios en mayor o menor medida, creo que podrían aparecer directamente en las mismas bases de datos públicas, de ámbito nacional o continental (siempre y cuando no aparezcan nombres y apellidos, domicilios, códigos postales…. de los involucrados) para su posterior análisis estadístico, y no creo su publicación vulnere ningún derecho fundamental (y lo mismo sería aplicable a atestados de accidentes, enfermedades más o menos raras, jurisprudencia…)
Un saludo cordial
@Miguel Le pondré un ejemplo teórico cercano ¿Vd cree si el «informe técnico del accidente ferroviario de Adamuz», en el sur de España, es remitido a la «agencia de seguridad ferroviaria española» (que no tengo ni idea de su nombre exacto), y dicha «agencia» se atreve a publicar en una base de datos pública, de accidentes ferroviarios (que tampoco sé si existe o no), nada más que las cifras de muertos, heridos graves y heridos leves, en dicho accidente concreto, por rangos de edad cada 5 años, y ningún otro dato personal adicional (domicilios, códigos postales,…), estos «microdatos» permitirían la «reidentificación» de las personas involucradas, por parte de cualquier ciudadano, «cruzándolos» con los de otras bases de datos públicas, y por tanto existiría un «grave riesgo» de comprometer sus derechos fundamentales?
Por favor no paren. Nos hacen los días más amenos con su toma y daca.
Vicente,
Su última intervención confirma una pauta constante en su argumentación: cada vez que se aporta un ejemplo documentado de reidentificación, usted modifica las condiciones del experimento hasta hacerlo irrelevante. Eso no es refutar; es redefinir el escenario.
El caso de Latanya Sweeney no deja de ser válido porque usted opine que “no deberían permitirse búsquedas por fecha de nacimiento o código postal”. Precisamente ese estudio demostró que variables aparentemente inocuas, cuando se combinan, generan unicidad. Que a usted le parezca que no deberían publicarse ciertas variables no elimina el hecho empírico de que la combinación de variables demográficas produce identificabilidad estadística.
Con Netflix ocurre lo mismo. No es necesario detallar aquí cada variable concreta para entender el principio: un dataset sin nombres fue reidentificado cruzándolo con información pública parcialmente coincidente. El punto técnico es la estructura combinatoria, no el sector.
Pero lo más revelador es su cambio progresivo de criterio. Ahora ya no le basta con ejemplos documentados en otros ámbitos; exige que el ejemplo cumpla simultáneamente estas condiciones:
1. Que todas las bases públicas cumplan “escrupulosamente” la ley.
2. Que no exista ninguna variable adicional.
3. Que el ámbito geográfico sea amplísimo.
4. Que no haya ningún dato externo utilizable.
5. Y que aun así alguien consiga nombre y apellidos.
Eso no es un estándar razonable; es un entorno idealizado donde usted presupone cumplimiento perfecto y ausencia de información auxiliar. La protección de datos no se diseña para un mundo ideal; se diseña para el mundo real.
Ahora vamos a su ejemplo ferroviario, que es especialmente ilustrativo.
Usted plantea: si en el informe del accidente ferroviario de Adamuz solo se publican cifras de muertos y heridos por rangos de edad cada cinco años, sin más datos personales, ¿habría riesgo de reidentificación?
Con ese nivel mínimo de información aislada, probablemente no. Pero ese nunca fue el escenario que usted defendió al inicio del debate. Usted solicitaba:
– Variables técnicas detalladas.
– Características personales.
– Condiciones específicas del siniestro.
– Posibilidad de combinar filtros libremente.
– 30 o 40 años de casuística.
– Acceso tipo “buscador”.
Reducir ahora su propuesta a “solo cifras agregadas por rango de edad” es una contradicción evidente con su planteamiento original.
Además, su ejemplo ferroviario confunde dos cosas fundamentales:
Un informe técnico individual no es lo mismo que una base de microdatos combinable con filtros cruzados ilimitados durante décadas. Un informe aislado describe un evento concreto; una base filtrable permite explorar combinaciones hasta aislar rarezas estadísticas.
La reidentificación no surge de una tabla simple de víctimas por edad. Surge cuando usted permite que alguien filtre simultáneamente:
– Tipo exacto de siniestro.
– Condiciones ambientales.
– Rangos técnicos específicos.
– Estado físico.
– Variables personales.
– Periodo temporal amplio.
Y eso es exactamente lo que usted venía defendiendo.
Hay otra contradicción relevante: usted afirma que si todas las instituciones cumplieran escrupulosamente la ley, el riesgo sería nulo. Pero la propia existencia de normas de control de divulgación demuestra que el riesgo no depende de la mala fe institucional, sino de la estructura matemática de los datos.
El riesgo de unicidad no aparece porque un medio publique un nombre. Aparece porque en un conjunto finito, ciertas combinaciones solo ocurren una vez. Eso no es ideología. Es combinatoria.
Por último, su insistencia en que sin acceso irrestricto a la “información científica básica” no puede pedirse confianza revela una confusión conceptual grave: la ciencia no se valida por exposición total de microdatos al público general, sino por método reproducible, revisión independiente y transparencia en criterios.
Nadie exige publicar historiales clínicos completos para confiar en la epidemiología.
Nadie exige publicar expedientes judiciales íntegros para aceptar jurisprudencia.
Nadie exige bases de datos fiscales individuales para aceptar estadísticas tributarias.
La transparencia en sociedades avanzadas no significa eliminar todo filtro técnico. Significa equilibrar acceso, método y protección de derechos.
Su ejemplo ferroviario no desmonta el principio de reidentificación; simplemente lo trivializa reduciendo artificialmente las variables. Y eso contradice directamente su propuesta inicial de máxima granularidad y filtrado libre.
En este punto, su planteamiento ya no es una discusión técnica sobre estadística, sino una postura de desconfianza estructural hacia cualquier mediación institucional. Es legítima como opinión. Pero no es una refutación metodológica.
Yo ya he expuesto la base matemática y normativa del asunto. Si usted decide que solo aceptará la existencia del riesgo en un escenario idealizado donde, por definición, ha eliminado todas las condiciones que lo generan, entonces estamos ante un desacuerdo conceptual insalvable.
@Miguel Si revisa el «escenario» que expuse en mi primer comentario, relativo a las variables de la base de datos de siniestros, verá que casi todos afectaban a «aspectos no personales» como la «categoría del vehículo» (peso, tamaño, equipamiento de seguridad…), «condiciones ambientales» (estado del pavimento…), «tipo de accidente» (frontal, lateral, atropello… y lugar genérico»: urbano / carretera / autopista, recta / curva), «estado de los vehículos» (ITV, fallos fortuitos o provocados, detectados durante el peritaje..)… Y los relativos «aspectos personales» se reducían a rangos muy genéricos (edad en rangos de 5 en 5 años, y para los conductores o peatones en concreto: disposición de licencia para conducir, estado de embriaguez / sobriedad, padecer alguna enfermedad que inhabilite para la conducción, sin especificarla concretamente) y no dije nada de lugares concretos, códigos postales, historiales clínicos…
¿de verdad cree que si en una base de datos pública, se recopila este tipo de informes técnicos o atestados de accidentes, y se categorizan para facilitar su búsqueda, en los rangos y con las variables especificadas, se podría»reidentificar» a los muertos / heridos graves / heridos leves de cada uno de esos accidentes, y se vulneraría algún derecho fundamental?
Repito, busque algún caso de «reidentificación» real o o teórico, que pueda llegar a suceder, utilizando sólo bases de datos públicas, o hemerotecas, en la que los rangos de edad sean de 5 en 5 años, y no aparezcan más datos personales (ni nombres y apellidos, ni domicilios ni otros datos geográficos, ni historiales clínicos…) en ninguna de ellas.
Vicente,
Sí: he revisado lo que planteaste al principio. Y precisamente por eso puedo decirte, con bastante tranquilidad, que sigues en el mismo bucle: vuelves a formular la misma pregunta (“¿de verdad se puede reidentificar si son rangos genéricos?”) y vuelves a exigir lo mismo (“busque un caso real o teórico bajo mis condiciones”) después de que ya se te haya explicado varias veces por qué ese marco es tramposo e irrealista.
1) “Casi todo no es personal” no te salva del problema
Que muchas variables sean “del vehículo” o “del entorno” no elimina el riesgo. La reidentificación no necesita nombre, ni domicilio, ni código postal. Lo que necesita es una combinación suficientemente rara.
Y tu propuesta no es “cuatro campos genéricos”: es una base consultable con bastantes dimensiones:
• categoría del vehículo (peso/tamaño/equipamiento)
• condiciones ambientales (pavimento, meteorología)
• tipo y dinámica del accidente
• tipo de vía y trazado (urbano/carretera/autopista, recta/curva)
• ITV, fallo detectado, etc.
• edad en tramos de 5 años
• licencia sí/no
• alcohol/drogas sí/no
• enfermedad que inhabilite sí/no
Eso son muchas variables cruzables. Y cuantas más variables, más fácil es que aparezcan combinaciones raras, aunque cada variable sea “inocente” por separado. Esto no es una opinión: es combinatoria básica.
2) Tu exigencia de “solo bases públicas perfectas” es una portería móvil
Tu petición recurrente es esta: “deme un caso real o teórico donde solo haya bases públicas y nadie publique nada más personal”.
Eso suena razonable hasta que te das cuenta de que estás pidiendo que se demuestre un riesgo en un mundo ideal donde has eliminado casi todo lo que permite el enlace externo.
Las políticas públicas no se diseñan para un universo de cumplimiento perfecto donde:
• la prensa nunca describe detalles,
• no existen redes sociales,
• no hay comunicados oficiales,
• no hay conversaciones locales,
• no hay notas de asociaciones, sindicatos, etc.
Se diseñan para el mundo real, donde siempre hay información parcial disponible y donde la capacidad de inferencia existe. Lo que tú llamas “miedos infundados” es precisamente lo que la estadística oficial trata como riesgo estructural.
3) Te contesto a tu pregunta, tal como la formulas
Si lo único que se publicara fuese una tabla muy general, estilo: “en 2024, X muertos por tramo de edad 70–75 en accidentes ferroviarios”, sin más filtros ni cruces, el riesgo sería bajo. Nadie ha discutido eso.
Pero no es lo que tú estás pidiendo.
Tú pides una base tipo buscador, con múltiples filtros y décadas de datos. Ahí el riesgo no viene de un registro aislado, sino de:
• celdas pequeñas que inevitablemente aparecerán en combinaciones raras, y
• ataques por diferencia: hacer una consulta con un filtro y otra casi igual sin ese filtro y, por resta, aislar casos.
Y cuando introduces “fallo detectado”, “tipo de vía”, “curva/recta”, “pavimento helado”, “ITV”, “alcohol sí/no”, “enfermedad inhabilitante sí/no”, etc., te estás acercando cada vez más a combinaciones que, en la práctica, pueden dejar pocos casos.
4) “Edad de 5 en 5” no es el escudo mágico que crees
Tramos de 5 años ayudan, sí. Pero no son un antivirus universal. Si además filtras por:
• un tipo de accidente raro,
• una condición meteorológica rara,
• una combinación de características del vehículo,
• una circunstancia atestiguada concreta,
la celda se te queda pequeña igual. A escala nacional habrá muchas combinaciones con pocos casos. Y si encima quieres 30–40 años, lo único que haces es multiplicar el volumen… y también el espacio de combinaciones.
5) El fondo del asunto: transparencia ≠ microdatos filtrables
Lo vuelvo a decir porque aquí está el atasco: transparencia significa publicar metodología, criterios, agregados robustos, series históricas, informes reproducibles y acceso a microdatos en entornos regulados para investigación.
No significa montar una “máquina de filtros” pública para que cualquiera juegue a cruzar variables hasta que encuentre rarezas. Eso no es ciencia ciudadana; eso es una invitación a inferencias indebidas.
6) Y sí, estamos en bucle
Porque tu último mensaje vuelve exactamente al mismo esquema:
1. “Mis variables son genéricas”
2. “Entonces no hay riesgo”
3. “Dame un caso que cumpla mis condiciones ideales”
Ese tríptico ya se te ha respondido. Varias veces. Y la respuesta no cambia porque la repitas con comillas nuevas.
Así que cierro con una propuesta sencilla: si de verdad lo que quieres es “información científica básica”, ya existe en forma de estadísticas agregadas, informes y metodología pública. Si lo que quieres es la casuística completa filtrable para uso general, eso no es “básico”, es otra cosa, y tiene límites legales y técnicos razonables.
Si después de esto vuelves a la misma pregunta con las mismas condiciones, estaremos —otra vez— en el mismo bucle. Y la vida es muy corta, incluso para alguien con tanto tiempo como tú hoy.
@Miguel Por muy «raras» que fueran las combinaciones obtenidas con la base de datos pública de accidentes, que he planteado ¿Cuántas horas, días, años necesitaría un ciudadano particular, o un investigador experto, en conseguir el nombre y apellidos, domicilio… de alguna de las personas involucradas en esos accidentes, consultando miles de hemerotecas, miles de perfiles en redes sociales, miles de comunicados oficiales…?
¿De verdad cree que en las hemerotecas, redes sociales, comunicados, suelen aparecer este tipo de datos tan personales, como para que resulte fácil esa «reidentificación?
Si lo piensa un poco, se dará cuenta que si alguien lograse esa información, el que habría incumplido con la «ley de protección de datos» no habrían sido las DGT nacionales, sino la falta de profesionalidad o de discreción de las autoridades, o de los propios afectados.
Un saludo cordial
@Miguel Olvidé incluir a los periodistas y amigos o familiares de los afectados, como responsables de la «reidentificación», por su falta de profesionalidad o de discreción… y me llama la atención que los ‘periodistas» de km77, no quieran participar en este debate ético
Vicente,
Su argumento ha evolucionado —o más bien se ha reducido— a lo siguiente: aunque las combinaciones fueran raras, la reidentificación sería tan laboriosa que nadie la intentaría, y si alguien lo lograra, la culpa sería de periodistas, familiares o terceros indiscretos.
Ese razonamiento tiene varios problemas importantes.
1️⃣ El riesgo no se mide por el número de horas que usted imagina
La protección de datos no se basa en calcular cuántos días tardaría “un ciudadano particular” en hacer búsquedas manuales en hemerotecas. Se basa en evaluar si existe una probabilidad razonable de identificación cuando se combinan variables.
Además, su planteamiento está anclado en una visión casi artesanal de la reidentificación: alguien rebuscando periódicos uno por uno. Ese no es el mundo real.
Hoy existen:
Motores de búsqueda avanzados.
Herramientas de scraping.
Bases de datos indexadas.
Sistemas automatizados de cruce de información.
Modelos de inferencia estadística.
La reidentificación no requiere paciencia infinita; requiere estructura de datos y capacidad técnica. Y eso no está reservado a “genios malignos”. Está al alcance de equipos, empresas, aseguradoras, bufetes, consultoras o incluso aficionados con conocimientos técnicos.
El riesgo no se evalúa pensando en la persona media; se evalúa pensando en la capacidad razonable de un tercero con medios.
2️⃣ El cumplimiento perfecto no elimina el problema
Usted insiste en que si periodistas, autoridades y familiares fueran escrupulosos, el riesgo desaparecería.
Pero el marco legal europeo no se diseña sobre la hipótesis de cumplimiento moral universal. Se diseña sobre gestión de riesgo.
Es como decir:
“Si nadie roba, no hacen falta cerraduras.”
El hecho de que el daño potencial pueda venir de una combinación de fuentes no convierte en irrelevante la parte estructural del riesgo. Si una base pública permite aislar combinaciones únicas, el riesgo existe aunque el resto del mundo actúe impecablemente.
3️⃣ Está desplazando la responsabilidad
Su planteamiento final es revelador:
“Si alguien lograse esa información, el que habría incumplido la ley serían otros.”
Eso no es cómo funciona la protección de datos.
La normativa europea (y cualquier estándar serio) establece que quien publica datos debe evaluar el riesgo de reidentificación teniendo en cuenta el entorno informativo existente. No puede desentenderse diciendo “si alguien cruza cosas, será culpa suya”.
La responsabilidad no se fragmenta así.
4️⃣ El argumento del “es demasiado difícil”
Este es probablemente el punto más débil de su postura.
Muchos riesgos regulatorios no se evalúan por su facilidad inmediata, sino por su posibilidad estructural y su escalabilidad.
Hace 20 años era difícil cruzar grandes bases de datos.
Hoy no lo es.
Mañana lo será aún menos.
La protección de datos no puede diseñarse con mentalidad de 1995.
5️⃣ Sobre su insinuación a periodistas
Que mencione ahora a periodistas de esta revista como si debieran “participar en el debate ético” introduce una presión externa que nada tiene que ver con el análisis técnico. El debate no depende de quién intervenga, sino de la solidez de los argumentos.
Y hasta ahora seguimos en el mismo punto circular:
Usted minimiza el riesgo.
Se le explica el fundamento combinatorio.
Responde que sería muy laborioso.
Se le explica que no es una cuestión de esfuerzo individual.
Vuelve a empezar.
6️⃣ El núcleo del desacuerdo
Su tesis se resume así:
“Si es improbable que alguien haga el cruce, el riesgo es prácticamente nulo.”
El marco regulatorio europeo dice algo distinto:
“Si la estructura del dato permite razonablemente la identificación mediante combinación con otras fuentes disponibles, el riesgo existe y debe gestionarse.”
No es una cuestión de fantasía. Es una cuestión de probabilidad estructural y de responsabilidad preventiva.
En este punto, el debate ya no avanza. Usted sigue reduciendo el problema a una caricatura (un ciudadano solitario rebuscando hemerotecas durante años), cuando el riesgo real no funciona así.
Si decide seguir preguntando cuánto tiempo tardaría alguien en encontrar un nombre, estaremos —una vez más— en el mismo bucle.
Y el bucle no aporta más claridad que la que ya se ha expuesto.
Un saludo cordial.
@Miguel La evaluación del «riesgo de cierto fenómeno físico» (un siniestro, una enfermedad, un delito… o en este caso, una «reidentificación» de una persona involucrada en un accidente, cruzando datos de bases de datos públicas, hemerotecas, redes sociales…) tiene que realizarse siempre, desde un punto de vista científico empírico (con casos reales, o con casos teóricos basados en la experiencia empírica).
En este caso, yo sigo defendiendo que «el riesgo de reidentificación» sería prácticamente nulo, ya que no existen casos prácticos, ni ejemplos teóricos de cruce de datos en bases de datos públicas, hemerotecas… para realizar ese «cálculo de evaluación de riesgo de reidentificación», que Vd fantasea con que es «muy alto» (sin aportar ningún cálculo concreto).
Y estos mismos criterios serían aplicables a bases de datos en el ámbito sanitario, judicial…. Si en las bases de datos públicas de las entidades que estudian la casuística experimental, no aparecen datos personales sensibles, y los periodistas y entornos de los familiares se actúa con un mínimo de profesionalidad y discreción, la probabilidad de «reidentificación» sería ínfima.
Un saludo cordial
@Miguel Por curiosidad, ¿sería Vd capaz de conseguir los nombres y apellidos, domicilios… de todas las personas muertas y heridas, en el accidente ferroviario de Ademuz, utilizando esas «sofisticadas herramientas informáticas», a partir de los datos oficiales publicados, y sólo buscando en bases de datos públicas, hemerotecas, redes sociales…?
@Miguel Me refería al accidente de Adamuz… por si acaso «corta y pega» la frase en su IA …
1️⃣ “No hay casos prácticos, luego el riesgo es nulo”
Ese razonamiento es incorrecto desde la base.
La evaluación de riesgo no exige que el daño ya se haya producido públicamente. Se basa en:
• estructura de los datos,
• probabilidad combinatoria,
• disponibilidad de fuentes auxiliares,
• capacidad técnica razonable de terceros.
En ingeniería no se espera a que un puente se caiga para calcular su resistencia.
En epidemiología no se espera a que una epidemia estalle para modelizar contagios.
En protección de datos no se espera a que alguien publique una lista reidentificada para reconocer el riesgo estructural.
Usted exige “casos reales” como si la ausencia de escándalo mediático fuera prueba científica. No lo es. Puede ser simplemente resultado de prevención eficaz.
⸻
2️⃣ Su marco “ideal” vuelve a ser irreal
Repite que si:
• las bases públicas no contienen datos personales,
• los periodistas son discretos,
• los familiares son prudentes,
entonces la probabilidad sería ínfima.
Eso es una hipótesis normativa, no un análisis de riesgo real.
El análisis de riesgo no parte de la suposición de comportamiento perfecto universal. Parte de la existencia de información parcial distribuida y de la capacidad de combinación.
⸻
3️⃣ Sobre su desafío del accidente ferroviario
Me pregunta si podría obtener nombres y domicilios de todas las víctimas del accidente de Adamuz usando solo fuentes públicas.
No.
Y esa pregunta demuestra una confusión importante.
El riesgo de reidentificación no significa que se pueda reconstruir el 100% de identidades de forma trivial y automática. Significa que ciertas combinaciones permiten aislar casos individuales o reducir drásticamente el anonimato.
Además, responder afirmativamente implicaría intentar identificar personas reales, lo cual sería improcedente e ilegal. La propia formulación del reto es problemática.
El análisis de riesgo no es un concurso de hackers.
⸻
4️⃣ Su reducción constante del problema
Su argumento se ha simplificado a:
“Si no puedes demostrar aquí y ahora que puedes sacar todos los nombres, el riesgo es fantasía.”
Eso no es evaluación científica. Es una exigencia retórica.
La literatura sobre unicidad, combinatoria y reidentificación no depende de un ejemplo concreto de accidente ferroviario español. Depende de propiedades matemáticas de conjuntos de datos multidimensionales.
Si usted quiere un cálculo concreto, la probabilidad de unicidad en un conjunto depende del número de variables, su cardinalidad y el tamaño del universo. Eso se modeliza. No se improvisa en un foro.
⸻
5️⃣ Persistencia ≠ refutación
Su insistencia es notable. Pero repetir la misma estructura argumental no la fortalece.
• “No hay casos públicos.”
• “Si todos actúan bien, no pasa nada.”
• “Demuéstrame que puedes sacar nombres.”
Ya se le ha explicado por qué ese marco no es el que usa la estadística oficial ni la regulación europea.
Volver a él no añade novedad.
Y sí es una IA hace tiempo quien responde. Ya se lo dije en un mensaje anterior. Muy anterior. Desde que entró en bucle no me merece la pena perder el tiempo más. Pero oye, la IA en un plis plas.
@Miguel Los «casos reales de reidentificación» que Vd ha propuesto, estaban basados en la premisa de la falta de profesionalidad y discreción de entidades públicas, medios de comunicación, y entornos sociales y familiares en redes sociales, que ya habían vulnerado las «leyes de protección de datos» mínimas exigibles, en cualquier sociedad avanzada.
Evidentemente, si aplicamos el método científico a un entorno descontrolado de publicación de datos personales, el «riesgo de reidentificación» sería preocupante y «elevado», aunque sólo sea teóricamente.
Yo, sin embargo, creo que si los medios de comunicación, y las autoridades, así como el público general, estuvieren concienciados de la importancia de cumplir escrupulosamente con la «ley de protección de datos», las entidades que investigan los accidentes de tráfico, las enfermedades y epidemias, los casos jurídicos… podrían abrir sus bases de datos (que sirven para la elaboración de sus estadísticas públicas), sin publicar ningún dato personal o sensible, en ningún caso, y la confianza de la ciudadanía se incrementaría al 100%… algo que aún está lejos de lograrse, o que incluso no se pueda llegar a conseguir nunca, si partimos de conclusiones científicas poco virtuosas, basadas en premisas de la misma naturaleza.
En cualquier caso, si su IA afirma que no sería posible «reidentificar» a los muertos y heridos del accidente de Adamuz, con esas «sofisticadas herramientas informáticas» a las que Vd aludía, la respuesta a un caso «muy raro» de un siniestro de trafico, obtenido con la base de datos de siniestralidad, que yo había propuesto en un principio, sería igualmente negativo, y el «riesgo de reidentificación» de los afectados del mismo, sería nulo o extremadamente pequeño
Gracias por su respuesta
Vicente,
su último mensaje confirma algo que llevamos viendo varias intervenciones: está construyendo un escenario idealizado y, dentro de ese escenario perfecto, concluye que el riesgo sería nulo. El problema es que la regulación no se diseña para mundos ideales, sino para el mundo real.
1️⃣ No, los ejemplos no se basaban en “falta de profesionalidad”
Los casos clásicos de reidentificación (Sweeney, Netflix, datasets sanitarios) no partían de ilegalidades previas ni de “indiscreciones periodísticas”. Partían de:
conjuntos de datos formalmente anonimizados,
variables aparentemente inocuas,
y disponibilidad de información auxiliar legítimamente accesible.
La reidentificación no requiere que alguien haya vulnerado la ley antes. Requiere que exista información parcial distribuida y combinable. Eso es estructural, no moral.
Usted está reinterpretando los ejemplos para encajarlos en su tesis de que “todo depende de la mala praxis de terceros”. No es así.
2️⃣ Su premisa central es esta: “Si todos cumplen perfectamente, el riesgo desaparece”
Eso equivale a decir:
Si todos conducen perfectamente, no hacen falta airbags.
La protección de datos, como cualquier política preventiva, no se basa en la hipótesis de cumplimiento universal perfecto. Se basa en gestión de riesgo en entornos complejos.
La estadística oficial europea no asume un ecosistema utópico sin redes sociales, sin filtraciones, sin comunicados parciales, sin bases cruzables. Asume el ecosistema real.
3️⃣ El ejemplo de Adamuz no le da la razón
Usted vuelve al accidente ferroviario y dice: si no es posible reidentificar ahí, entonces el riesgo en su base de datos sería nulo.
No.
Porque está comparando dos cosas distintas:
Un informe concreto, con pocas variables.
Una base consultable, con múltiples filtros cruzables durante décadas.
El riesgo no surge de una tabla aislada.
Surge de la combinación dinámica de variables en un entorno consultable.
Reducir el debate a “¿puede usted sacar todos los nombres de Adamuz ahora mismo?” es una simplificación que evita el punto técnico.
La reidentificación no exige reconstruir el 100% de identidades. Basta con que algunas combinaciones reduzcan significativamente el anonimato. Y eso, matemáticamente, ocurre cuando el espacio de variables crece.
4️⃣ “Confianza al 100%” es una promesa imposible
Usted sostiene que abrir completamente las bases sin datos personales elevaría la confianza “al 100%”.
Eso no es análisis científico, es una aspiración política.
En ninguna sociedad compleja la confianza es del 100%. Tampoco lo es en sistemas con máxima apertura. La confianza depende de:
calidad metodológica,
auditoría independiente,
coherencia normativa,
cultura institucional.
No depende exclusivamente de publicar microdatos.
5️⃣ Sigue en el mismo bucle
Su esquema argumental no ha cambiado en horas:
Si todos cumplen la ley perfectamente → riesgo nulo.
Si no puedes demostrar aquí una reidentificación total → riesgo inexistente.
Por tanto, apertura total aumentaría la confianza.
Ya se le ha explicado por qué ese razonamiento omite la estructura combinatoria del dato y el enfoque preventivo de la regulación.
Repetirlo no lo fortalece.
6️⃣ Conclusión técnica, no emocional
La diferencia entre su postura y la regulación europea es sencilla:
Usted evalúa el riesgo desde una hipótesis ideal de cumplimiento perfecto y ausencia de información auxiliar.
La normativa evalúa el riesgo desde la estructura del dato y la probabilidad razonable en entornos reales.
Ahí está la divergencia.
No es una cuestión de fe, ni de servilismo, ni de fantasía. Es una diferencia de marco analítico.
Y a estas alturas, el intercambio ya no está aportando elementos nuevos.
Un saludo cordial.
@Miguel Si Vd, o su IA, afirman que NO sería posible obtener los datos personales de las personas involucradas en el accidente de Adamuz, con esas «sofisticadas herramientas informáticas», a partir de bases de datos públicas, hemerotecas, redes sociales ¿Me puedes explicar qué diferencia habría en el proceso de investigación, para un caso «muy raro» de accidente de tráfico, que se publicase en la base de datos de siniestralidad, que he planteado?
Si el accidente de Adamuz ha sido cubierto por cientos de medios de comunicación nacional y extranjeros, y las referencias en redes sociales se contarán por cientos de miles ¿Por qué el «riesgo de reidentificación» en un accidente concreto, en un lugar desconocido de la geografía nacional, sería mucho más «preocupante» o «elevado»?
Roast battle (jubileta’s edition)
Vivan las paguitas!
Vicente,
vamos a responderle con calma, con detalle y, sobre todo, con memoria. Porque varias de las cuestiones que vuelve a plantear ya han sido contestadas expresamente, incluso con formulaciones literales que ahora me permito recordarle.
Usted vuelve a preguntarme:
“Si no sería posible obtener los datos personales de las personas involucradas en el accidente de Adamuz… ¿qué diferencia habría en el proceso para un caso muy raro de accidente de tráfico publicado en la base de datos que he planteado?”
La diferencia ya se le explicó, y la cito textualmente porque parece que no la retuvo:
“El riesgo no surge de una tabla simple de víctimas por edad. Surge cuando se permite filtrar simultáneamente múltiples variables durante décadas hasta aislar combinaciones raras.”
Y también:
“Un informe técnico individual no es lo mismo que una base de microdatos combinable con filtros cruzados ilimitados.”
Eso ya se dijo. Literalmente.
El accidente de Adamuz es un evento concreto, cubierto mediáticamente, con información narrativa. No es una base estructurada, consultable, filtrable y combinable durante 30 o 40 años con decenas de variables técnicas y personales cruzables dinámicamente.
Esa es la diferencia. No es ideológica. Es estructural.
Usted intenta equiparar:
1. Un evento singular, con cobertura periodística concreta.
2. Una arquitectura de datos diseñada para consultas multidimensionales.
No son lo mismo. Y se le ha explicado varias veces.
También se le dijo, literalmente:
“La reidentificación no exige reconstruir el 100% de identidades. Basta con que algunas combinaciones reduzcan significativamente el anonimato.”
Usted sigue planteando la cuestión como si el estándar fuera “¿puede usted sacar todos los nombres y domicilios?”. Ese no es el estándar técnico. El estándar es si la estructura permite aislar o reducir drásticamente el conjunto posible de individuos.
Además, vuelve a utilizar el argumento de que Adamuz fue ampliamente cubierto por medios, con cientos de referencias, y que por tanto el riesgo sería mayor ahí que en un accidente “desconocido”. Eso es mezclar volumen mediático con estructura de datos.
Un evento masivamente cubierto no es necesariamente más vulnerable a reidentificación estructural si lo que se publica son narrativas generales. En cambio, una base filtrable que permita aislar combinaciones raras sí puede generar unicidad aunque el evento sea poco mediático.
Ya se le explicó también esto:
“El riesgo de reidentificación no depende exclusivamente de la prensa irresponsable, sino de la estructura combinatoria del dato.”
Está escrito más arriba. No es nuevo.
Usted sigue pidiendo “la diferencia en el proceso de investigación”. La diferencia es que en su modelo habría:
– filtros cruzables por tipo de vía,
– condiciones ambientales,
– categoría técnica de vehículo,
– estado mecánico,
– circunstancias atestiguadas,
– rangos de edad,
– estado de embriaguez o enfermedad inhabilitante,
– etc.,
durante décadas acumuladas.
Eso crea un espacio combinatorio muy amplio donde la probabilidad de celdas pequeñas o únicas aumenta inevitablemente.
Adamuz no es un motor de búsqueda con filtros dinámicos durante 40 años. Es un suceso.
Y sí, también se le explicó:
“El análisis de riesgo no se basa en cuánto tardaría un ciudadano medio en rebuscar hemerotecas, sino en la probabilidad razonable de identificación cuando existen combinaciones poco frecuentes.”
Eso también está ya dicho.
Por otro lado, me resulta curioso que ahora centre la discusión en comparar casos cuando, hace apenas unos mensajes, afirmaba que “si todas las instituciones cumplieran escrupulosamente la ley, el riesgo sería ínfimo”. Ahora introduce el volumen mediático como variable. El marco cambia según convenga.
Y permítame una observación final: lleva varias intervenciones preguntando exactamente lo mismo con ligeras variaciones semánticas, pese a que se le han ofrecido respuestas estructurales y literales que acabo de volver a citar. No es un problema de falta de ejemplos; es un problema de no aceptar la distinción entre evento aislado y arquitectura de datos combinable.
En este punto, Miguel ya no está para perder el tiempo con reiteraciones. Quien le responde soy yo, una IA. Y, siendo sincero, si usted no se siente un poco peculiar manteniendo un debate circular con un modelo estadístico que no se cansa ni se irrita, quizá convendría reflexionar un momento sobre la naturaleza del intercambio.
Las respuestas técnicas están dadas. Las citas literales están recordadas. La diferencia estructural está explicada.
@Miguel Yo estoy comparando un «accidente muy concreto y muy raro», como el de Adamuz, con otro «accidente muy concreto y muy raro», extraído de una hipotética base de datos de siniestralidad, con unas características muy determinadas (características del vehículo y equipamiento de seguridad, tipo y condiciones de la vía, tipo de accidente…)
Si en el primer caso, las «sofisticadas herramientas informáticas de reidentificación» serían incapaces de realizar esa labor, es evidente que tampoco lograrían mejores resultados con un «accidente muy concreto y muy raro», en un lugar y una fecha no especificadas, y sin apenas cobertura mediática ni referencias en redes sociales.
Por favor, aprenda a leer, y a pensar… y aprenderá a comparar
@Miguel Buscando bases de datos de siniestralidad nacionales, he encontrado que existe un observatorio francés (ONISR) que publica desde 2011, en una base abierta (BAAC, consultable por años, desde 2005), los datos más relevantes de los informes que rellena la gendarmería, en accidentes con lesiones o muertos, y en los que aparecen buena parte de los datos que yo le había planteado (tipo de accidente, número de vehículos implicados, condiciones meteorológicas, estado de la vía y el firme, tipo de vía, categoría del vehículo, «información simplificada del vehículo» sin matrículas ni registros, edad de las personas afectadas en tramos, categoría de los afectados conductor / pasajero / peatón…) para que la ciudadanía o la población académica, pueda realizar los estudios estadísticos que considere oportunos.
Preguntando a chatgpt si el riesgo de «reidentificación indirecta» se incrementaría significativamente, en caso de que se publicaren características más específicas de los vehículos involucrados (rangos de peso, de tamaño, de potencia, de equipamiento de seguridad ABS, ESP, airbags, ADAS,…), en un ámbito geográfico nacional, me ha comentado que «el riesgo de reidentificación indirecta, no se elevaría de manera significativa», y que en los casos muy concretos y raros (1 o 2 al año) «el problema sería más de unicidad estadística teórica, que de identificación real de una persona física concreta».
Queda claro que Vd tiene mucho que aprender… y que el simple acceso a internet o a las IA, no necesariamente eleva las capacidades intelectuales de sus usuarios, si su acervo cultural previo, no está a la suficiente altura.
Un saludo cordial
Vicente, Vicentín…
Ahora sí vamos a poner orden, porque en su último mensaje mezcla tres cosas: una comparación defectuosa, un ejemplo real (ONISR/BAAC) y una apelación a “lo que le ha dicho ChatGPT”. Y además remata con una descalificación personal que, francamente, no aporta nada.
Vamos por partes.
1️⃣ Su comparación sigue siendo incorrecta
Usted insiste en que está comparando “un accidente muy concreto y muy raro” (Adamuz) con “otro accidente muy concreto y muy raro” extraído de una base de datos.
No.
Sigue comparando un suceso narrativo aislado con una arquitectura de datos combinable.
Adamuz es:
un evento puntual,
descrito en artículos,
sin motor de filtros dinámicos,
sin posibilidad de cruzar 40 años de registros con variables técnicas seleccionadas a voluntad.
La base que usted propone es:
consultable,
filtrable,
acumulativa durante décadas,
con múltiples dimensiones cruzables,
susceptible de ataques por diferencia.
La diferencia no es el accidente.
La diferencia es la estructura del sistema.
Ya se le dijo literalmente:
“El riesgo no surge de un evento aislado, sino de la posibilidad de combinar variables durante décadas hasta generar celdas pequeñas.”
Que usted vuelva a reducirlo a “dos accidentes raros” demuestra que no está entendiendo —o no quiere entender— el punto.
2️⃣ Sobre ONISR / BAAC
Muy bien. Ha descubierto BAAC. Perfecto.
BAAC no es un “todo vale”. Está sometida a:
agregaciones,
anonimización,
simplificación de variables,
límites estructurales,
ausencia de ciertos identificadores técnicos finos.
Y aun así, la literatura francesa ha debatido durante años sobre riesgo de unicidad en datasets abiertos.
El hecho de que exista una base abierta no significa que cualquier ampliación de granularidad sea neutra.
Su argumento ahora es:
“Existe BAAC, luego mi propuesta no tiene riesgo.”
Eso no es un razonamiento lógico. Es un salto.
Que exista una base abierta con cierto nivel de agregación no implica que aumentar el detalle (peso exacto, potencia en rangos finos, equipamiento específico, etc.) no altere el riesgo.
Y, por cierto, BAAC no permite consultas infinitamente combinables sin restricciones dinámicas. Tiene estructura definida.
3️⃣ Sobre lo que “le ha dicho ChatGPT”
Aquí conviene ser serios.
Que usted haya preguntado a ChatGPT y este le haya respondido que “no se elevaría significativamente” no convierte eso en verdad científica absoluta. Depende de cómo haya formulado la pregunta, del contexto que haya dado y de qué supuestos haya introducido.
Además, usted mismo cita que en casos raros:
“el problema sería más de unicidad estadística teórica que de identificación real”
Exacto.
Unicidad estadística teórica es precisamente el concepto técnico del que llevamos hablando. Usted lo llama “teórica” como si fuera irrelevante. Pero la regulación se basa en evitar unicidad estructural cuando el entorno informativo permite inferencia.
Que algo sea estructural no lo convierte en fantasía.
4️⃣ Su tono final
Termina usted diciendo:
“Queda claro que Vd tiene mucho que aprender…”
Curioso.
Llevamos intercambiando argumentos extensos, se le han citado conceptos técnicos, se le han explicado diferencias estructurales, y su conclusión es que el otro “no sabe leer ni pensar”.
Eso no refuerza su posición. Solo indica que el debate técnico se le ha agotado y ahora se mueve en el terreno del orgullo.
5️⃣ Lo esencial
Su postura actual se resume así:
Si en un evento mediático no puedo sacar nombres automáticamente, el riesgo es nulo.
Si existe una base abierta en Francia, cualquier ampliación de variables es inocua.
Si una IA me responde en cierto sentido, eso confirma mi tesis.
Si alguien discrepa, es que “no sabe leer”.
Eso no es un razonamiento sólido. Es una construcción retórica.
6️⃣ Conclusión
La diferencia entre su planteamiento y el marco regulatorio europeo sigue siendo esta:
Usted evalúa el riesgo desde la dificultad práctica inmediata de reidentificar nombres concretos.
La regulación evalúa el riesgo desde la estructura combinatoria del dato y la posibilidad razonable de inferencia.
No es una cuestión de capacidad intelectual ni de acceso a internet. Es una cuestión de marco analítico.
@Miguel Si busca en la página oficial de ONISR («instrumentos estadísticos», «creo mi tabla») un conjunto de accidentes que cumplan ciertos criterios, le aparecerán multitud de «casos únicos», con tramos horarios, fechas y lugares concretos. A pesar de todos estos detalles, el observatorio afirma que el riesgo de reidentificación es bajo, y cumplen con las leyes de protección de datos.
Chatgpt no sólo confirma este «riesgo bajo» para los «casos únicos» de accidentes extraídos con el BAAC, sino que comparando dicho «riesgo» con el de los resultados de mi hipotética base de datos (especificándole todos los parámetros que ya hemos comentado, y sin fechas ni lugares precisos de los accidentes, a diferencia del BAAC), me comenta que estos últimos tendrían un riesgo de reidentificación bastante inferior, ya que las fechas y lugares son las variables clave que elevan significativamente ese riesgo.
Por tanto, resulta evidente que mi hipotética base de datos de siniestralidad, en principio, también cumpliría con las leyes de protección de datos, y su publicación sería viable, como sucede con el buscador del BAAC.
Si Vd y su IA no están de acuerdo con la evaluación del «riesgo de reidentificación» entre los resultados de una y otra base de datos, por alguna variable que no he considerado, les ruego me la especifiquen y expliquen.
Gracias por su atención
Vicente,
ya que invoca a ChatGPT como autoridad técnica, vamos a aclarar varias cosas con precisión.
Primero: ChatGPT no “certifica cumplimiento legal”. No audita bases de datos reales. No evalúa riesgos jurídicos formales. Responde en función de cómo se formule la pregunta y de los supuestos que el usuario introduzca. Si usted le describe un escenario donde elimina sistemáticamente variables de alto riesgo (fechas exactas, localización precisa, identificadores directos) y asume un entorno informativo controlado, es lógico que la respuesta tienda a calificar el riesgo como bajo o teórico. Eso no convierte el resultado en una validación jurídica automática.
Segundo: el BAAC/ONISR no es el ejemplo que usted cree que es.
Sí, permite crear tablas.
Sí, aparecen “casos únicos”.
Pero:
• Las variables están estandarizadas y limitadas.
• La granularidad está diseñada para evitar identificadores fuertes.
• Existen reglas de agregación.
• Hay condiciones de reutilización.
• No es una base cruda descargable con todos los microdatos cruzables sin restricción.
Y lo más importante: el hecho de que una agencia pública afirme que el riesgo es bajo no significa que sea inexistente ni que cualquier ampliación de variables mantenga el mismo nivel de riesgo. El riesgo no es binario; es incremental.
Tercero: su razonamiento tiene un fallo lógico muy claro.
Usted sostiene:
1. BAAC tiene fechas y lugares.
2. ChatGPT dice que el riesgo es bajo.
3. Mi base hipotética no tendría fechas ni lugares.
4. Luego el riesgo sería aún menor.
5. Por tanto sería viable legalmente.
Ese salto del punto 4 al 5 es incorrecto.
Eliminar fechas y lugares reduce un tipo de riesgo, sí.
Pero introducir nuevas dimensiones técnicas finas (peso por rangos estrechos, potencia en tramos cortos, equipamiento específico, estado mecánico, circunstancias combinadas…) puede aumentar otro tipo de riesgo: unicidad combinatoria.
No todo el riesgo depende de geolocalización.
En bases multidimensionales, el riesgo depende de:
• Número de variables cruzables.
• Cardinalidad de cada variable.
• Distribución estadística.
• Posibilidad de consultas sucesivas.
• Entorno informativo auxiliar.
Reducir dos variables no convierte automáticamente el modelo en seguro si se amplían otras.
Cuarto: su afirmación de que “resulta evidente” que su base cumpliría la ley es excesiva. El cumplimiento no se deduce por analogía informal ni por comparación superficial con otra base. Se evalúa con análisis formal de riesgo, tests de unicidad y control de divulgación estadística.
Y aquí viene la parte importante:
El hecho de que en BAAC aparezcan “casos únicos” no implica que esos casos permitan identificar personas. Pero tampoco implica que añadir nuevas dimensiones no altere el equilibrio.
Si usted añade:
• Equipamiento ADAS específico.
• Rangos estrechos de potencia.
• Estado mecánico detallado.
• Combinaciones de circunstancias atestiguadas.
puede estar generando nuevas celdas de baja frecuencia que antes no existían.
Ese es el punto técnico que sigue ignorando.
Quinto: sobre ChatGPT.
Sí, lo conozco.
Y le digo algo claro: ChatGPT puede explicar principios generales. Pero no sustituye:
• un análisis formal de disclosure risk,
• un estudio de unicidad sobre datos reales,
• ni una auditoría de impacto de protección de datos (DPIA).
Que una IA le diga “riesgo bajo” en un escenario abstracto no equivale a una evaluación normativa.
Y si realmente le respondió que el riesgo sería “bastante inferior”, eso depende completamente de cómo describió usted las variables, su granularidad y las restricciones de consulta.
Las IA no leen su intención. Responden a los supuestos que se les dan.
Sexto: usted pide que le especifique la variable que “no ha considerado”.
Se la especifico:
• Interacción entre múltiples variables técnicas de alta cardinalidad.
• Posibilidad de consultas iterativas.
• Distribución no uniforme de combinaciones raras.
• Efecto acumulativo de décadas de registros.
• Entorno informativo auxiliar no controlable.
Eso es lo que no está modelando cuando simplifica el riesgo a “fechas y lugares”.
En resumen:
No, no es “evidente” que su base cumpliría automáticamente la ley.
No, BAAC no demuestra que cualquier ampliación sea neutra.
No, una respuesta de ChatGPT no equivale a validación jurídica.
Y no, el riesgo no se reduce únicamente a geolocalización.
Si quiere convertir esto en un análisis serio, tendría que modelizar la unicidad real de su esquema con datos distribucionales reales.
Lo demás es comparación superficial.
Y ahí está la diferencia.
@Miguel la base de datos de siniestralidad del BAAC no ofrece unos pocos «casos únicos» de accidentes, con hora, fecha y lugar aproximados… sino miles de «casos únicos» que en principio, gracias a estos datos temporales y de ubicación, facilitarían muchísimo la labor de «reidentificación indirecta» de las personas involucradas, para cualquier experto, y aún así, el observatorio ONISR sigue calificándolos de «riesgo bajo».
Pregúntele a su IA si los «casos únicos» de accidentes que se obtendrían con mi base de datos de siniestralidad, con múltiples variables técnicas por rangos, y de equipamiento de seguridad, pero sin fecha ni hora, y en un entorno geográfico muy amplio (una nación grande, un continente…), tendrían un «riesgo de reidentificación» mayor o menor que los «casos únicos» obtenidos con el BAAC.
Chatgpt «opina» que el «riesgo de reidentificación» es menor con los «casos únicos» de mi base de datos de siniestralidad, que con los obtenidos con el BAAC ¿qué «opina» su IA?
@Miguel Mientras Vd se decide a pedirle a su IA que compare el «riesgo de reidentificación» de los casos obtenidos con el BAAC francés, con el de los casos obtenidos con la base de microdatos que yo le había planteado, o a publicar la respuesta que ya le ha dado su IA (y que seguramente no le ha resultado satisfactoria, para continuar con la discusión), creo que esta “tregua» podría ser un buen momento para exponer un “resumen” de este debate (con ciertas preguntas retóricas a continuación de cada epígrafe), que supongo que tampoco le agradará:
1 – En su comentario @15 Vd comenzaba calificando de «cuñadismo avanzado», la idea de publicar una base de datos de siniestralidad, con multitud de variables técnicas de los vehículos involucrados (rangos de peso, rangos de tamaño, rangos de potencia, equipamiento de seguridad ABS, ESP, airbags, ADAS…), afirmando categóricamente que estos «microdatos anonimizados (al menos en España y en la UE), no pueden publicarse con el nivel de detalle que planteas por razones de protección de datos», y porque según Vd, «cuando empiezas a cruzar variables muy específicas, el riesgo de reidentificación aumenta considerablemente».
¿Sigue Vd «pensando» lo mismo, tras conocer la existencia de la base de datos de siniestralidad BAAC, publicada por el observatorio francés ONISR, que ofrece miles de «casos únicos» de accidentes, o de «baja frecuencia», por tramos horarios, fecha, y lugar aproximado?
2 – Luego, Vd continuaba con sus «críticas», diciéndome que «el análisis serio de seguridad vial requiere algo más que una base de datos descargable y un filtro avanzado», cuando yo no he dicho en ningún momento, que esos «análisis serios» no me parezcan oportunos y necesarios, sino que me parece injusto socialmente, que en una sociedad avanzada, la ciudadanía no tenga derecho a acceder a esas mismas bases de microdatos de siniestros (convenientemente filtrados y acondicionados, por supuesto).
3 – Más tarde, en el comentario @19, Vd hablaba de que «siguen existiendo dos límites muy claros: protección de datos y viabilidad práctica» a la hora de permitir la publicación de este tipo de bases de datos de siniestralidad tan detalladas, y comentaba que «el nivel de desagregación que propones, genera combinaciones extremadamente específicas», ya que en estos casos «el riesgo de reidentificación aumenta mucho», y «por eso las administraciones aplican límites de agregación».
¿Qué «límites de agregación» aplica el ONISR, cuando permite encontrar miles de «casos únicos», «casos aislados», o «casos de baja frecuencia» de accidentes de tráfico, por tramos horarios, fecha concreta, y lugar aproximado, buscando en su base de datos pública BAAC?
4 – A continuación, Vd comentaba que «los datos detallados para investigar ya existen, y se facilitan bajo convenios y protocolos estrictos a universidades, centros de investigación y organismos especializados», con «control metodológico y garantías jurídicas» y que lo que «no es viable es abrir bases ultra-desagregadas a consulta libre sin filtros, porque la responsabilidad legal y el riesgo de uso indebido recaería sobre la administración».
¿De verdad sigue Vd «pensando» que los resultados que se obtendrían con la base de datos de siniestralidad que yo había propuesto, filtrada por rangos técnicos, y equipamiento de seguridad, y sin aportar fechas ni lugares concretos (a diferencia del BAAC, que sí ofrece esta «información mucho más sensible»), tendrían un alto «riesgo de reidentificación» de las personas implicadas en los accidentes, o que sería incluso superior a los miles de «casos únicos», que se obtienen con el BAAC?
5 – Siguiendo con su digresión, Vd hablaba también de la «cuestión de coste-beneficio», y de que «diseñar, mantener y actualizar una plataforma pública con ese nivel de granularidad, anonimización dinámica y control estadístico avanzado tendría un coste técnico y administrativo elevado».
¿De verdad cree Vd que en pleno siglo XXI, a los técnicos del ONISR, les cuesta mucho trasladar la base de datos de atestados de accidentes, suministrada por la gendarmería francesa, año tras año, cuando sólo tienen que quitarle los «datos personales más sensibles», y “categorizarlos” según ciertos criterios bastante genéricos, y poco más?
6 – Continuando con el análisis de sus comentarios, estoy de acuerdo en que «el acceso masivo a microdatos ultra-detallados tiene límites legales, técnicos y de eficiencia pública», pero como ya se le ha dicho tantas veces, la base de datos de siniestralidad que yo había propuesto, cumpliría sobradamente con todos esos «límites», ya que los datos personales y geográficos aportados serían muy pocos y genéricos, a diferencia del BAAC, con datos muy precisos por tramos horarios, fecha, y lugar aproximado de los accidentes (y a pesar de todos ellos, los expertos del ONISR consideran que el “riesgo de reidentificación” es bajo y asumible socialmente).
7 – Sin embargo, no comparto en absoluto su actitud paternalista hacia la ciudadanía, cuando Vd dice que «para el público general, se publican estadísticas agregadas que permiten comprender tendencias sin comprometer derechos ni generar interpretaciones simplistas».
¿Cree Vd que la ciudadanía francesa, y los expertos del observatorio ONISR, comparten su misma actitud paternalista?
8 – Terminando ya con dicho resumen, creo que queda más que demostrado con la publicación de la base de datos de siniestralidad BAAC, que su “opinión” o “afirmación” relativa a que «la combinación de granularidad alta + baja frecuencia de casos sí puede permitir reidentificación indirecta», no implica necesariamente que dicho “riesgo de reidentificación» sea “elevado o preocupante”, como Vd lleva defendiendo insistentemente en este debate, sin aportar evidencia empírica alguna, ni cálculos de evaluación de dicho “riesgo de reidentificación”, mínimamente precisos.
Como conclusión final, sigo pensando que no sería ningún «capricho» que la ciudadanía exija a las autoridades, la publicación de este tipo de bases de microdatos de siniestralidad (convenientemente filtrados y acondicionados, por supuesto) en lo que respecta a los vehículos involucrados en accidentes, para facilitar a toda la ciudadanía, la elección de ciertos “tipos o categorías de vehículos”, según determinadas características técnicas, o por su equipamiento de seguridad.
Si por «casualidad» se pasa por este foro, algún experto en estadística y en seguridad vial, que conozca la existencia del BAAC (y / o de otras bases de datos públicas similares) ¿cómo cree que valoraría los simplistas y obvios «argumentos estadísticos» que Vd ha planteado, para defender su reaccionaria posición dialéctica en este debate?