Informe de IA del #SPRINT 2
FISIO FIND - INFORME DE IA #SPRINT 2
Ficha del documento
-
Nombre del Proyecto: FISIO FIND
-
Número de Grupo: Grupo 6
-
Entregable: #SPRINT 1
-
Miembros del grupo:
Alberto Carmona Sicre, Antonio Macías Ferrera, Benjamín Ignacio Maureira Flores, Francisco Capote García,
Daniel Alors Romero, Daniel Fernández Caballero, Daniel Ruiz López, Daniel Tortorici Bartús,
Daniel Vela Camacho, Delfín Santana Rubio, Guadalupe Ridruejo Pineda, Julen Redondo Pacheco,
Miguel Encina Martínez, Francisco Mateos Villarejo, Pablo Fernández Pérez, Ramón Gavira Sánchez,
Rafael Pulido Cifuentes. -
Contribuidores: Daniel Fernández Caballero Daniel Ruiz López (autores)
-
Fecha de Creación: 27/03/2025
-
Versión: v1.0
Histórico de Modificaciones
Fecha | Versión | Realizada por | Descripción de los cambios |
---|---|---|---|
27/03/2025 | v1.0 | Daniel Fernández Caballero, Daniel Ruiz López | Elaboración de la primera versión del documento. |
Introducción
En el marco del segundo Sprint, y tras la revisión intermedia del trabajo, se decidió incorporar una nueva métrica para optimizar la evaluación de la efectividad de la IA en función de los prompts utilizados. Esta nueva métrica corresponde al porcentaje de alucinaciones generadas por la IA, lo que permitirá obtener una visión más precisa sobre la calidad y fiabilidad de las conversaciones. Con esta actualización, las métricas establecidas para este sprint son las siguientes:
- Calificación de conversaciones: evaluada en una escala de 1 a 5, refleja la calidad percibida de las respuestas de la IA.
- Cantidad de prompts: número de interacciones empleadas en cada conversación, como indicador de su extensión.
- Alucinaciones: porcentaje de respuestas erróneas o inventadas generadas por la IA, para medir su precisión.
- Análisis estadístico: incluye el cálculo de promedios, desviaciones estándar y tendencias, con el fin de identificar patrones y áreas de mejora en el desempeño de la IA.
Esta evolución en las métricas busca proporcionar una evaluación más completa y detallada, enfocándose no solo en la satisfacción general y la duración de las interacciones, sino también en la exactitud de las respuestas generadas.
Prompts Utilizados
A continuación se presentan los distintos prompts evaluados junto con sus respectivas puntuaciones, cantidad de prompts y porcentaje de alucinaciones. Los datos se dividen entre la primera y segunda semana del Sprint para reflejar las diferencias en la implementación de las métricas. Cabe destacar que la métrica de alucinaciones no se registró durante la primera semana.
Primera semana
-
- Puntuación: 5
- Prompts: 2
- Alucinaciones: No disponible
-
- Puntuación: 4
- Prompts: 3
- Alucinaciones: No disponible
-
- Puntuación: 4
- Prompts: 1
- Alucinaciones: No disponible
-
- Puntuación: 5
- Prompts: 1
- Alucinaciones: No disponible
-
- Puntuación: 3
- Prompts: 1
- Alucinaciones: No disponible
-
- Puntuación: 4
- Prompts: 4
- Alucinaciones: No disponible
-
- Puntuación: 3
- Prompts: 9
- Alucinaciones: No disponible
Segunda semana
-
- Puntuación: 5
- Prompts: 10
- Alucinaciones: 0%
-
- Puntuación: 4
- Prompts: 3
- Alucinaciones: 33%
-
- Puntuación: 5
- Prompts: 5
- Alucinaciones: 0%
-
- Puntuación: 5
- Prompts: 4
- Alucinaciones: 25%
-
- Puntuación: 0
- Prompts: 4
- Alucinaciones: 100%
-
- Puntuación: 4
- Prompts: 18
- Alucinaciones: 0%
-
- Puntuación: 5
- Prompts: 7
- Alucinaciones: 0%
-
- Puntuación: 5
- Prompts: 7
- Alucinaciones: 0%
-
- Puntuación: 5
- Prompts: 13
- Alucinaciones: 0%
-
- Puntuación: 4
- Prompts: 21
- Alucinaciones: 0%
-
- Puntuación: 0
- Prompts: 11
- Alucinaciones: 100%
-
- Puntuación: 0
- Prompts: 3
- Alucinaciones: 100%
-
- Puntuación: 5
- Prompts: 3
- Alucinaciones: 0%
-
- Puntuación: 5
- Prompts: 1
- Alucinaciones: 0%
-
- Puntuación: 5
- Prompts: 31
- Alucinaciones: 0%
Análisis estadístico
En esta sección, realizaremos un análisis estadístico completo basado en las puntuaciones, el número de prompts y el porcentaje de alucinaciones de los 22 casos documentados en este reporte. Calcularemos medidas como el promedio, la desviación estándar, la distribución y las correlaciones entre las variables, para luego extraer conclusiones sobre el desempeño de la IA. Dado que la métrica de alucinaciones solo está disponible para la segunda semana (Prompts 8 al 22), su análisis se realizará por separado para esos 15 casos.
Datos iniciales
- Puntuaciones (22 casos): 5, 4, 4, 5, 3, 4, 3, 5, 4, 5, 5, 0, 4, 5, 5, 5, 4, 0, 0, 5, 5, 5
- Número de prompts: 2, 3, 1, 1, 1, 4, 9, 10, 3, 5, 4, 4, 18, 7, 7, 13, 21, 11, 3, 3, 1, 31
- Alucinaciones (15 casos de la 2ª semana): 0%, 33%, 0%, 25%, 100%, 0%, 0%, 0%, 0%, 0%, 100%, 100%, 0%, 0%, 0%
Análisis de las puntuaciones
1. Promedio (Media)
Suma = 85
Promedio = 85 / 22 ≈ 3.86
2. Desviación estándar
Varianza ≈ 2.7377
Desviación estándar ≈ √2.7377 ≈ 1.65
3. Distribución
- 0: 3 veces (13.64%)
- 3: 2 veces (9.09%)
- 4: 6 veces (27.27%)
- 5: 11 veces (50%)
Análisis del número de prompts
1. Promedio
Suma = 142
Promedio = 142 / 22 ≈ 6.45
2. Desviación estándar
Varianza ≈ 63.52
Desviación estándar ≈ √63.52 ≈ 7.97
3. Rango
Rango = 31 - 1 = 30
Análisis de alucinaciones (segunda semana)
1. Promedio
Suma = 358
Promedio = 358 / 15 ≈ 23.87%
2. Desviación estándar
Varianza ≈ 1652.74
Desviación estándar ≈ √1652.74 ≈ 40.66
3. Distribución
- 0%: 10 veces (66.67%)
- 25%: 1 vez (6.67%)
- 33%: 1 vez (6.67%)
- 100%: 3 veces (20%)
Correlaciones
Puntuaciones y prompts (22 casos)
∑x = 85, ∑y = 142, ∑xy = 672, ∑x² = 385, ∑y² = 1490, n = 22
r ≈ (22×672 - 85×142) / √[(22×385 - 85²)(22×1490 - 142²)]
r ≈ 0.22
Puntuaciones y alucinaciones (15 casos)
∑x = 61, ∑y = 358, ∑xy = 258, ∑x² = 301, ∑y² = 25858, n = 15
r ≈ (15×258 - 61×358) / √[(15×301 - 61²)(15×25858 - 358²)]
r ≈ -0.88
Prompts y alucinaciones (15 casos)
∑x = 133, ∑y = 358, ∑xy = 1358, ∑x² = 1889, ∑y² = 25858, n = 15
r ≈ (15×1358 - 133×358) / √[(15×1889 - 133²)(15×25858 - 358²)]
r ≈ -0.11
Tendencias y observaciones
- Puntuaciones: Media 3.86, con 50% de casos con puntuación 5.
- Prompts: Alta variabilidad (media 6.45, desviación 7.97), con casos entre 1 y 31.
- Alucinaciones: Promedio 23.87%, pero polarización clara entre 0% y 100%.
- Relaciones:
- Puntuaciones vs. prompts: débilmente positiva (0.22)
- Puntuaciones vs. alucinaciones: fuerte negativa (-0.88)
- Prompts vs. alucinaciones: muy débil negativa (-0.11)
Conclusión del análisis
- Puntuaciones: Buen desempeño general (3.86), aunque con algunos casos extremos.
- Prompts: Las interacciones son muy dispares en longitud.
- Alucinaciones: Claramente impactan negativamente la calidad.
- Correlaciones: Se detecta relación fuerte entre precisión y alucinaciones, mientras que el número de prompts parece tener un impacto menor.
Aprobado por
Scrum Master: Antonio Macías Ferrera