Informe de IA del #SPRINT 2

Logo FisioFind

FISIO FIND - INFORME DE IA #SPRINT 2

Ficha del documento

Nombre del Proyecto: FISIO FIND
Número de Grupo: Grupo 6
Entregable: #SPRINT 1
Miembros del grupo:
Alberto Carmona Sicre, Antonio Macías Ferrera, Benjamín Ignacio Maureira Flores, Francisco Capote García,
Daniel Alors Romero, Daniel Fernández Caballero, Daniel Ruiz López, Daniel Tortorici Bartús,
Daniel Vela Camacho, Delfín Santana Rubio, Guadalupe Ridruejo Pineda, Julen Redondo Pacheco,
Miguel Encina Martínez, Francisco Mateos Villarejo, Pablo Fernández Pérez, Ramón Gavira Sánchez,
Rafael Pulido Cifuentes.
Contribuidores: Daniel Fernández Caballero Daniel Ruiz López (autores)
Fecha de Creación: 27/03/2025
Versión: v1.0

Histórico de Modificaciones

Fecha	Versión	Realizada por	Descripción de los cambios
27/03/2025	v1.0	Daniel Fernández Caballero, Daniel Ruiz López	Elaboración de la primera versión del documento.

Introducción

En el marco del segundo Sprint, y tras la revisión intermedia del trabajo, se decidió incorporar una nueva métrica para optimizar la evaluación de la efectividad de la IA en función de los prompts utilizados. Esta nueva métrica corresponde al porcentaje de alucinaciones generadas por la IA, lo que permitirá obtener una visión más precisa sobre la calidad y fiabilidad de las conversaciones. Con esta actualización, las métricas establecidas para este sprint son las siguientes:

Calificación de conversaciones: evaluada en una escala de 1 a 5, refleja la calidad percibida de las respuestas de la IA.
Cantidad de prompts: número de interacciones empleadas en cada conversación, como indicador de su extensión.
Alucinaciones: porcentaje de respuestas erróneas o inventadas generadas por la IA, para medir su precisión.
Análisis estadístico: incluye el cálculo de promedios, desviaciones estándar y tendencias, con el fin de identificar patrones y áreas de mejora en el desempeño de la IA.

Esta evolución en las métricas busca proporcionar una evaluación más completa y detallada, enfocándose no solo en la satisfacción general y la duración de las interacciones, sino también en la exactitud de las respuestas generadas.

Prompts Utilizados

A continuación se presentan los distintos prompts evaluados junto con sus respectivas puntuaciones, cantidad de prompts y porcentaje de alucinaciones. Los datos se dividen entre la primera y segunda semana del Sprint para reflejar las diferencias en la implementación de las métricas. Cabe destacar que la métrica de alucinaciones no se registró durante la primera semana.

Primera semana

Prompt 1
- Puntuación: 5
- Prompts: 2
- Alucinaciones: No disponible
Prompt 2
- Puntuación: 4
- Prompts: 3
- Alucinaciones: No disponible
Prompt 3
- Puntuación: 4
- Prompts: 1
- Alucinaciones: No disponible
Prompt 4
- Puntuación: 5
- Prompts: 1
- Alucinaciones: No disponible
Prompt 5
- Puntuación: 3
- Prompts: 1
- Alucinaciones: No disponible
Prompt 6
- Puntuación: 4
- Prompts: 4
- Alucinaciones: No disponible
Prompt 7
- Puntuación: 3
- Prompts: 9
- Alucinaciones: No disponible

Segunda semana

Prompt 8
- Puntuación: 5
- Prompts: 10
- Alucinaciones: 0%
Prompt 9
- Puntuación: 4
- Prompts: 3
- Alucinaciones: 33%
Prompt 10
- Puntuación: 5
- Prompts: 5
- Alucinaciones: 0%
Prompt 11
- Puntuación: 5
- Prompts: 4
- Alucinaciones: 25%
Prompt 12
- Puntuación: 0
- Prompts: 4
- Alucinaciones: 100%
Prompt 13
- Puntuación: 4
- Prompts: 18
- Alucinaciones: 0%
Prompt 14
- Puntuación: 5
- Prompts: 7
- Alucinaciones: 0%
Prompt 15
- Puntuación: 5
- Prompts: 7
- Alucinaciones: 0%
Prompt 16
- Puntuación: 5
- Prompts: 13
- Alucinaciones: 0%
Prompt 17
- Puntuación: 4
- Prompts: 21
- Alucinaciones: 0%
Prompt 18
- Puntuación: 0
- Prompts: 11
- Alucinaciones: 100%
Prompt 19
- Puntuación: 0
- Prompts: 3
- Alucinaciones: 100%
Prompt 20
- Puntuación: 5
- Prompts: 3
- Alucinaciones: 0%
Prompt 21
- Puntuación: 5
- Prompts: 1
- Alucinaciones: 0%
Prompt 22
- Puntuación: 5
- Prompts: 31
- Alucinaciones: 0%

Análisis estadístico

En esta sección, realizaremos un análisis estadístico completo basado en las puntuaciones, el número de prompts y el porcentaje de alucinaciones de los 22 casos documentados en este reporte. Calcularemos medidas como el promedio, la desviación estándar, la distribución y las correlaciones entre las variables, para luego extraer conclusiones sobre el desempeño de la IA. Dado que la métrica de alucinaciones solo está disponible para la segunda semana (Prompts 8 al 22), su análisis se realizará por separado para esos 15 casos.

Datos iniciales

Puntuaciones (22 casos): 5, 4, 4, 5, 3, 4, 3, 5, 4, 5, 5, 0, 4, 5, 5, 5, 4, 0, 0, 5, 5, 5
Número de prompts: 2, 3, 1, 1, 1, 4, 9, 10, 3, 5, 4, 4, 18, 7, 7, 13, 21, 11, 3, 3, 1, 31
Alucinaciones (15 casos de la 2ª semana): 0%, 33%, 0%, 25%, 100%, 0%, 0%, 0%, 0%, 0%, 100%, 100%, 0%, 0%, 0%

Análisis de las puntuaciones

1. Promedio (Media)

Suma = 85
Promedio = 85 / 22 ≈ 3.86

2. Desviación estándar

Varianza ≈ 2.7377
Desviación estándar ≈ √2.7377 ≈ 1.65

3. Distribución

0: 3 veces (13.64%)
3: 2 veces (9.09%)
4: 6 veces (27.27%)
5: 11 veces (50%)

Análisis del número de prompts

1. Promedio

Suma = 142
Promedio = 142 / 22 ≈ 6.45

2. Desviación estándar

Varianza ≈ 63.52
Desviación estándar ≈ √63.52 ≈ 7.97

3. Rango

Rango = 31 - 1 = 30

Análisis de alucinaciones (segunda semana)

1. Promedio

Suma = 358
Promedio = 358 / 15 ≈ 23.87%

2. Desviación estándar

Varianza ≈ 1652.74
Desviación estándar ≈ √1652.74 ≈ 40.66

3. Distribución

0%: 10 veces (66.67%)
25%: 1 vez (6.67%)
33%: 1 vez (6.67%)
100%: 3 veces (20%)

Correlaciones

Puntuaciones y prompts (22 casos)

∑x = 85, ∑y = 142, ∑xy = 672, ∑x² = 385, ∑y² = 1490, n = 22

r ≈ (22×672 - 85×142) / √[(22×385 - 85²)(22×1490 - 142²)]
r ≈ 0.22

Puntuaciones y alucinaciones (15 casos)

∑x = 61, ∑y = 358, ∑xy = 258, ∑x² = 301, ∑y² = 25858, n = 15

r ≈ (15×258 - 61×358) / √[(15×301 - 61²)(15×25858 - 358²)]
r ≈ -0.88

Prompts y alucinaciones (15 casos)

∑x = 133, ∑y = 358, ∑xy = 1358, ∑x² = 1889, ∑y² = 25858, n = 15

r ≈ (15×1358 - 133×358) / √[(15×1889 - 133²)(15×25858 - 358²)]
r ≈ -0.11

Tendencias y observaciones

Puntuaciones: Media 3.86, con 50% de casos con puntuación 5.
Prompts: Alta variabilidad (media 6.45, desviación 7.97), con casos entre 1 y 31.
Alucinaciones: Promedio 23.87%, pero polarización clara entre 0% y 100%.
Relaciones:
- Puntuaciones vs. prompts: débilmente positiva (0.22)
- Puntuaciones vs. alucinaciones: fuerte negativa (-0.88)
- Prompts vs. alucinaciones: muy débil negativa (-0.11)

Conclusión del análisis

Puntuaciones: Buen desempeño general (3.86), aunque con algunos casos extremos.
Prompts: Las interacciones son muy dispares en longitud.
Alucinaciones: Claramente impactan negativamente la calidad.
Correlaciones: Se detecta relación fuerte entre precisión y alucinaciones, mientras que el número de prompts parece tener un impacto menor.

Aprobado por

Scrum Master: Antonio Macías Ferrera

FISIO FIND - INFORME DE IA #SPRINT 2

Introducción​

Prompts Utilizados​

Primera semana​

Segunda semana​

Análisis estadístico​

Datos iniciales​

Análisis de las puntuaciones​

1. Promedio (Media)​

2. Desviación estándar​

3. Distribución​

Análisis del número de prompts​

1. Promedio​

2. Desviación estándar​

3. Rango​

Análisis de alucinaciones (segunda semana)​

1. Promedio​

2. Desviación estándar​

3. Distribución​

Correlaciones​

Puntuaciones y prompts (22 casos)​

Puntuaciones y alucinaciones (15 casos)​

Prompts y alucinaciones (15 casos)​

Tendencias y observaciones​

Conclusión del análisis​

Aprobado por​

Introducción

Prompts Utilizados

Primera semana

Segunda semana

Análisis estadístico

Datos iniciales

Análisis de las puntuaciones

1. Promedio (Media)

2. Desviación estándar

3. Distribución

Análisis del número de prompts

1. Promedio

2. Desviación estándar

3. Rango

Análisis de alucinaciones (segunda semana)

1. Promedio

2. Desviación estándar

3. Distribución

Correlaciones

Puntuaciones y prompts (22 casos)

Puntuaciones y alucinaciones (15 casos)

Prompts y alucinaciones (15 casos)

Tendencias y observaciones

Conclusión del análisis

Aprobado por