En estadística, el coeficiente phi φ o rφ, también llamado coeficiente de correlación de Matthews es una medida de la asociación entre dos variables binarias. Esta medida es similar al coeficiente de correlación de Pearson en su interpretación. De hecho, un coeficiente de correlación de Pearson estimado para dos variables binarias nos dará el coeficiente phi.[1] El coeficiente phi también relacionado con el estadístico de chi-cuadrado para una tabla de contingencia de a 2×2.[2]
Donde n es el total del número de observaciones. Se considera que dos variables binarias están positivamente asociadas si la mayor parte de los datos caen dentro de las celdas diagonales. Por el contrario, dos variables binarias se consideran negativamente asociadas si la mayoría de los datos se salen de la diagonal. Si tenemos una tabla de 2×2 para dos variables aleatorias, x e y
y = 1 | y = 0 | total | |
x = 1 | |||
x = 0 | |||
total |
donde n11, n10, n01, n00, son "cuentas no negativas celdad celda" que se suman a n, el número total de observaciones. El coeficiente phi que describe la asociación de x e y es
Aunque en computación el coeficiente de correlación de Pearson se reduce al coeficiente phi en el caso 2×2, la interpretación del coeficiente de correlación de Pearson y el coeficiente phi se deben tomar con precaución. El coeficiente de correlación de Pearson va desde −1 a +1, donde ±1 concordancia o discordancia perfectas, y el 0 indica ausencia de relación. El coeficiente phi tiene un valor máximo que está determinado por la distribución de dos variables. Si ambas tienen un split 50/50, el rango de phi irá de −1 a +1. Ver Davenport El-Sanhury (1991) para una exhaustiva discusión.[3]