Documentation des statistiques salariales
Introduction
Le système de statistiques salariales analyse les données de plus de 500 000 entrées salariales provenant de conventions collectives québécoises. Pour assurer la pertinence des statistiques, le système utilise des techniques d'inférence statistique pour les années où les données sont limitées.
Métriques de base
Définitions
- Salaire médian
- La valeur centrale qui sépare la moitié supérieure de la moitié inférieure des salaires. 50% des salaires sont au-dessus et 50% sont en dessous.
- 25e percentile (P25)
- 25% des salaires sont inférieurs à cette valeur. Représente le quartile inférieur.
- 75e percentile (P75)
- 75% des salaires sont inférieurs à cette valeur. Représente le quartile supérieur.
- Écart interquartile
- La différence entre P75 et P25. Mesure la dispersion des salaires centraux.
Exemple de calcul
Données d'exemple pour Mécanicien (CNP 72410) en 2025:
Salaires: $18, $20, $22, $24, $26, $28, $30
- P25 = $21 (entre $20 et $22)
- Médiane = $24
- P75 = $27 (entre $26 et $28)
- Écart IQ = $27 - $21 = $6
Inférence statistique pour années creuses
Problème des années creuses
Certaines années ont peu de conventions collectives, ce qui peut créer un biais de sélection. Par exemple, si seulement les entreprises payant bien renouvellent leurs conventions une année donnée, la médiane sera artificiellement élevée.
Méthode d'inférence par ratios historiques
Le système utilise une approche en plusieurs étapes:
-
Identification des classifications existantes
Pour une année creuse, on identifie toutes les classifications présentes et leurs salaires. -
Calcul des ratios historiques
Pour chaque classification, on calcule son ratio historique par rapport à la médiane:Ratio = Salaire de la classification / Médiane de l'année
-
Inférence de la médiane réelle
Si on connaît le ratio historique d'une classification et son salaire actuel:Médiane inférée = Salaire actuel / Ratio historique
-
Moyenne pondérée
On calcule la moyenne pondérée de toutes les médianes inférées. Les poids sont inversement proportionnels à la variance historique du ratio.
Exemple d'inférence
Année 2030 pour CNP 14300 (seulement 6 conventions):
Classification | Salaire 2030 | Ratio historique | Médiane inférée |
---|---|---|---|
Gestionnaire - Échelon 1 | $48.00 | 1.324 | $36.25 |
Superviseur - Échelon 3 | $42.00 | 1.156 | $36.33 |
Coordonnateur - Échelon 2 | $38.50 | 1.067 | $36.08 |
Médiane inférée finale: $36.22 (au lieu de $40.00 observée)
Calcul des percentiles ajustés
Pour les percentiles P25 et P75, le système utilise les déviations historiques moyennes par rapport à la médiane des 3-6 années les plus proches avec suffisamment de données:
- P25 ajusté = Médiane inférée × (1 - déviation P25 moyenne)
- P75 ajusté = Médiane inférée × (1 + déviation P75 moyenne)
Seuils et indicateurs
Seuil d'activation de l'inférence
L'inférence statistique est activée lorsque le nombre de conventions d'une année est inférieur à 30% du maximum historique pour ce code CNP.
Exemple:
- Maximum historique: 200 conventions en 2024
- Seuil d'activation: 200 × 0.3 = 60 conventions
- Année 2030 avec 45 conventions → Inférence activée
Indicateurs visuels
- Valeur ajustée
- Indique qu'une valeur a été inférée statistiquement
- Ligne pointillée
- Sur les graphiques, représente les valeurs originales non ajustées
Limites et considérations
- L'inférence nécessite au moins 5 classifications avec des ratios historiques valides
- Les ratios historiques doivent provenir d'au moins 10 observations pour être considérés fiables
- L'inférence utilise uniquement le niveau CNP approprié (ex: CNP complet pour codes à 5 chiffres)
- Les valeurs inférées sont des estimations et peuvent différer de la réalité
- L'inférence n'est pas appliquée aux années futures au-delà de l'année courante + 5 ans