Aller au contenu

Ce tchat, hébergé sur une plateforme indépendante d'Infoclimat, est géré et modéré par une équipe autonome, sans lien avec l'Association.
Un compte séparé du site et du forum d'Infoclimat est nécessaire pour s'y connecter.

Statistiques et anomalies climatiques nationales


Aldébaran

Messages recommandés

Il y a 1 heure, Ventdautan a dit :

Après, pour moi, il est normal de laisser la valeur brute. Chaque jour, on fait la moyenne des Tm des 30 stations (précision de 0.1°C) donnant une valeur de Tm journalière sur la France au centième (mais qui est significative au dixième). Puis on fait la moyenne de cette Tm journalière sur un mois, une saison, une année,... toujours au centième pour éviter une éventuelle addition des arrondies avec les moyennes.

Un exemple : Supposons 15 jours à 15.05°C et 15 jours à 14.95°C. Si on utilisait directement les arrondies au supérieures, on 15 jours à 15.1°C et 15 jours à 15.0°C soit une moyenne de 15.05°C arrondie à 15.1°C alors que le vraie Tm est de 15.0°C.

 Comme l'a dit @dann17, pour faire une moyenne globale, il faut bien reprendre toutes les valeurs mesurées et en faire la moyenne, sans passer par un arrondi de la valeur de Tm journalière en France par exemple. Dans ce cas pas besoin d'avoir des arrondis au centième accessible quelque part. C'est assez traître mais il ne faut vraiment pas se servir de résultats arrondis pour continuer des calculs. Ainsi, si on fait la moyenne sur la France des Tm, qu'on a arrondie au dixième, le résultat sera faux. Il faut bien faire la moyenne des (Tn + Tx)/2, sans chercher à repartir de résultats en dixième. 

  • J'aime 1
Lien à poster
Partager sur d’autres sites

  • Réponses 1,4k
  • Créé
  • Dernière réponse

Les plus actifs

Les plus actifs

Messages populaires

Je me permets de répondre à la question, et de le faire sur ce sujet puisqu'on parle de l'échelle nationale. Pour la faire courte, la période écoulée de 2 mois glissants est, sur le plan thermique, co

Je reviens sur l'été 2022 pour une petite mise en perspective de son bilan thermique par rapport aux tendances long terme. Comme on l'a vu, à l'échelle nationale, cet été s'est classé en 2ème place de

Pour répéter sur la France entière l'exercice que j'avais fait sur la série des moyennes annuelles de Toulouse, voici ce que donne l'anomalie de 2022 mise dans le contexte d'un siècle de données. Comm

Images postées

il y a une heure, Matpo a dit :

Par contre c est vrai que ça peut changer quelque chose, le fait d écrire "nous sommes à tant de mois consécutifs supérieurs à la normale"

Cette phrase de toute façon est forcément en elle même une simplification, pour une idée plus précise la graph qui l'accompagne avec le mois par mois est déjà bien

 

Je suis bien d'accord avec toi sur ça, on cherche juste la petite bête pour savoir si la série continue. Plus globalement, le mois est dans les normes point à la ligne.

 

Il y a 1 heure, Matpo a dit :

Maintenant quand à savoir s il faut donner cette valeur ou mettre 0, je trouve plus honnête de donner la valeur brute 

Personnellement je trouve pas dérangeant qu'on me fournisse le résultat brut, parce que chacun sait que ça veut dire que l on est grosso modo dans les normes. 

Sur ce côté là, tu parles de résultats bruts, mais ce dernier ressemble plus probablement à un nombre du style : -0.019785333333333... . Pas cool pour communiquer. Le couper au centième n'a pas beaucoup plus de sens que de le couper au millième, alors que l'arrondir au dixième respecte les codes des mesures physique. 

  • J'aime 1
Lien à poster
Partager sur d’autres sites

Posté(e)
Toulouse (quartier Lardenne)
il y a 13 minutes, Gabriel_D178 a dit :

 Comme l'a dit @dann17, pour faire une moyenne globale, il faut bien reprendre toutes les valeurs mesurées et en faire la moyenne, sans passer par un arrondi de la valeur de Tm journalière en France par exemple. Dans ce cas pas besoin d'avoir des arrondis au centième accessible quelque part. C'est assez traître mais il ne faut vraiment pas se servir de résultats arrondis pour continuer des calculs. Ainsi, si on fait la moyenne sur la France des Tm, qu'on a arrondie au dixième, le résultat sera faux. Il faut bien faire la moyenne des (Tn + Tx)/2, sans chercher à repartir de résultats en dixième. 

Mais je suis totalement d'accord. C'est juste que je n'ai pas le script sous les yeux pour savoir comment il est calculé exactement. 

 

Après, si on veut être rigoureux, la vraie valeur de température moyenne d'une station n'est pas (Tn + Tx)/2 mais plutôt la moyenne des 24 x 60 = 1440 températures minutes (la valeur moyenne de l'intégrale de la courbe des températures sur la journée).

Car on comprend bien qu'une station où il fait 20°C en permanence sur une journée sauf sur une heure où l'on a un pic à 30°C (un heat burst au hasard), ce n'est pas la même chose qu'une station où il fait 30°C en permanence avec une heure où ça descend à 20°C (un courant de densité au hasard).

Avec le calcul actuel, la Tm serait pour les 2 stations de 25°C alors qu'avec la vraie valeur moyenne, la première serait une Tm de (23*20°C+30°C)/24 = 20.4°C alors que l'autre station aurait une Tm de (23*30°C+20°C)/24 = 29.6°C. Donc grosse différence de Tm. J'ai pris exprès un cas extrême. Mais c'est ce qu'il faudrait faire dans un monde idéal.

 

Mais ceci est dans un monde parfait et utopique.

Modifié par Ventdautan
  • J'aime 3
Lien à poster
Partager sur d’autres sites

Le 02/07/2024 à 23:31, Gabriel_D178 a dit :

Merci pour les précisions. 
Ton raisonnement me semble impeccable si on parlait d'un seul mesurande, comme si on le mesurait 1800 fois pour être le plus précis sur sa valeur. Mais j'ai du mal à comprendre comment ça s'applique sur notre cas de moyenne de 1800 mesurandes différents. Le fait d'additionner des mesures avec une précision au dixième ne rend pas le résultat plus précis, non ?

 

Je ne vois pas de raison pour que les deux cas soient différents. L'incertitude sur la moyenne ne dépend que de l'incertitude des différents termes en entrée, pas de leurs valeurs.

Ensuite le facteur racine(1800) que j'ai indiqué ne fonctionne que dans le cas idéal où les erreurs sur les mesures ont une distribution identique et surtout sont toutes indépendantes, autrement dit, uniquement des erreurs aléatoires. Le cas extrême inverse serait celui d'erreurs totalement corrélées, c'est-à-dire un biais systématique et identique pour toutes les mesures. Dans ce cas il est évident que l'erreur sur la moyenne est directement égale à l'erreur de chaque mesure. Dans la vraie vie c'est en général un entre deux avec des erreurs partiellement corrélées. Par exemple dans notre cas les 60 mesures d'une station vont peut-être avoir un peu d'erreur aléatoire, en plus d'un biais commun. Mais ce biais sera différent de celui d'une autre station. Donc avoir une estimation robuste de l'incertitude sur la moyenne peut-être assez complexe.

Par contre à la fin une moyenne peut réellement avoir une incertitude plus faible que les mesures en entrée, puisque tu as le facteur 1/n qui divise l'incertitude de la somme des mesures en entrée.

 

 

Le 03/07/2024 à 01:30, Gabriel_D178 a dit :

J'ai du mal à comprendre ton analyse en se basant sur l'indicateur thermique. L'indicateur thermique n'est pas un tirage comme l'est la mesure d'une température à une station donnée. Ici pour la moyenne sur 30 ans, on ne cherche pas à réaliser une estimation de la vraie bonne valeur climatique de l'indicateur thermique, on veut juste connaître la moyenne des températures pour faire des calculs d'anomalie. On ne réalise pas 30 tirages d'une entité qui aurait une valeur unique bien définie.

 

Effectivement, plus on a de tirages plus on peut être précis, avec plus de certitudes, sur les infos décrivant cette série de données homogènes (moyenne, écart-type, ...). Mais dans le fond, la vraie moyenne climatique n'existe pas, pas besoin de chercher à l'estimer, c'est seulement un calcul.

 

 

Sur une échelle de temps assez longue, tu peux voir le système climatique comme l'ensemble des distributions statistiques des variables qui décrivent l'atmosphère, c'est-à-dire toutes leurs valeurs possibles et les probabilités associées. A chaque instant t, la météo réalise un unique tirage de chaque variable. Pour autant les propriétés de ces distributions existent bien intrinsèquement : en chaque point du globe, à chaque date de l'année, la distribution statistique de la température a une moyenne qui correspond à une valeur unique et bien définie, un écart-type qui correspond à une valeur unique et bien définie, etc ... Sauf que ces propriétés ne peuvent pas être directement mesurées. Si le climat ne changeait jamais et qu'on avait une série de mesures infinie, on pourrait alors connaître leurs valeurs exactes, mais à défaut on cherche à les estimer à partir d'un ensemble fini de mesures, ce qui conduit à des approximations.

Mais c'est bien la moyenne climatique (inconnue) que l'on cherche à approcher en faisant la moyenne des valeurs sur 30 ans, sinon quel sens donner à cette référence ?

 

Modifié par Arkus
  • J'aime 3
Lien à poster
Partager sur d’autres sites

Il y a 20 heures, Arkus a dit :

 

Je ne vois pas de raison pour que les deux cas soient différents. L'incertitude sur la moyenne ne dépend que de l'incertitude des différents termes en entrée, pas de leurs valeurs.

Ensuite le facteur racine(1800) que j'ai indiqué ne fonctionne que dans le cas idéal où les erreurs sur les mesures ont une distribution identique et surtout sont toutes indépendantes, autrement dit, uniquement des erreurs aléatoires. Le cas extrême inverse serait celui d'erreurs totalement corrélées, c'est-à-dire un biais systématique et identique pour toutes les mesures. Dans ce cas il est évident que l'erreur sur la moyenne est directement égale à l'erreur de chaque mesure. Dans la vraie vie c'est en général un entre deux avec des erreurs partiellement corrélées. Par exemple dans notre cas les 60 mesures d'une station vont peut-être avoir un peu d'erreur aléatoire, en plus d'un biais commun. Mais ce biais sera différent de celui d'une autre station. Donc avoir une estimation robuste de l'incertitude sur la moyenne peut-être assez complexe.

Par contre à la fin une moyenne peut réellement avoir une incertitude plus faible que les mesures en entrée, puisque tu as le facteur 1/n qui divise l'incertitude de la somme des mesures en entrée.

 

Sur ce point là, j'ai toujours du mal à te suivre. Dans notre cas chaque mesure pour créer l'ITM ne mesure pas la même chose.
C'est comme si tu voulais la moyenne de la taille des élèves d'une classe. Chaque élève a une taille différente, si tu les mesures avec une précision au cm, la moyenne aura une précision au cm. Qu'importe s'ils sont 10 ou 800 dans la classe.

 

Il y a 20 heures, Arkus a dit :

 

Sur une échelle de temps assez longue, tu peux voir le système climatique comme l'ensemble des distributions statistiques des variables qui décrivent l'atmosphère, c'est-à-dire toutes leurs valeurs possibles et les probabilités associées. A chaque instant t, la météo réalise un unique tirage de chaque variable. Pour autant les propriétés de ces distributions existent bien intrinsèquement : en chaque point du globe, à chaque date de l'année, la distribution statistique de la température a une moyenne qui correspond à une valeur unique et bien définie, un écart-type qui correspond à une valeur unique et bien définie, etc ... Sauf que ces propriétés ne peuvent pas être directement mesurées. Si le climat ne changeait jamais et qu'on avait une série de mesures infinie, on pourrait alors connaître leurs valeurs exactes, mais à défaut on cherche à les estimer à partir d'un ensemble fini de mesures, ce qui conduit à des approximations.

Mais c'est bien la moyenne climatique (inconnue) que l'on cherche à approcher en faisant la moyenne des valeurs sur 30 ans, sinon quel sens donner à cette référence ?

 

Très bien, je vois mieux ton idée et effectivement je suis d'accord avec ton paragraphe.


Déjà, avec ce que tu expliques on voit bien que dans un climat stable, les moyennes sur 30 ans n'auraient pas lieu d'être et on utiliserait toutes les années depuis le début de mesure pour avoir une meilleure approximation des propriétés de cette distribution. 

Mais on doit faire avec un climat qui n'est pas stable et un tirage réalisé dans les années 60 n'a pas les mêmes propriétés qu'un tirage dans les années 2000. Ainsi les propriétés de la distribution, dont la moyenne climatique, dépendent du temps.
Selon l'OMM, les normales servent, entre autres, à s'y "référer largement, implicitement ou explicitement, pour déterminer les conditions auxquelles on peut le plus vraisemblablement s'attendre en un lieu donné."  Dans ce cas, si on attend d'avoir 60 années pour faire un calcul de normal, la distribution que l'on va décrire sera partiellement incohérente avec le climat actuel. Cela donnera une illusion par exemple que les -12°C sont possibles à Montsouris alors que c'est de l'ordre du quasi impossible sur un climat centré sur 2024. 

 

Selon moi, il n'y a pas de moyenne climatique (inconnue) comme une constante absolue, celle ci est dépendante du temps est varie légèrement chaque année. Calculer une normale sur 30 ans, c'est essayer de faire une photo de cette moyenne climatique mouvante à un moment donné. Mais le problème, c'est que la quête d'essayer d'avoir plus de tirages pour réduire l'incertitude est une quête sans fin, puisque pour réaliser un nouveau tirage il faut attendre 1 an, mais entre temps, les propriétés de la distribution auront déjà un peu changé. Au final, je sais même pas si on peut parler de "tirage" au sens mathématique, puisque chaque tirage provient d'une distribution légèrement différente. 

 

Au final, on voit donc que la moyenne climatique est quelque chose de très insaisissable. Elle change tout le temps. Le rôle des normales reste d'en donner une idée globale, mais pas forcément de l'estimer au sens mathématique du terme. Donc je ne sais pas si parler de marge d'erreur sur quelques chose d'aussi difficile à cerner est le mieux. 

J'ai envie de dire qu'il faut accepter la normale comme elle est, c'est un calcul avec une définition précise pour donner une idée générale du temps que l'on peut vraisemblablement attendre.

 

Modifié par Gabriel_D178
  • J'aime 1
Lien à poster
Partager sur d’autres sites

Il y a 8 heures, Gabriel_D178 a dit :

Sur ce point là, j'ai toujours du mal à te suivre. Dans notre cas chaque mesure pour créer l'ITM ne mesure pas la même chose.
C'est comme si tu voulais la moyenne de la taille des élèves d'une classe. Chaque élève a une taille différente, si tu les mesures avec une précision au cm, la moyenne aura une précision au cm. Qu'importe s'ils sont 10 ou 800 dans la classe.

 

Ok, je comprends ton interrogation, je vais essayer de répondre au mieux. En fait il y a deux questions indépendantes cachées à l'intérieur.

 

1 - Pourquoi l'erreur sur la moyenne ne dépend que de l'erreur de mesure et pas de la valeur mesurée ?

 

Prenons d'abord l'expérience dans laquelle on est d'accord, où l'on mesure n fois la hauteur h d'un même élève. A chaque fois on fait une erreur différente e, si bien que la i-ème mesure va donner une valeur :

 

h + e_i

 

Si on additionne toutes les mesures, on a alors :

 

(h + e_1) + ... + (h + e_i) + ... (h + e_n) = (n * h) + Somme de 1 à n (e_i)

 

Et si on fait la moyenne des mesures :

 

((h + e_1) + ... + (h + e_i) + ... (h + e_n)) / n = h + (Somme de 1 à n (e_i)) / n

 

Notre erreur sur la moyenne est donc égale à la moyenne des erreurs.

Maintenant, on ne connait pas les erreurs mais on va essayer des les quantifier. L'incertitude sur notre résultat final revient à estimer quel serait l'écart-type d'un ensemble de moyennes si on répétait x fois l'expérience. Pour ça on va passer par la variance de la moyenne, qui n'est autre que le carré de l'écart-type :

 

Variance (Moyenne des mesures) = Variance (h + (Somme des erreurs) / n)

 

Les propriétés de la variance nous disent (*) que le deuxième terme se simplifie et donne :

 

Variance (Moyenne des mesures) = Variance (Somme des erreurs) / n²

 

 

(*) voir par exemple : https://fr.wikipedia.org/wiki/Variance_(mathématiques)

 

Citation

image.thumb.png.c590ea18ecacbc6eb319444ace85ab00.png

 

Admettons qu'on avait mesuré avec un protocole qui nous donne des erreurs parfaitement aléatoires, disons suivant une jolie distribution normale d'écart-type sigma, soit une variance sigma².

Comme ces erreurs sont aléatoires et donc indépendantes, les maths nous disent que la variance de la somme est égale à la somme des variances.

Donc on a tout simplement :

Variance (Somme des erreurs) = n * sigma²

Donc :

Variance (Moyenne des mesures) = sigma² / n

 

Et donc si on prend la racine carrée pour avoir l'écart-type :

Écart-type (Moyenne des mesures) = sigma / racine (n)

 

On vient donc de remontrer le fait qu'en moyennant n mesures, sous certaines conditions, on a une estimation racine (n) fois plus précise qu'une seule mesure.

Mais jusqu'ici on était déjà d'accord sur ce point. Alors pourquoi avoir utilisé tout ce formalisme ? 😁

 

Eh bien changeons maintenant d'expérience, on va maintenant mesurer avec le même protocole (même hypothèse sur les erreurs de mesures), la hauteur de n individus différents et en faire la moyenne. On reprend les mêmes égalités que plus haut mais au lieu d'avoir h à chaque fois on a une hauteur réelle h_i pour le i-ème élève.

La i_ème mesure donne donc une valeur :

h_i + e_i

 

Et si on fait la moyenne des mesures :

((h_1 + e_1) + ... + (h_i + e_i) + ... (h_n + e_n)) / n = (Somme de 1 à n (h_i)) / n + (Somme de 1 à n (e_i)) / n

 

Autrement dit la moyenne des mesures est la somme de la moyenne des hauteurs (vraies) et de la moyenne des erreurs.

Or la moyenne des hauteurs vraies est une constante, une valeur unique et bien définie qui ne dépend pas de l'expérience, ni des mesures. Notons-la H.

A partir de là, on voit bien que tout ce que l'on a dit plus haut sur l'incertitude et la variance reste valable :

 

Variance (Moyenne des mesures) = Variance (H + (Somme des erreurs) / n)

Variance (Moyenne des mesures) = Variance (Somme des erreurs) / n²

Et donc :

Écart-type (Moyenne des mesures) = sigma / racine (n)

 

Les valeurs que l'on cherchait à mesurer disparaissent complètement de l'estimation de l'incertitude, et à condition que nos erreurs de mesures soient indépendantes, plus le nombre d'élève augmente, plus la mesure de la moyenne de leurs tailles est précise, et ce d'un facteur racine (n).

Et en fait paradoxalement, dans la vraie vie, la condition a plus de chances d'être réunie en mesurant des objets différents car il est alors plus probable que les erreurs soient indépendantes. Par exemple pour l'ITN, si les thermomètres ont légèrement dérivé et ont chacun un biais propre, les erreurs seront indépendantes entre les stations, alors que sur la moyenne d'une seule station aura ce biais plein pot. C'est d'ailleurs pour ça qu'utiliser les mesures brutes non-homogénéisées pour le calcul de l'ITN est plus acceptable que sur une station seule car on peut supposer une compensation des erreurs d'homogénéité. Et il se trouve que MF en parle même dans cet article : https://www.researchgate.net/publication/280761960_Evolution_de_la_temperature_en_France_depuis_les_annees_1950_Constitution_d'un_nouveau_jeu_de_series_homogeneisees_de_reference

 

 

2 - Pourquoi la précision de la moyenne peut être supérieure à la résolution de mesure ?

 

Maintenant qu'on a établi le fait que l'incertitude sur la moyenne ne dépendait pas des objets mesurés, mais seulement de l'incertitude des mesures, je vais revenir pour simplifier au cas où l'on mesure n fois la hauteur d'un même élève.

On notera que j'ai complètement omis dans la première question de parler de la résolution de la mesure. Je me suis contenté de dire que les erreurs était normalement distribuées avec un écart-type sigma, sans lui assigner de valeur. Là il faut faire attention car il y a deux termes à bien distinguer, comme je l'ai écrit dans la question : précision et résolution. La précision c'est justement ce qui correspond à l'écart-type sigma, c'est la dispersion des mesures autour de la vraie valeur. La résolution, en revanche, c'est la finesse des graduations de notre règle ou le nombre de chiffres qui s'affiche à l'écran.

Admettons maintenant que notre résolution de mesure est limitée au centimètre. Néanmoins ça ne dit rien sur la précision de mesure. On pourrait très bien avoir une grande précision de mesure, mais être ensuite limités sur la lecture de la mesure.

En introduisant une limite de résolution, on introduit une erreur d'arrondi, qui sera un deuxième terme s'additionnant au premier. La valeur mesurée sera :

 

h + e_i + arr_i

 

On part de la vraie valeur, on rajoute une erreur aléatoire e_i distribuée normalement, puis on rajoute une erreur d'arrondi arr_i, qui dépend de la valeur de h + e_i et de notre résolution de mesure.

 

Cas 1 : Grande précision de mesure

 

Imaginons avoir une précision de 1 mm. Dans ce cas là, l'erreur d'arrondi sera dominante, et sera donc à peu près toujours de la même valeur : l'hypothèse d'indépendance des erreurs n'étant plus vérifiée, le gain de précision sur la moyenne n'est plus vrai.

Il est facile de s'en rendre compte avec un exemple. Disons que la vraie hauteur était de 176.221 cm

Avec un écart-type de 1 mm, 95% des mesures avant arrondi vont être dans l'intervalle à 2 sigmas = [176.021, 176.421]

Donc après arrondi, la quasi-totalité des valeurs va donner 176 cm, et donc notre moyenne sera de ... 176 cm. On pourra faire autant de mesures que l'on veut, on n'améliorera pas le résultat.

 

Cas 2 : Faible précision de mesure

 

Accrochez-vous bien car c'est là que les choses se corsent, et que ça devient un peu beaucoup contre-intuitif. 😁

Imaginons maintenant que la précision est mauvaise, la personne qui tient la règle tremble beaucoup, ou bien l'élève mesuré en a marre et commence à chahuter. Bref, on a maintenant une précision à 1 sigma de 10 cm, mais par contre on fait toujours des lectures de mesures à la résolution de 1 cm. Vous allez me dire, à quoi bon garder une résolution de 1 cm qui ne veut désormais rien dire ? Eh bien vous allez voir !

Étant donné que désormais les mesures avant arrondi sont très différentes, l'erreur d'arrondi n'est plus systématique mais varie avec la mesure, et en plus elle est bien plus faible que l'erreur aléatoire. En fait de ce fait l'erreur d'arrondi devient aléatoire elle aussi, et donc devient indépendante entre chaque mesure.

A partir de là, nos calculs de variance s'appliquent à nouveau, et on obtient de nouveau une précision sur la moyenne des n mesures qui augmente d'un facteur racine (n) par rapport à la précision d'une mesure.

Certes avec 10 cm de précision on part de plus loin, mais avec 100 mesures, on retrouve une précision de 1 cm sur la moyenne, et avec 10 000 mesures, on améliore la précision à 0.1 cm. Comment donc ? Tout simplement car sur un grand nombre de mesures, on aura des valeurs différentes, certes arrondies, mais leur répartition ne sera pas aléatoire, et nous permettra de remonter à une valeur plus précise.

Mieux qu'avec l'instrument "précis", et surtout 10 fois mieux dans ce cas que la résolution de mesure.

 

En résumé pour ceux qui n'ont pas suivi, à résolution de mesure donnée, et avec suffisamment de mesures (et indépendance des erreurs), un instrument moins précis peut donner in fine un meilleur résultat qu'un instrument trop précis (pour sa résolution). Donc ne boudez pas les chiffres qui paraissent non significatifs, parfois ils peuvent cacher de l'information utile.

 

Je sens qu'il y a encore des sceptiques, mais on peut le vérifier, avec une simulation par exemple, en reprenant notre cas d'étude :

 

Faisons 10 mesures, on obtient la série suivante :

 

[169, 156, 170, 167, 172, 170, 156, 178, 197, 182]

 

On a une moyenne de 171.7 cm, pour une vraie valeur à 176.221 cm, bof bof. En même temps 10 mesures, on s'attendait à une précisions de la moyenne de 10 / racine (10) soit environ 3.2 cm (à 1 sigma). Pour le coup la décimale n'est pas du tout significative. Néanmoins cela nous dit que la vraie valeur a 95% de chances d'être dans l'intervalle [ 171.7 - 2 * 3.2, 171.7 + 2 * 3.2 ] soit [ 165.3, 178.1 ], est c'est bien vérifié.

 

Pour se convaincre de la validité de l'estimation de l'écart-type, si on répète un grande nombre de fois ce tirage de 10 mesures, et qu'on fait la moyenne de chacune des séries, voici la distribution de toutes ces moyennes :

 

Figure_1.png.c2600c1bca786c5a4cefa40c90b532b1.png

 

Une belle distribution gaussienne, dont l'écart-type est d'environ 3.2 cm, tout juste la valeur théorique de 10 / racine (10).

 

Maintenant qu'obtient-t-on si au lieu de 10 mesures sur une série, on prend 10000 mesures ? La théorie nous dit que notre précision à 1 sigma est alors de 10 / racine(10000) = 0.1 cm.

Voici la distribution de nos 10000 mesures :

 

Figure_2.png.7aebdc4850ec133b5eb11c764fceb7e6.png

 

On retrouve bien la largeur de la gaussienne pour un écart-type de 10 cm, et la largeur des barres est volontairement mise pile à la résolution de 1 cm.

La moyenne de notre série de mesure est de 176.1878 cm. Je laisse volontairement tous les chiffres, mais la théorie nous dit que c'est significatif jusqu'à la première décimale, soit 176.2 cm. Il devrait y avoir 95% de chances que la vraie valeur soit dans l'intervalle à 2 sigmas [ 176.0, 176.4 ], c'est bien le cas, on n'est même pas loin du centre.

 

Pour bien montrer que ce n'est pas le fruit du hasard de tomber sur la bonne décimale, si on répète un grand nombre de fois ce tirage de 10000 valeurs, on prend à chaque fois la moyenne de la série, et voici la distribution de toutes les moyennes obtenues :

 

Figure_3.png.3afb95969214f5732bf2b02bc034c4a0.png

 

Déjà on voit bien que l'écart-type est bien de 0.1 cm, ce qui est conforme à l'estimation théorique de la précision de la moyenne. Et on voit accessoirement que l'estimation est effectivement meilleure qu'un simple 176 cm où l'on s'interdirait de rajouter le chiffre des décimales.

On a bel et bien une précision finale meilleure que la résolution de chaque mesure indépendante !

 

Bien sûr, tout ça c'est théorique, pour savoir à quel point ça s'applique à la moyenne mensuelle de l'ITN, il faudrait avoir une connaissance fine du comportement des erreurs de chaque station, ou au moins en avoir un modèle réaliste. C'est un vaste sujet.

 

 

 

Il y a 8 heures, Gabriel_D178 a dit :

Très bien, je vois mieux ton idée et effectivement je suis d'accord avec ton paragraphe.


Déjà, avec ce que tu expliques on voit bien que dans un climat stable, les moyennes sur 30 ans n'auraient pas lieu d'être et on utiliserait toutes les années depuis le début de mesure pour avoir une meilleure approximation des propriétés de cette distribution. 

 

Mais on doit faire avec un climat qui n'est pas stable et un tirage réalisé dans les années 60 n'a pas les mêmes propriétés qu'un tirage dans les années 2000. Ainsi les propriétés de la distribution, dont la moyenne climatique, dépendent du temps.
Selon l'OMM, les normales servent, entre autres, à s'y "référer largement, implicitement ou explicitement, pour déterminer les conditions auxquelles on peut le plus vraisemblablement s'attendre en un lieu donné."  Dans ce cas, si on attend d'avoir 60 années pour faire un calcul de normal, la distribution que l'on va décrire sera partiellement incohérente avec le climat actuel. Cela donnera une illusion par exemple que les -12°C sont possibles à Montsouris alors que c'est de l'ordre du quasi impossible sur un climat centré sur 2024. 

 

Selon moi, il n'y a pas de moyenne climatique (inconnue) comme une constante absolue, celle ci est dépendante du temps est varie légèrement chaque année. Calculer une normale sur 30 ans, c'est essayer de faire une photo de cette moyenne climatique mouvante à un moment donné. Mais le problème, c'est que la quête d'essayer d'avoir plus de tirages pour réduire l'incertitude est une quête sans fin, puisque pour réaliser un nouveau tirage il faut attendre 1 an, mais entre temps, les propriétés de la distribution auront déjà un peu changé. Au final, je sais même pas si on peut parler de "tirage" au sens mathématique, puisque chaque tirage provient d'une distribution légèrement différente. 

 

Au final, on voit donc que la moyenne climatique est quelque chose de très insaisissable. Elle change tout le temps. Le rôle des normales reste d'en donner une idée globale, mais pas forcément de l'estimer au sens mathématique du terme. Donc je ne sais pas si parler de marge d'erreur sur quelques chose d'aussi difficile à cerner est le mieux. 

J'ai envie de dire qu'il faut accepter la normale comme elle est, c'est un calcul avec une définition précise pour donner une idée générale du temps que l'on peut vraisemblablement attendre.

 

 

Tu as bien saisi l'idée. Et notamment la caractère insaisissable et changeant, qui oblige à approximer.

En revanche je reste convaincu de l'utilité d'estimer de combien on arrive à approcher la vraie valeur, d'autant que les outils mathématiques nous le permettent. Ça permet notamment de guider l'interprétation que l'on fait de ces normales.

Par exemple, on a pu lire parfois sur la comparaison des normales 81-10 avec 91-20 des interprétation très littérales comme "juin se réchauffe plus que mai" parce que le delta était de 0.5°C pour l'un et 0.3°C pour l'autre. Alors que vu la variabilité naturelle, de tels écarts sont juste un résultat du hasard des événements sur les périodes utilisées, et nullement une traduction du climat réel ou de son évolution.

 

Modifié par Arkus
  • J'aime 1
  • J'adore 3
  • Merci 2
Lien à poster
Partager sur d’autres sites

Posté(e)
Tulle (19) et parfois Gradignan (33)
Le 06/07/2024 à 15:56, alsavosges a dit :

Capture d’écran 2024-07-06 155534.png

Je pense qu'il s'est trompé et qu'il voulait plutôt dire "début de printemps" 😄.

En tout cas, on voit bien que février et mars ont fait exploser le compteur... Dommage car depuis avril c'est équilibré.

  • J'aime 2
Lien à poster
Partager sur d’autres sites

Déjà merci beaucoup pour ta démonstration mathématique plus que détaillée et vraiment utile pour tout le monde. Il fallait que je trouve un moment assez long pour me plonger dans tout ça et te répondre.
Sur le côté mathématique pure et tes explications, je n'ai rien à dire, je suis bien d'accord avec ce que tu annonces.
D'ailleurs ta démonstration sur le fait que la une précision finale de la moyenne peut bien être meilleure que la résolution de chaque mesure indépendante est très importante et à garder en tête.

 

Le 04/07/2024 à 22:26, Arkus a dit :

Et si on fait la moyenne des mesures :

((h_1 + e_1) + ... + (h_i + e_i) + ... (h_n + e_n)) / n = (Somme de 1 à n (h_i)) / n + (Somme de 1 à n (e_i)) / n

 

Autrement dit la moyenne des mesures est la somme de la moyenne des hauteurs (vraies) et de la moyenne des erreurs.

Or la moyenne des hauteurs vraies est une constante, une valeur unique et bien définie qui ne dépend pas de l'expérience, ni des mesures. Notons-la H.

A partir de là, on voit bien que tout ce que l'on a dit plus haut sur l'incertitude et la variance reste valable :

 

Variance (Moyenne des mesures) = Variance (H + (Somme des erreurs) / n)

Variance (Moyenne des mesures) = Variance (Somme des erreurs) / n²

Et donc :

Écart-type (Moyenne des mesures) = sigma / racine (n)

 

Les valeurs que l'on cherchait à mesurer disparaissent complètement de l'estimation de l'incertitude, et à condition que nos erreurs de mesures soient indépendantes, plus le nombre d'élève augmente, plus la mesure de la moyenne de leurs tailles est précise, et ce d'un facteur racine (n).

 

Malheureusement, je continue à me poser des questions sur des aspects plus théoriques de ton analyse.
Ci-dessus, tu parles de la moyenne des élèves comme étant une valeur unique bien définie qui ne dépend pas de l'expérience. Je suis d'accord avec toi dans le cas où l'on fait une étude sur un échantillon, mais dans notre cas on réalise une étude exhaustive. On connaît toute la population de la classe, et donc je me demande si c'est toujours correct de parler de variables aléatoires et de relier l'écart type à une notion d'incertitude. 
Ainsi, quand tu dis que plus "le nombre d'élève augmente", j'ai du mal à te suivre, puisque c'est une donnée de base le nombre d'éléve dans la classe. Ils ne sont pas plus pas moins. La moyenne de la classe dépend réellement de qui constitue la classe, ce n'est pas une constante absolue. S'ils sont finalement un de moins dans la classe, la moyenne devient réellement différente. 

 

Pour moi l'ITM et les normales se comportent de la même manière. 
Pour l'ITM, on a 30 stations et mais elles ne représentes pas un échantillon du climat précis France car la France n'a pas un climat homogène. C'est pour cela que l'article sur les séries de données homogénéisées parle bien de zone climatiquement homogène pour que la méthode soit applicable. Donc une nouvelle fois, on aurait un ITM avec 29 stations (en enlevant Bourg-Saint-Maurice pour bien accentuer le changement), la nouvelle moyenne serait réellement différente.

Pour les normales, comme on le sait, elles ne représentent pas vraiment un échantillon non plus parce que chaque tirage est issu d'une distribution légèrement différente. On a défini les normales comme la moyenne de 30 moyennes annuelles, donc là aussi pour moi on se retrouve à nouveau dans le cas d'une étude exhaustive. Si les normales se faisaient sur 29 ans de données, la nouvelle moyenne serait réellement différente.

 

Le 04/07/2024 à 22:26, Arkus a dit :

Tu as bien saisi l'idée. Et notamment la caractère insaisissable et changeant, qui oblige à approximer.

En revanche je reste convaincu de l'utilité d'estimer de combien on arrive à approcher la vraie valeur, d'autant que les outils mathématiques nous le permettent. Ça permet notamment de guider l'interprétation que l'on fait de ces normales.

Par exemple, on a pu lire parfois sur la comparaison des normales 81-10 avec 91-20 des interprétation très littérales comme "juin se réchauffe plus que mai" parce que le delta était de 0.5°C pour l'un et 0.3°C pour l'autre. Alors que vu la variabilité naturelle, de tels écarts sont juste un résultat du hasard des événements sur les périodes utilisées, et nullement une traduction du climat réel ou de son évolution.

 

 

Pour en revenir sur les normales, je suis te soutiens sur le fait d'arriver avec des outils mathématiques d'estimer de combien on se tromper sur la vraie valeur. Mais je crois aussi que les normales sont seulement là pour donner une idée générale de cette vraie valeur mais ne peuvent pas être directement comparées à elle. C'est pour cela qu'il faut rester très prudent dans leur interprétation avec cette vraie valeur climatique. 
Tu le soulignes d'ailleurs très bien avec l'exemple des mois qui se réchauffent plus vite que d'autre. De ce côté là, je suis bien d'accord qu'une preuve physique aurait bien plus de poids que ces arguments statistiques très douteux. 

Lien à poster
Partager sur d’autres sites

Contre toute apparence, le mois de juin 2024 a été lui aussi un très bon indicateur du réchauffement climatique ...

 

A Grenoble Saint-Geoirs, juin 2024 a été le mois de juin le moins ensoleillé des années 2000 seulement 202h d'insolation, déficit de 56h par rapport aux normales

Et bien, malgré cela, la tm de juin 2024 a été supérieure à celle de 7 mois de juin des années 1980 ! (et tous les mois de juin des années 1970,  excepté 1976)

Seuls juin 1982, juin 1983 et juin 1986 avaient connu des tm très légèrement supérieures à juin 2024 (mais de l'ordre de 0,1 à 0,3° seulement)

Par ailleurs, malgré le défilé de perturbations océaniques, les stations de la cuvette grenobloise n'ont enregistré que 3 tx < 20° ... ( toutes les 3 de peu, entre 19° et 20°)

 

Ceux qui remettent en cause le RC (j'en ai entendu pas mal ces derniers temps, en dehors de ce forum) feraient bien de méditer tout ça ...

 

Modifié par Dionysos
  • J'aime 2
  • Merci 2
Lien à poster
Partager sur d’autres sites

Le 09/07/2024 à 08:42, Serge L a dit :

Gardons la tête froide mais :

 

 

Ceci dit, il me semble que ce n'est pas la semaine de juillet la plus "fraîche" de ces dernières années

A Grenoble CEA, la semaine du 12 au 18 juillet 2021 avait connu une txm de 22,7°, avec notamment  2 tx journalières consécutives  inférieures à 20°, ce qui est devenu exceptionnel en juillet

A titre de comparaison, dans la même station, la txm de la 1ère semaine de juillet 2024 est de 25,9°, avec une txn de 23,9°

 

Modifié par Dionysos
Lien à poster
Partager sur d’autres sites

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
  • En ligne récemment   0 membre est en ligne

    • Aucun utilisateur enregistré regarde cette page.
×
×
  • Créer...