Théorie des compensations...

Tornado75 · 24 novembre 2011

Si on devait compenser toutes ces saletés de périodes de chaleur, on retournerait à l'age de glace, voila ma réponse à ce topic.

TreizeVents · 24 novembre 2011

Comme promis, suite de l'étude, cette fois en prenant un troisième classement "N", et en optant pour une répartition proportionnelle : "C" représente les 34% de mois les plus chauds, "F" les 34% les plus froids, et "N" les 32% restants (mon nombre d'échantillon n'était pas multiple de 3).

Cela signifie donc que, dans une répartition totalement hasardeuse, chaque mois "C" devrait être suivi d'environ un tiers de mois "C", un tiers de mois "N", un tiers de mois "F). Résultat des courses, pour chaque séquences (Fx, Nx, Fx) :

Il y a 12 barres à chaque fois, pour chaque série de mois (la première barre donne la répartition des séquences Janvier-Février, la seconde celle des séquences Février-Mars, etc, jusqu'à Décembre-Janvier. Les lignes rouges représentent les moyennes de répartition.

Cela saute aux yeux : les mois "C" sont suivis presque deux fois plus souvent d'un second mois "C" que d'un mois "F", et à l'inverse les mois "F" sont suivis presque deux fois plus souvent d'un autre mois "F" que d'un mois "C". Par contre, aucune répartition particulière sur les N, qu'il soient en première ou en seconde place, on n'est jamais loin des 33%.

On remarquera de manière plus percutante sur ces courbes la remarque de DJ en début de topic : c'est souvent vers l'automne que l'on a des changements de régime, et que la corrélation est la moins marquée. Alors qu'à l'inverse, elle est particulièrement solide en fin de premier semestre.

Pour information, j'ai réalisé la même chose avec les données détrendées : même si la corrélation est un peu moindre, elle est toujours présente, avec environ 37/38% de "CC" et "FF" contre seulement 27/28% de "CF" et "FC". La répartition sur les mois qui suivent des mois "N" reste proche du 33/33/33.

Cotissois 31 · 24 novembre 2011

Merci beaucoup 13 pour ce travail (je t'en ai demandé beaucoup mais je suppose que tu aimes çà /emoticons/biggrin@2x.png 2x" width="20" height="20"> )

Cette répartition dans l'année est intéressante.

Tu sais çà donne quoi au niveau des saisons ?

La probabilité d'avoir 2 saisons FF ou CC c'est là l'élément important je pense...

ps: attention à la définition des extrêmes : ici c'est juste du significativement chaud ou froid mais ça reste banal, car un extrême a une probabilité plus faible que le neutre, par définition d'une loi normale.

Il faudrait mieux utiliser les quantiles au-dessus de 4 je pense.(tu as choisi les terciles, donc 3)

TreizeVents · 24 novembre 2011

Au niveau des saisons, sur les données brutes :

La première barre représente les séquences Hiver - Printemps, la seconde les Printemps - Ete, et ainsi de suite.

Je me suis économisé le tableau pour les séries de saison commençant par "N", car on est sur une répartition banale (33/32/35).

Les graphiques sont suffisamment parlants pour que je m'économise également d'une conclusion...

Juste pour information, en travaillant sur des données détrendées, la corrélation est encore un petit peu améliorée, avec du >50% de "CC" et de "FF" pour <15% de "CF" et de "FC".

Par contre pour te répondre sur les extrêmes, cela s'éloignerait de ce que je cherche à montrer. Je ne m'intéresse pas forcément aux extrêmes, seulement à une certaine persistance des types d'anomalies : mon but c'est de montrer qu'un mois à +0.8° a plus de chances d'être suivi par un autre mois excédentaire, sans forcément se limiter aux mois avec anomalies à +/- 2° ou plus.

Cotissois 31 · 24 novembre 2011

Waow tu es rapide /emoticons/smile@2x.png 2x" width="20" height="20">

En tous cas, on est loin de l'aléatoire puisqu'il y a clairement des cycles saisonniers, ce genre de statistiques peut être une référence pour la prévision saisonnière. La méthode de la "persistance" a de beaux jour devant elle.

ps: tu peux essayer avec les extrêmes ? (par MP éventuellement)

Je comprends que ça ne t'intéresse pas forcément, mais en tenant compte des équilibres physiques, c'est là qu'il y a le plus de chances de trouver de la compensation.

TreizeVents · 24 novembre 2011

Pour te faire plaisir, voici avec les quantiles :

Par contre je n'ai pas regardé si la corrélation était toujours aussi bonne avec les données détrendées - à mon avis elle doit être un peu moindre mais toujours présente.

EDIT : en premier jet sur les détrendées, on a des pourcentages un peu moindres sur les "CC" et "FF", mais c'est au profit des "CN+" et des "FN-". Les autres répartitions (CN-, CF, FC et FN+) sont globalement inchangées.

Cotissois 31 · 24 novembre 2011

Et par saison ? :blushing:

On vérifie que les nouvelles séquences CC/FF sont moins fréquentes. Donc le schéma de récurrence et la méthode de la persistance marchent très bien à condition que l'événement ne soit pas trop extrême.

Mais je note sur le graphique d'avant que les saisons ont plus de chances de continuer sur la même tendance, surtout printemps-été ou été-automne chaud, sous-entendant des schémas de récurrence à l'échelle de plusieurs saisons.

Est-ce que la persistance sur plusieurs saisons résiste aussi en cas d'extrêmes ?

ChristianP · 25 novembre 2011

Il faudrait creuser franchement la question alors parce que ce n'est pas ce que semble dire a priori la matrice des corrélations (données NCAP NCAR 40° à 50° et -5° à 5°). Je ne me suis pas non plus livré à une analyse très poussé, mais cela pourrait être intéressant de creuser la question pour le coup.

Tu peux récupérer les données sur la France de GISS dans l'explorateur de données du KNMI ( http://climexp.knmi....s_temp_land_250 ), c'est pas mal comparé au panel MF de 30 stations (c'est peut-être même plus juste s'il n'y a pas de pondération géo pour le calcul de l'anomalie du panel MF de 30 stations. Si quelqu'un le sait, merci . )

ChristianP · 25 novembre 2011

En tous cas, on est loin de l'aléatoire

Sans IC des pourcentages, ou sans les valeurs chiffrées dans les barres pour le vérifier rapidement, je ne suis pas du tout convaincu qu'il y ait beaucoup de saisons qui donnent des résultats significativement différents. Les pourcentages, sont souvent très trompeurs avec peu d'échantillons, car 34% de cas chauds d'une saison par exemple, ça ne fait que 20 cas/59 qui vont ensuite se diluer encore dans les différentes catégories CC, CF, CN (vu que ces 20 cas chauds ne peuvent pas tous être suivis en même temps par un C, un F et un N), donc il ne reste que des miettes pour faire parler ces pourcentages.A vue d'oeil il y a probablement un problème d'échantillonnage trop faible avec des IC importants.

Avec le test binomial exact dans R par ex, 13 cas sur 20 cas chauds qui représentent une barre à environ 65 %, ça donne un IC :

binom.test(13, 20, p=1/3)

Exact binomial test

data: 13 and 20

number of successes = 13, number of trials = 20, p-value = 0.004025

alternative hypothesis: true probability of success is not equal to 0.3333333

95 percent confidence interval:

0.4078115 0.8460908

sample estimates:

probability of success

0.65

Edit : J'ai corrigé l'exemple et le test, les précédents étaient faux.

TreizeVents · 25 novembre 2011

Je ne m'y connais pas vraiment dans le calcul des indices de confiances et des marges d'erreurs, cela étant si je comprends bien ton calcul Christian, le "probability of success" que tu as calculé correspond à la survenue d'un pourcentage sur une seule série, et on est tout à fait d'accord sur le fait que le pourcentage d'une seule série ne veut pas dire grand chose.

Cela étant, et tu vas me dire si je me trompe :

- A chaque série, la probabilité que le nombre de "CC" soit supérieur à celui de "CF", et que celui de "FF" le soit à celui de "FC", est tout simplement de 0,5 (une chance sur deux dans un hasard parfait). Or, on a 11 séries de "CC" > "CF" et 10 séries de "FF" > "FC", soit 21 occurrences sur 24 cas. Quel est le probability of success d'obtenir un tel résultat ? A l'inverse, quelles étaient les chances de n'avoir que 3 cas de "CF" ou "FC" sur 24 séries ? Si on considère en plus les saisons, cela fait 29 "CC"/"FF" sur 32 séries, la aussi quel est le probability of success ?

- A chaque série, la probabilité que le nombre de "CC" soit supérieur à celui de "CF/CN", et que celui de "FF" le soit à celui de "FC/FN", est de 0.33 (une chance sur trois). Or, sur 32 séries, 16 fois les "CC" ou "FF" sont majoritaires. A l'inverse, les "FC" et "CF" ne sont sortis en tête que 3 fois sur 32. Quel sont les probability of success d'avoir un tel "tirage" ?

ChristianP · 26 novembre 2011

Mon exemple seul est quand même parlant pour ce que tu cherches, car il donne une valeur significativement différente de 33%, donc ce n'est probablement pas aléatoire.

Je voulais surtout montrer que la largeur de l'IC autour de la valeur de tes barres est importante et donc que lorsqu'on compare les pourcentages avec leur IC , il n'y a pas toujours une différence significative entre les différentes barres (on ne peut justement pas dire que les valeurs sont supérieures ou inférieures quand les IC se croisent) et donc on ne peut pas exclure que cette répartition soit aléatorie dans certaines saisons .

Là dans mon exemple, c'est clair que si tu compares l'IC autour des 65% de printemps-été CC aux 5% de printemps-été CF, c'est significatif, ce n'est très probablement pas aléatoire, il n'y a pas d'intersection des IC.

A comparer avec l'IC du précédent message :

Exact binomial test

data: 1 and 20

number of successes = 1, number of trials = 20, p-value = 0.007033

alternative hypothesis: true probability of success is not equal to 0.3333333

95 percent confidence interval:

0.001265089 0.248732763

sample estimates:

probability of success

0.05

Je vais prendre maintenant l'exemple inverse, avec de la dernière barre saisonnière, donc si j'ai bien compris, celle du couple automne-hiver qui intéresse le plus, les passionnés de froid.

CC :

Exact binomial test

data: 8 and 20

number of successes = 8, number of trials = 20, p-value = 0.6357

alternative hypothesis: true probability of success is not equal to 0.3333333

95 percent confidence interval:

0.1911901 0.6394574

sample estimates:

probability of success

0.4

Donc là seul ce n'est pas significatif (la valeur n'est pas significativement différente de 0.33), mais quand je compare les IC de cette plus grande barre saisonnière en CC, aux deux autres plus petites barres FC et CN (ou CF, car il y a 2 fois le titre CN ),

FC :

Exact binomial test

data: 5 and 20

number of successes = 5, number of trials = 20, p-value = 0.4878

alternative hypothesis: true probability of success is not equal to 0.3333333

95 percent confidence interval:

0.08657147 0.49104587

sample estimates:

probability of success

0.25

CN :

Exact binomial test

data: 5 and 19

number of successes = 5, number of trials = 19, p-value = 0.6312

alternative hypothesis: true probability of success is not equal to 0.3333333

95 percent confidence interval:

0.09146578 0.51202935

sample estimates:

probability of success

0.2631579

Dans ce cas on voit qu'il y a intersection des 3 IC à 95%, ça signifie qu'il n'y a pas de différences significatives entre les deux plus petites barres et la plus grande barre pour ce cas (ça signifie donc aussi que les autres barres un peu moins courtes ne sont pas significativement différentes pour le couple automne-hiver), c'est donc encore largement compatible avec une distribution aléatoire, Donc on ne peut pas à partir de ce nombre d'échantillons dire que l'automne chaud ou froid ou neutre avant un hiver, indique autre chose que ce qu'on obtiendra par hasard du moins avec ces échantillons. A voir si c'est encore le cas avec les données à pour la France de GISS à partir de 1880, l'IC sera plus petit, mais ça ne nous dit pas si les pourcentages seront les mêmes. Si tu n'as pas le temps de le faire, quand j'aurai du temps je regarderai, mais bon je sens que Paix nous aura sortir un bon truc d'ici là.

C'est certain que si tu supprimes la classe N, ça change, vu que le nb d'échantillons dans 2 classes augmentent, mais dans ce cas on ne peut plus parler vraiment de chaud et de froid, mais de > ou < à la moyenne, ce qui n'est même pas correct, car la moyenne des anomalies a elle-même un IC non négligeable différent de +-0.1° (je parle de l'IC de l'estimation statistique de la moyenne de la T, hors erreurs de mesures), il vaut mieux garder une classe N (on pourrait la calculer au plus juste, mais je n'ai pas le temps)

Cotissois 31 · 26 novembre 2011

Sans IC des pourcentages, ou sans les valeurs chiffrées dans les barres pour le vérifier rapidement, je ne suis pas du tout convaincu qu'il y ait beaucoup de saisons qui donnent des résultats significativement différents. Les pourcentages, sont souvent très trompeurs avec peu d'échantillons, car 34% de cas chauds d'une saison par exemple, ça ne fait que 20 cas/59 qui vont ensuite se diluer encore dans les différentes catégories CC, CF, CN (vu que ces 20 cas chauds ne peuvent pas tous être suivis en même temps par un C, un F et un N), donc il ne reste que des miettes pour faire parler ces pourcentages.

Ok mais on ne peut pas toujours attendre la loi des grands nombres pour suspecter des choses. On ne peut pas attendre le prochain siècle pour tenter de comprendre la prévision saisonnière.

Ici, le fait que les probabilités montrent des cycles (il n'y a pas que du bruit) donne confiance sur la réalité de telles tendances.

De toute façon, ces probabilités, dites climatologiques, ont une durée de vie égale à la stabilité climatique.

Plus le climat évolue, plus tout sera à revoir. Donc il faudra assez vite se débarrasser de ces probabilités climatologiques et développer des modèles capables de leur propre tendances.

Mais pour valider les modèles, on a besoin de connaître le présent. Donc l'intérêt de cerner les cycles actuels est réel, dans l'intérêt de la modélisation du futur !

Il est sûr que la science climatique aujourd'hui est "pressée", et qu'on n'hésite pas à afficher des statistiques dès qu'elles suggèrent quelque chose, bien avant qu'elles prouvent quelque chose. Mais il faut tenter et intuiter si on veut des résultats rapidement.

ps : alors les saisons avec 4 classes (F,N-,N+,C) c'est toujours la récurrence qui domine ?

26 novembre 2011

Je n'ai toujours pas regarder plus en détail, mais je suis d'accord avec ChristianP. Je ne suis franchement pas convaincu. D'une part, je n'ai pas fait attention de savoir d'où sortent les données de TreizeVents, mais il y a la question de savoir si elles sont pondérées de manière à créer une série homogène ou si c'est juste une bête moyenne. Il y a aussi la question des données NCEP NCAR. En théorie, les données de réanalyses ne sont pas comparables aux données de surface, mais en général il n'y a pas de différences notables. Hors ici, d'après TreizeVents, cela diverge pas mal. Connaissant le NCEP NCAR, je serais même plus tenté de mettre en cause les données de TreizeVents que du NCEP NCAR. On pourrait vérifier en comparant au GISS en effet, mais aussi par rapport au NCDC et au CRUTEM tant qu'à faire. De plus, cela permettrait d'allonger la série et de ne pas se limiter à une cinquantaine d'individus, ce qui est un échantillonnage beaucoup trop faible. Comme le rappelle ChristianP, sur une cinquantaine d'individus, des différences de 15-20% ne sont pas toujours significatifs. Il existe aussi d'autres outils également que le simple comptage de moutons, comme l'autocorrélation, les matrices de cross correlations ou encore la méthode de regroupements autour d'un nombre finis de points dont le nom exact m'échappe présentement, et autres délires matriciels du même genres. En confrontant les résultats aux résultats issus d'une autre méthodologie, le résultat sera d'autant plus pertinent.

TreizeVents · 26 novembre 2011

Christian,

Je ne conteste certainement pas le fait que chaque barre, prise individuellement, ne puisse être significative du fait du faible nombre d'échantillons sur lequel elle repose.

Mais là où je me permets d'insister, ce n'est pas sur le résultat individuel de chaque barre, mais leur résultat collectif. Tu as repris l'exemple du tirage représentant les séries automnes-hiver, pour montrer que le résultat de cette série étudiée de manière individuelle n'est guère significatif, et la dessus je suis parfaitement d'accord.

Mais au delà de la significativité individuelle de chaque "tirage", quelle est celle d'avoir eu, sur autant de tirages différents, quasiment à chaque fois le même résultat ?

Je remets l'exemple sur la table des cas où on a une inversion thermique (cas "CF" et "FC") : sur 32 "tirages" totalement indépendants, où à chaque tirage ils avaient (normalement) une chance sur trois d'être majoritaires, ils ne sont ressortis majoritaires que 3 fois, soit environ 9% des cas.

Est-ce, du fait que chaque tirage est trop petit pour être significatif individuellement, un tel résultat l'est nécessairement aussi ? Ce qui veut dire que même si je fait 1000 tirages, sur lesquels les "CF/FC" sortent moins de 100 fois, cela ne sera pas significatif ?

En théorie, les données de réanalyses ne sont pas comparables aux données de surface, mais en général il n'y a pas de différences notables. Hors ici, d'après TreizeVents, cela diverge pas mal. Connaissant le NCEP NCAR, je serais même plus tenté de mettre en cause les données de TreizeVents que du NCEP NCAR.

Les données que j'utilise sont les valeurs officielles d'indicateurs thermiques de Météo France, donc j'aurais quand même du mal à avaler que cela ne soit pas fiable

26 novembre 2011

Christian,
Je ne conteste certainement pas le fait que chaque barre, prise individuellement, ne puisse être significative du fait du faible nombre d'échantillons sur lequel elle repose.

Mais là où je me permets d'insister, ce n'est pas sur le résultat individuel de chaque barre, mais leur résultat collectif. Tu as repris l'exemple du tirage représentant les séries automnes-hiver, pour montrer que le résultat de cette série étudiée de manière individuelle n'est guère significatif, et la dessus je suis parfaitement d'accord.

Mais au delà de la significativité individuelle de chaque "tirage", quelle est celle d'avoir eu, sur autant de tirages différents, quasiment à chaque fois le même résultat ?

Je remets l'exemple sur la table des cas où on a une inversion thermique (cas "CF" et "FC") : sur 32 "tirages" totalement indépendants, où à chaque tirage ils avaient (normalement) une chance sur trois d'être majoritaires, ils ne sont ressortis majoritaires que 3 fois, soit environ 9% des cas.

Est-ce, du fait que chaque tirage est trop petit pour être significatif individuellement, un tel résultat l'est nécessairement aussi ? Ce qui veut dire que même si je fait 1000 tirages, sur lesquels les "CF/FC" sortent moins de 100 fois, cela ne sera pas significatif ?

La stationnarité et l'indépendance ne sont pas garantis d'une part. D'autre part, rien ne garantit que la réponse forcée soit linéaire. On peut aussi tester un lowess (données NCEP NCAR), ce qui est tout aussi gratuit :

On a une période froide entre ~ 50 et 85 et une période froide par après, ce qui fait qu'une simple linéarisation n'est pas suffisante. On a d'ailleurs le même problème avec l'AMO, et je doute de plus en plus que l'AMO soit correctement défini, voire même qu'elle "existe" an tant qu'oscillation.

Les données que j'utilise sont les valeurs officielles d'indicateurs thermiques de Météo France, donc j'aurais quand même du mal à avaler que cela ne soit pas fiable

Je pourrais dire la même chose du NCEP NCAR

. De toute façon, ce n'est pas forcément une question de fiabilité. D'où la question de savoir comment est construit la série, si il y a une pondération, quelle superficie couverte, la comparaison avec d'autres données,et toussa. Bon je sais je cause beaucoup et ne fais pas grand'chose, je n'ai vraiment pas le temps en ce moment, mais en tous cas si la divergence est vraiment importante il est préférable de voir d'où elle vient avant de parler de compensation.

lothski · 26 novembre 2011

Ce serait possible de nous faire voir des séries denuages de points (x; y)

1 nuage Hiv-> printemps avec x = anomalie pour hiver ,y =anomalie pour printemps

1 autre print -> été

etc...

ou mois par mois mais ça en fait un paquet là .

j'aime bien le Visuel

Il faut rajouter le point bien excentré de l'hiver 2011 de coord (169 ; 71 ) 71cm = nouveau record de faiblesse de cumul neige de janvier à mai,

battant 1963/1964 (13; 86) qui garde bien sûr le record absolu oct à mai avec ses 99 cm au total

ChristianP · 28 novembre 2011

Tu peux insister TreizeVents, car ce que je dis n'est pas toujours clair et juste.

Au préalable comme le dit Paix, pour répondre à la question, on devrait utiliser d'autres méthodes que le simple comptage de moutons (même avec mes IC et autres tests qui nécessitent l'indépendance des données et des conditions qui ne sont pas obligatoirement remplies ici).

En regardant l'auto-corrélation pour un couple donné, s'il y a une dépendance assez significative de l'anomalie d'une saison ou du mois précédent, sur les suivants, c'est certain qu'on le verra (en globalisant les différents couples en regardant l'auto-corrélation globale, on risque de diluer l'auto-corrélation globale avec certains couples qui ne produiraient pas d'auto-corrélation assez significative)

Je vais quand même répondre plus précisément à ta question sur le nb de l'ensemble de CC par rapport au nb de CF par exemple.

On ne peut pas faire ce raisonnement, car un couple CC ou autre, a déjà une probabilité propre d'exister, on ne peut pas résumer ce cas à une probabilité simple de 1/2 (nb de CC > à Nb de CF), il faudrait combiner les proba.

Je vais globaliser les CC et CF pour l'exemple, mais je ne trouve pas ça juste physiquement, vu qu'un été donné par ex, n'a pas d'influence sur l'hiver et surtout sur le printemps suivant et qu'il est bien juste et plus important d'utiliser uniquement les CC ou autres, significatifs.

L'influence significative du printemps sur l'été a été signalée par MF (est-ce qu'un printemps sec est significativement souvent plus chaud qu'un printemps humide ?), mais mettre cette influence significative du printemps dans un paquet global de CC ou autres, avec un automne qui n'a pas d'influence significative sur l'hiver, ça n'a pas de sens pour moi.

Donc si on effectue les moyennes globales de toutes les barres CC et de toutes les CF (je parle pour les 4 barres saisonnières) comme tu l'as fait avec le trait rouge pour les mois, l'IC pour l'ensemble des CC est de [31.5%; 77%] pour 55% observés, on est proche de la significativité des CC, mais pas encore. C'est donc considéré comme équivalent à 33%, pour l'ensemble des CC c'est encore probablement aléatoire au seuil de 95% (du moins avec l'échantillonnage donné et si les conditions d'utilisation du comptage de moutons, étaient respectées. Le problème des stats est surtout là, de choisir les bonnes méthodes adaptées aux conditions du cas). Pour l'ensemble des CF, c'est pareil, c'est encore plus loin, l'IC global recouvre assez largement celui de l'ensemble des CC.

Ce résultat NS global pour l'ensemble des CC et des CF, çne veut pas dire que le printemps n'a pas d'influence significative sur l'été, pas plus qu'on aurait pu dire si le résultat global avait été significatif , que l'hiver dépend de l'automne précédent, c'est pour cette raison que je ne vois pas l'intérêt de globaliser pour la prévis saisonnière.

En réalité des barres qui sont visiblement toutes supérieures ou toutes inférieures, ne signifient pas du tout qu'elles sont toutes réellement représentatives des règles ou "non règles" sous-jacentes qu'on cherche à mettre en évidence (c'est comme une tendance NS avec un nb de données insuffisantes, ça ne nous dit rien sur la tendance de fond sans élargir ou sans traiter le bruit. Là c'est pareil, il ne faut pas tenir compte de ce qu'on voit, sauf si tu avais poursuivi le raisonnement juste de ne pas afficher les barres/graphes non significatifs des cas avec N qui te semblent assez proches de 1/3 (sans calculs, tu as considéré que d'autres ne sont plus assez proches de 33%, ce qui n'est pas exact) pour n'afficher que les barres/pourcentages réellement significatifs et représentatifs d'une règle sous-jacente (du moins avec notre méthode du comptage de moutons avec des IC)

Cotissois, il n'y a pas besoin de disposer de quantités industrielles de données pour que les résultats soient significatifs, comme tu as pu le constater pour le couple printemps-été (La question que ça implique serait, pourquoi est-ce que ce n'est pas significatif pour d'autres couples ( pour moi ça vient du fait que le rayonnement solaire et l'humidité du sol ont bien plus d'importance sur ce couple que sur les autres))

Certaines méthodes ont des besoins de données plus importants que d'autres, mais il y a quand même un minimum à respecter pour que les résultats soient crédibles. Si tu traites le bruit, il en faudra moins qu'avec une même méthode sans le traiter. Là on a la chance de disposer de plus de données sur la France (MF a un panel depuis 1900 et si on ne peut pas récupérer ces données, on a celles pour la maille de la France depuis 1880 qui collent bien), tout sera plus clair, quand on trouvera le temps de s'y mettre.

On ne peut quand même pas nier les possibilités normales du bruit aléatoire ou non, au prétexte qu'on n'utilise pas une série assez longue, au prétexte qu'on ne trait pas le bruit ou parce-qu'on n'utilise pas la bonne méthode statistique, ou parce-qu'on n'utilise pas la physique pour résoudre ce problème avec des séries bien plus courte.

Si tu arrives à voir un cycle non aléatoire là sans aucun calcul, tu vas nous rendre complètement fou Tamino :-)

noctiluque · 28 novembre 2011

Bonjour,

Je n'ai malheureusement pas de temps pour lancer une analyse qui viendrait infirmer ou confirmer le travail très intéressant de 13.

Par contre, le débat sur l'IC (Intervalle de Confiance pour ceux qui penseraient qu'on parle d'InfoClimat !) qui a lieu actuellement sur ses données doit selon moi arriver à trancher le débat.

Je fais référence à un sujet que j'avais posté il y a deux ans, que je remet en lien ci-dessous, et qui parle de l'influence de /topic/47297-cycle-lunaire-et-journee-chaude/'>la lune sur les températures au sol.

C'est bien l'étude de l'IC qui a permis à ce sujet de trouver une conclusion scientifique digne de ce nom, et pourtant, quand on regarde les courbes, il y avait de quoi être fort troublé au démarrage.

En tout cas, merci à toi pour avoir initié ce débat dont j'ai l'intuition qu'il va générer beaucoup de pages tant le sujet est passionnant.

ChristianP · 30 novembre 2011

Bon j'ai commencé à débroussailler un peu le problème.

J'ai récupéré les données GISS pour la zone des terres de la France de 01/1880 à 10/2011

J'ai normalisé les données sur la moyenne de l'ensemble et j'ai retiré la tendance au réchauffement avec un loess/60 ans pour englober les principales oscillations connues (virtuelles ou non).

L'auto-corrélation au pas mensuel :

L'influence de l'anomalie d'un mois sur l'autre est donc négligeable avec une autoco faiblement significative au lag 1 (2.9% de la variance expliquée, il vaut mieux se casser la tête à rechercher les 97.1% restants et à regarder mois par mois)

L'autoco au lag 1 est quasi identique à celle que trouve Paix avec d'autres données (un peu plus élevée chez Paix, car à priori j'ai un peu plus détrendé les données)

J'ai réalisé le même travail initial pour les saisons (normalisation et détrend avec loess), je passe directement à l'autoco (prolonger horizontalement et mentalement l'IC rouge, le tracé auto a bogué):

Elle n'est pas du tout significative au lag 1, donc aucune influence globale visible de l'anomalie saisonnière précédente sur l'autre.

Même manip au cas par cas sans le graphe d'autoco qui n'aurait pas de sens là (vu qu'après l'été on se retrouverait à chercher une autoco 6 mois plus tard avec le printemps suivant) et je n'ai pas encore tout regardé faute de temps, je verrai plus tard pour le reste.

J'ai donc repris un couple saisonnier qui était significatif chez TreizeVents, le printemps-été :

Rien de significatif.

Dans les données chiffrées:

Print - été	Nb	1/9	1/3CC	15	11,4%	34,1%CN	12	9,1%	27,3%CF	13	9,8%	29,5%NC	15	11,4%	34,1%NF	22	16,7%	50,0%NN	14	10,6%	31,8%FC	12	9,1%	27,3%FN	15	11,4%	34,1%FF	14	10,6%	31,8%IC 95%	[8; 22]	[6,1%; 16,7%]	[18,2%; 50,0%]

C'est le couple NF qui est à la limite de la significativité (IC déterminés avec une simulation de 10000 échantillons de 132 tirages pour 9 couples)1/9, correspond à la probabilité d'observer un des couples donnés, je l'ai aussi exprimé par rapport à 1/3 pour comparer avec les pourcentages de Treizevents, c'est la probabilité qu'une classe donnée soit suivie d'une même classe ou des 2 autres.

Idem pour un couple mensuel significatif chez 13V, avec mai-juin :

Les données :

Mai-juin	Nb	1/9	1/3CC	19	14,4%	43,2%CN	16	12,1%	36,4%CF	15	11,4%	34,1%NC	10	7,6%	22,7%NF	14	10,6%	31,8%NN	13	9,8%	29,5%FC	14	10,6%	31,8%FN	15	11,4%	34,1%FF	16	12,1%	36,4%IC 95%	[8; 22]	[6,1%; 16,7%]	[18,2%; 50,0%]

Je pense que des différences dans la significativité du comptage de moutons, viennent probablement du traitement différent des données ( bien entendu sur la façon de détrender, mais peut-être aussi sur la façon de déterminer les 33% de valeurs C, N et F)

Je les classe par rapport à la probabilité théorique de récolter 1/3 de valeurs pour une loi normale avec la moyenne et l'écart-type donnés par les obs pour la période concernée (Dans Excel, avec "loi.normale inverse". C'est à dire que je détermine à partir de quel seuil d'anomalie "détrendée", on est sensé observer 1/3 de valeurs C, 1/3 de valeurs F et donc 1/3 de valeurs N, ceci pour éviter les biais provoqués par les déséquilibres des obs en nombre insuffisant, que l'on cherche à tester face à la proba réelle de 1/3 dans une distribution théorique complète. Si on détermine le seuil à partir des centiles, les 33% de mois les +C et les +F observés, les seuils donnés par un échantillonnage insuffisant font que les obs ne donnent pas des seuils correspondants à la véritable proba de 1/3 pour ce paramètre et donc les obs seront mal classées par rapport à la proba réelle)

lothski · 30 novembre 2011

Super ! à défaut de maitriser les autocorrélations etc... les nuages sur données normalisées me semblent quand même bien parlants.

Si une corrélation était présente là dedans elle serait bien cachée !

30 novembre 2011

Oui, je suis plus convaincu par le travail de ChristianP que par celui de TreizeVents, sans vouloir vous vexer TreizeVents.

Juste pour confirmer la supossition de ChristianP :

L'autoco au lag 1 est quasi identique à celle que trouve Paix avec d'autres données (un peu plus élevée chez Paix, car à priori j'ai un peu plus détrendé les données)

En effet, j'ai fait cela à la machette si je puis dire, ce qui me semble l'hypothèse la plus logique pour cette petite différence.

Cotissois 31 · 30 novembre 2011

Christian:

Vous aurez raison à 110% sur l'utilisation propre des statistiques, mais on n'est pas d'accord sur la vision des choses. Les statistiques suggèrent des choses, et ne sont pas là pour prouver que quelque chose est vrai ou faux. C'est bizarre d'être persuadé à l'avance que les corrélations sont insignifiantes, alors que la physique nous suggère que ces corrélations existent. Je crois qu'il est plus constructif de chercher comment on pourrait capter proprement le signal de ces récurrences. Perso j'aimerais même chercher le signal des compensations en cas d'extrême, car il y a une raison physique à cette compensation.

ChristianP · 1 décembre 2011

Cotissois, je pense que tu sur-interprètes ce que je dis et que tu sors du contexte très limité, cette analyse de T à l'échelle très réduite de la France.

La question traitée par notre travail est très simple :

Est-ce que le sens de l'anomalie de T de l'air (mensuelle ou saisonnière) à l'échelle de la France, permet d'annoncer un peu mieux que le hasard, le sens de l'anomalie suivante ?

Donc non, au moins pour les quelques cas traités, l'analyse statistique basique de la T de l'air (seul paramètre) pour la France ne le permet pas (Sinon ça se saurait, tu te doutes bien que les scientifiques ont déjà étudié l'impact des anomalies de T mensuelles et saisonnières de la France sur les suivantes, de façon autrement moins simple que moi).

Ca ne veut pas du tout dire qu'on ne peut pas prévoir le sens de l'anomalie suivante sur la France, avec bien d'autres paramètres stats ou physiques sur d'autres échelles et/ou par l'étude de la dynamique des circulations.

Dans notre cas, tu vois bien qu'on ne raisonne pas du tout sur x paramètres nécessaires et sur une échelle spatio-temporelle suffisante !

(Sinon, je veux bien voir la publication qui suggère qu'avec la physique de ce seul paramètre de la T, à l'échelle de la France, on obtient des corrélations)

On ne risque pas ici de répondre à la question : Comment se fait-il qu'à un moment donné une situation s'éternise, alors qu'à d'autres elle change rapidement ? Tu ne vas pas me dire qu'à partir de la seule analyse basique de la T de l'air à l'échelle de la France, quelqu'un de sérieux de nos jours peut imaginer résoudre ce problème ?!

La persistance se voit dans les données de T quand c'est une règle, pour une échelle spatio-temporelle donnée.

Pourquoi crois-tu qu'on s'amuse à prendre en compte l'auto-corrélation significative au niveau de l'anomalie de T mensuelle globale ? C'est bien parce-qu'on voit dans les données à cette échelle, la persistance de l'effet d'un Nino/Nina et d'autres bricoles.

Si on regardait les anomalies journalières d'une station, l'auto-corrélation sera très significative, si tu descends à l'heure, elle sera encore plus persistante dans les données horaires suivantes. Ce n'est qu'une question d'échelle spatio-temporelle si sur les mois, on a une persistance bien visible au niveau global et pas trop sur la France.

J'avais lu dans une étude que la persistance dans les données journalières pour un lieu donné, était significative sur 5 jours en général ( C'est d'ailleurs une des raisons pour lesquelles en plus du manque de données, les climatologues ont défini que la T moyenne d'un jour donné, doit se faire sur le centre d'une fenêtre de 5 jours, idem pour le record journalier ou pour classer un jour froid/chaud.), en fait ça dépend des secteurs, il existe des zones où la T change plus ou moins souvent qu'à d'autres. Donc ce n'est pas étonnant que ce soit bien plus facile de prévoir avec les stats, la T pour les 5 jours suivants (mais moins bien qu'avec les modèles météo), que pour les 5 mois suivants.

Il est évident que d'un point de vue physique, avec les déséquilibres dans l'atmosphère, les compensations spatio-temporelles sont la règle (par ex coulée froide à un endroit, remontée chaude ailleurs, au même instant ou un peu plus tard ailleurs), mais ça ne veut toujours pas dire que le sens de l'anomalie de T du mois précédent sur la France permet mieux de prévoir que le hasard, celle du mois suivant (par contre oui la T du jour précédent, permettra de prévoir assez souvent la T du lendemain et de quelques jours suivants, bien plus que le hasard, mais bien moins que tous les paramètres physiques pris en compte dans les modèles météo)

On aura beau connaître toute la physique du domaine à la perfection, il restera l'aléa dans du bruit bien expliqué physiquement. Une situation strictement identique physiquement, génèrera en certains points donnés, des différences aléatoires importantes.

Il est évident que le record de -17° du Luc en Fév 56, sera un jour compensé par par une anomalie chaude aussi monstrueuse, même sans réchauffement (le vieux record de Txx 42.7° est minable comparé au record de Tnn), mais il reste à savoir prévoir quand.

Tu ne vas quand même pas me dire que pour un même climat, il existe un lien physique direct entre ces 2 valeurs journalières extrêmes espacées de dizaines/centaines d'années ?

S'il n'y avait jamais de "compensation" d'un bruit météo+ par un bruit météo -, on serait très mal parti. Pour les prévis, l'important c'est de savoir où et quand a lieu une compensation qui est relative à un état moyen.

J'avais vu une conférence de Valérie Jacq (Climatologue MF Aix) sur les extrêmes dans le SE, il ne fallait pas lui parler de compensation (pour elle c'est une notion populaire à connotation religieuse du style :" s'il fait si beau, tel jour d'hiver, ça se paie un jour". Ce sont les aléa de la météo autour de la moyenne)

1 décembre 2011

Bonjour,
Je n'ai malheureusement pas de temps pour lancer une analyse qui viendrait infirmer ou confirmer le travail très intéressant de 13.

Par contre, le débat sur l'IC (Intervalle de Confiance pour ceux qui penseraient qu'on parle d'InfoClimat !) qui a lieu actuellement sur ses données doit selon moi arriver à trancher le débat.

Je fais référence à un sujet que j'avais posté il y a deux ans, que je remet en lien ci-dessous, et qui parle de l'influence de /topic/47297-cycle-lunaire-et-journee-chaude/'>la lune sur les températures au sol.

C'est bien l'étude de l'IC qui a permis à ce sujet de trouver une conclusion scientifique digne de ce nom, et pourtant, quand on regarde les courbes, il y avait de quoi être fort troublé au démarrage.

En tout cas, merci à toi pour avoir initié ce débat dont j'ai l'intuition qu'il va générer beaucoup de pages tant le sujet est passionnant.

Merci de la précision.

Tomar · 1 décembre 2011

...
Il est évident que le record de -17° du Luc en Fév 56, sera un jour compensé par par une anomalie chaude aussi monstrueuse, même sans réchauffement (le vieux record de Txx 42.7° est minable comparé au record de Tnn), mais il reste à savoir prévoir quand.

Tu ne vas quand même pas me dire que pour un même climat, il existe un lien physique direct entre ces 2 valeurs journalières extrêmes espacées de dizaines/centaines d'années ?

...

Hello

merci à tous pour ce fil très instructif.

J'interviens juste sur un point ici :

"le record de -17° du Luc en Fév 56, sera un jour compensé par par une anomalie chaude aussi monstrueuse, même sans réchauffement (le vieux record de Txx 42.7° est minable comparé au record de Tnn)", ce qui fait que je crois me rappeler, Christian, que tu t'étonnais il y a quelques temps (années ?) que des anomalies très négatives en hiver (Tnn ou Tm, mensuelles ou journalières) n'étaient pas bien compensées par des anomalies très positives l'été (en Txx ou en Tm)

En fait, ne peut-on pas expliquer cette différence par la physique de l'atmosphère ?

En hiver, pendant une vague de froid, on peut avoir des intrusions d'air considérablement plus froid que la moyenne, parfois 20 ou près de 25°C de moins que la moyenne au géopotentiel 850 hPa. La moyenne tourne autour de 0°C en hiver dans le Nord du pays, un peu plus au Sud. Lors des grosses vagues de froid, des masses d'air à moins de -20°C au géo 800 hPa peuvent rentrer largement dans le pays.

S'y rajoutent des effets d'inversion qui peuvent amplifier le froid près du sol.

En été au contraire, les masses d'air les plus chaudes atteignent très difficilement 25°C au géopotentiel 850 hPa (sauf localement dans le SO par effet de foehn), soit seulement 10 à 15 °C au dessus de la moyenne.

Et il n'y a pas vraiment d'effet d'amplification (un peu sur sol très sec, notamment par absence de formation nuageuse avec la convection au pic de chaleur diurne qui fait sauter la limitation de monter en T due à l'ennuagement).

D'où des extrêmes bien plus faibles par rapport aux moyennes lors des canicules, comparé aux extrema des vagues de froid sévères : les Txx > à 45°C ne sont pas atteintes, alors que les Tnn < -20°C sont relativement répandues sur le territoire.

Bonne soirée

Théorie des compensations...

Messages recommandés

Lien à poster

Partager sur d’autres sites

Les plus actifs

Journées actives

Les plus actifs

Journées actives

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Invité Guest

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Invité Guest

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Invité Guest

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Invité Guest

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Créer un compte ou se connecter pour commenter

Créer un compte

Se connecter

En ligne récemment 0 membre est en ligne