Aller au contenu

Ce tchat, hébergé sur une plateforme indépendante d'Infoclimat, est géré et modéré par une équipe autonome, sans lien avec l'Association.
Un compte séparé du site et du forum d'Infoclimat est nécessaire pour s'y connecter.

Pluviométrie mensuelle et saisonnière de 1999 à 2011 en France


acrid vintaquatre
 Partager

Messages recommandés

Invité Guest

Oui c'est clair, d'ailleurs j'avais vu Tamino en tenir compte quelque part dans un msg où il avait laminé Watts à ce sujet qui présentait de bien plus gros chevauchements. Il recalcule les N réellement dispo en tenant compte du chevauchement, ça élargit les IC et donc la significativité présente sans en tenir compte, disparaît plus souvent, ce qui est plus juste.

Oui, il est clair que cela reste de l'approximatif, si ce n'est de la grosse arrache default_happy.png/emoticons/happy@2x.png 2x" width="20" height="20"> C'est juste pour donner une idée.

Je ne comprends pourquoi tu as choisis un seuil de significativité à 90% au lieu de 95%, comme je le vois parfois dans quelques études, mais je ne sais pas dans quels cas il est conseillé de choisir 90% plutôt que 95%, vu que je ne suis jamais tombé sur un cours de stats (appliquées à la météo ou non) qui indiquait comment choisir objectivement ( tous sont à 95% ou parfois 99%, enfin j'ai vu chez Scaffeta nous sortir un IC à environ 68%, mais bon là on se doute bien pourquoi).

Quand tu auras un moment, pourrais tu nous expliquer comment choisir de façon objective et/ou mathématique entre 90%, 95%, 99% en météo/climato ? Merci ! default_thumbup.gif

Heu, on le tire au dé ? default_laugh.png Non sérieusement, je ne connais pas de réponse vraiment fondée. J'avais eu une conf' d'un gars qui avait fait voler Ariane dans le temps et participer au projet Hermès (la navette spatiale européenne), il disait que le seuil dépendait dans ce cas des applications. Je veux dire, on n'ira jamais faire voler une navette avec un risque de 10% default_whistling.gif Et donc là il faut essayer de ramener le seuil à 1%, ce qui coûte très (très, très, très) cher, d'où un "epic fail". Alors que pour Ariane on peut accepter un peu plus de pertes. Le 95% vient aussi du fait que c'est un peu près l'intervalle à deux sigmas d'une loi normale (95.45% exactement). Mais cela reste des chiffres ronds pour faire "joli". Rien n'empêche de prendre un seuil de racine ( 3000 * pi ) default_cat.gif (97.081% et des brouettes default_biggrin.png/emoticons/biggrin@2x.png 2x" width="20" height="20"> ). Spécifiquement pour ce cas j'ai évité de prendre un seuil trop élevé car cela n'aurait pas eu de sens. L'échantillon n'est pas énorme, et il y a effectivement des biais, prendre un seuil élevé eu été un tantinet surfait je pense, mais je dois dire que j'y étais plus au "pif" qu'à autre chose default_biggrin.png/emoticons/biggrin@2x.png 2x" width="20" height="20"> Et que cela ne me convient pas plus que cela en fait.

Il y a aussi ce lien que je trouve sympa sur les p-values, notamment pour les tests asymptotiques (et le lien vers un autre billet de blog sympa aussi).

http://blogperso.univ-rennes1.fr/arthur.charpentier/index.php/post/2009/08/26/Comment-lire-une-p-value

Lien à poster
Partager sur d’autres sites

Cela veut dire que la différence "existe" réellement. On ne peut pas connaitre la moyenne exacte 71/00 ni la moyenne exacte 99/11. On estime donc l'erreur commise, avec une certaine probabilité d'erreur (risque de première espèce alpha). Ici, les zones hachurés présentent une différence avec un risque de 10% au moins. Ailleurs, la différence est juste du au hasard.

Pour être franc, et au risque de me ridiculiser (default_wink.png/emoticons/wink@2x.png 2x" width="20" height="20">), je ne comprends rien à ton explication et à tes interventions suivantes. J'imagine qu'il faut avoir fait des stats (poussées ?) pour comprendre. Mais merci quand même d'avoir essayé default_flowers.gif (j'espère que ça aura servi à d'autres default_smile.png/emoticons/smile@2x.png 2x" width="20" height="20">).
Lien à poster
Partager sur d’autres sites

Invité Guest

Non, il n'y a pas de problèmes default_flowers.gif Je prendrais le temps ce soir de mieux vous expliquez cela default_wink.png/emoticons/wink@2x.png 2x" width="20" height="20">

Lien à poster
Partager sur d’autres sites

Posté(e)
Le Voide (49-Maine et Loire), à 35 km au sud d'Angers et à 135 mètres d'altitude.

Merci beaucoup Acrid33 pour tout ce travail fourni, et qui est passionnant à lire! default_flowers.gifdefault_thumbup1.gif

Lien à poster
Partager sur d’autres sites

Invité Guest

Pour être franc, et au risque de me ridiculiser (default_wink.png/emoticons/wink@2x.png 2x" width="20" height="20">), je ne comprends rien à ton explication et à tes interventions suivantes. J'imagine qu'il faut avoir fait des stats (poussées ?) pour comprendre. Mais merci quand même d'avoir essayé default_flowers.gif (j'espère que ça aura servi à d'autres default_smile.png/emoticons/smile@2x.png 2x" width="20" height="20">).

Je vais finir prof de math's avec une barbe blanche à ce compte ^^.

En statistiques, on a deux entités très nettement distinctes.

D'une part la population. La population est une collection d'objets qui ont une ou des caractéristiques communes qui nous intéressent. Par exemple, une population peut être l'ensemble des écrous produits par une usine, et on s'intéresse au diamètre de ces écrou pour savoir si il y a beaucoup de défauts. Ou alors la population constitué par la famille du monstre du Loch Ness, et on s'intéresse à la structure de la famille (nombre de monstres femelles, nombre de monstres mâles, nombre de monstres jouant les stars à la surface du lac, ....). Dans la pratique, on n'a jamais accès à toute la population (problème de sous sous, de moyen matériel, ou même tout simplement population qui n'est pas accessible). Il est donc impossible en partant de la population, d'avoir ses caractéristiques.

D'autre part, on a l'échantillon. L'échantillon est une fraction de la population qui permet d'approcher les caractéristiques de la population. Déjà là, il apparaît un problème qui est le biais d’échantillonnage. L'exemple historique ultra classique est celui d'une boîte de sondage aux USA dans les années 30 qui a appelé les gens par téléphone pour connaître leur intention de vote. Le problème, à l'époque le tél' était un bien de luxe et peu de gens en possédaient. Les gens qui ont répondu étaient donc uniquement représentatif de la "upper class" et non de toute la population. Inutile de dire que le résultat du sondage s'avéra complétement erroné default_whistling.gif

Le problème, c'est comment à partir d'un échantillon, retrouvé les caractéristiques de la population....

L'échantillon, c'est le mesuré, la pop' c'est ce qu'on voudrait bien trouver.

Pour être plus concret, on va faire des petits essais. On va prendre un échantillon de 10 chiffres d'une population qui a pour moyenne 0 et écart type 1.

Sous R :

x<-rnorm(10,0,1)

La population est donc connue sans problème, c'est une population de moyenne nulle et d'écart type 1.

On essaye une fois :

 [1]  0.06157442  1.57659999 -0.94343862 -1.38958740  1.38427907 -1.27350072 [7]  1.56003704 -1.23444605 -0.00110446  0.71073484> mean(x)[1] 0.04511481

Oups, la moyenne est de 0.045 est des brouettes et non 0 ^^

C'est parce qu'on a pris un échantillon très petit de la population (10 gus).

On se la retente ?

 [1] -0.8359945 -1.9226426  1.9924160 -1.9937709 -0.7753456  1.4180276 [7] -2.0321261 -0.1222978 -0.5886592 -0.4667398> mean(x)[1] -0.5327133

Là, c'est un gros oups, la moyenne part carrément à -0.53 default_laugh.png

On se la retente ?

 [1] -1.32903812 -0.41148459 -2.20144311 -0.97177366  0.07010178  0.26692499 [7] -0.37893002 -0.49093916 -0.80644798 -1.37493514> mean(x)[1] -0.7627965

(Non, je n'ai rien trafiqué ... ^^)

Moyenne à -0.7627...

(Pour montrer quand même que c'est peu probable, un screen shoot montrant comment je me suis excité sur R default_biggrin.png/emoticons/biggrin@2x.png 2x" width="20" height="20">

rpaix.jpg

)

Et pourtant, à chaque fois la population est bien spécifié avec une moyenne de 0. Donc quand on saisit un échantillon d'une population, on ne trouvera pas exactement la moyenne de la population.

Ce qu'on fait alors, plutôt que de baisser les bras et se dire qu'on ne peut accéder à la moyenne de la population, on dit que la moyenne de la population est dans un intervalle centrée autour de la moyenne de l'échantillon.

Pour le premier exemple, l'intervalle de confiance autour de la moyenne mesurée (0.04511 et quelques) au risque 90% est :

[-0.6512131;0.7414427]

Cela veut dire que la moyenne de la population a 9 chances sur 10 d'être dans cette intervalle. Comme on sait qu'elle est égale à 0, donc dans l'intervalle, on peut se dire qu'on a bien ratrapé le truc quand même ^^

Pour le deuxième exemple, l'intervalle de confiance autour de la moyenne mesurée (-0.5327 et quelques) au risque 90% est :

[-1.316129;0.2507022]

Cela veut dire que la moyenne de la population a 9 chances sur 10 d'être dans cette intervalle. Comme on sait qu'elle est égale à 0, donc dans l'intervalle, on peut se dire qu'on a bien ratrapé le truc quand même ^^

Pour le troisième exemple, l'intervalle de confiance autour de la moyenne mesurée (-0.7627 et quelques) au risque 90% est :

[-1.186;-0.3395933]

Là, on se fait défoncer. La moyenne de la population est en dehors de l'intervalle de confiance à 90%, cette fois-ci c'est une malchance sur 10 de se louper, et on vient de la trouver cette malchance default_tongue.png/emoticons/tongue@2x.png 2x" width="20" height="20"> (Voir quand même le screen shoot montrant que dire que la probabilité est faible - 1/10 - est réel. J'ai du retenté ma chance une paire de fois avant de vous trouver ce résultat default_191769.gif )

Par contre, si on élargit l'intervalle de confiance, par exemple à 99.5% (donc le risque que la moyenne de la population soit en dehors est de 0.5%) :

[-1.59916;0.07356699]

Revenons à notre problème de pluvio donc.

Les mesures 71/00 ne sont qu'un échantillon, donc la moyenne de la population (la population est la même qu'au dessus, une loi de distri' -sauf que cette fois-ci les paramètres ne sont pas connus default_tongue.png/emoticons/tongue@2x.png 2x" width="20" height="20"> -) n'est pas connu exactement. De même pour 99/11.

On va donc tenter d'estimer l'erreur commise de la même façon.

On va par exemple calculer que pour une station, la moyenne de l'échantillon 71/00 (le truc qu'on mesure) est de 60 mm et que la moyenne de la population au risque 10% (le truc qu'on cherche) est dans l'intervalle [55;65].

De même, la moyenne de l'échantillon 99/11 (le truc qu'on mesure) est de 40 mm et que la moyenne de la population au risque 10% (le truc qu'on cherche) est dans l'intervalle [30;50].

Ici, on n'a pas de recouvrement des deux intervalles, donc la moyenne des populations est probablement (au risque 10%) différente.

Et on va par exemple calculer que pour une station, la moyenne de l'échantillon 71/00 (le truc qu'on mesure) est de 70 mm et que la moyenne de la population au risque 10% (le truc qu'on cherche) est dans l'intervalle [60;80].

De même, la moyenne de l'échantillon 99/11 (le truc qu'on mesure) est de 65 mm et que la moyenne de la population au risque 10% (le truc qu'on cherche) est dans l'intervalle [50;80].

Ici, on a recouvrement des deux intervalles, donc la moyenne des populations est probablement (au risque 10%) la même.

Est-ce plus clair ?

Lien à poster
Partager sur d’autres sites

Posté(e)
Saint-André-Allas (225 m) à 5 km à l'ouest de Sarlat (Périgord Noir), Condat-sur-Vézère (88 m) pour le travail

Mois j'ai compris default_tongue.png/emoticons/tongue@2x.png 2x" width="20" height="20">

Pour résumer simplement :

Vu que le panel de stations utilisé n'est pas exhaustif de 100 % du territoire français, il y a forcément des imperfections au niveau des endroits où l'on fait passer les isobares sur la carte . Par exemple, si 2 stations ont des cumuls respectifs de 55 mm et 65 mm et sont éloignées de 150 km, et que l'on n'a pas d'autres stations de référence entre ces deux là, l'isobare séparant les classes [50-60 mm] et [60-70 mm] passera arbitrairement à mi-chemin entre les 2. Mais aucune donnée ne permet de nous dire qu'à mi-chemin entre ces 2 stations il y a forcément eu 60 mm (donc entre 55 et 65 mm)...

Donc fixer un seuil de significativité permet de corriger ces imperfections géographiques, obligatoires quel que soit le nombre de stations dans le panel puisqu'elles ne représenteront jamais 100 % du territoire étudié, aussi nombreuses soient-elles...

Enfin en tout cas moi, c'est comme ça que je l'ai compris default_happy.png/emoticons/happy@2x.png 2x" width="20" height="20">

Lien à poster
Partager sur d’autres sites

Non, il n'y a pas de problèmes default_flowers.gif Je prendrais le temps ce soir de mieux vous expliquez cela default_wink.png/emoticons/wink@2x.png 2x" width="20" height="20">

Merci beaucoup.Je crois avoir compris ta seconde explication qui me permet de comprendre la 1ère que je n'avais pas comprise même s'il reste certains termes et notions que tu n'as pas expliqué, notamment ce que veut dire "trop de bruit" ?

Ôte-moi d'un doute : Quand tu donnes un seuil de significativité de 90% à une moyenne de 70mm. L'intervalle est plutôt de [63;77] plutôt que [60;80] non ?

Par contre j'ai l'impression de ne pas comprendre la même chose qu'Acrid33 default_tongue.png/emoticons/tongue@2x.png 2x" width="20" height="20">default_confused1.gif.

Lien à poster
Partager sur d’autres sites

Bonjour acrid33 . Merci pour ce dossier une merveille . C'est l'une des meilleures étude faite sur IC . default_wub.png

Avec un bon logiciel de carto, facile, rapide et avec un beau rendu, elle ferait des étincelles default_wink.png/emoticons/wink@2x.png 2x" width="20" height="20">.
Lien à poster
Partager sur d’autres sites

Posté(e)
Saint-André-Allas (225 m) à 5 km à l'ouest de Sarlat (Périgord Noir), Condat-sur-Vézère (88 m) pour le travail

Bonjour acrid33 . Merci pour ce dossier une merveille . C'est l'une des meilleures étude faite sur IC . default_wub.png

Merci default_blushing.gifdefault_biggrin.png/emoticons/biggrin@2x.png 2x" width="20" height="20">

Avec un bon logiciel de carto, facile, rapide et avec un beau rendu, elle ferait des étincelles default_wink.png/emoticons/wink@2x.png 2x" width="20" height="20">.

Faut que j'apprenne un peu CartIC car il y a des trucs que je ne pige pas dedans default_tongue.png/emoticons/tongue@2x.png 2x" width="20" height="20">
Lien à poster
Partager sur d’autres sites

Posté(e)
Besse sur Issole (83 - Alt 275 m à 26 km de la mer)

Merci Paix, j'avais vu ce type d'explications et je passais de temps en temps chez le bon Charpentier.

Je te demandais surtout ça au cas où tu aurais vu passer quelque chose d'autre de très précis, spécifique à la météo/climato.

Alfeternale, c'est assez bien expliqué dans ces pages, avec quelques exemples appliqués simples :

http://homepages.ulb...aresc/Stat2.pdf

http://spiral.univ-l.../c7p2/c7p2.html

http://www.mnhn.fr/m...lus_handout.pdf

La vérification de la significativité te permet de vérifier avec un certain niveau de confiance qu'on choisit pour être efficace pour le cas (cas le plus courant pour les précipitations: 95%), que la différence entre 2 moyennes (2 pourcentages ou autres) est (ou n'est) probablement (pas) significative d'un changement réel de moyenne.

Il faut vérifier que ce n'est pas l'illusion donnée par l'incertitude des moyennes/20 ans estimées avec trop peu d'échantillons, qui génère ces écarts de moyenne.

Acrid, à la base l'incertitude dont on parle là, n'a pas de rapport avec l'incertitude de la position des isolignes pour le paramètre donné, même si sur le fond ça jouera, là on ne parle pas de l'incertitude du tracé. On discute de l''incertitude statistique d'une moyenne donnée (pour une station donnée ou pour une moyenne des la zone donnée avec x stations, c'est le même problème de base d'incertitude statistique des moyennes, même s'il y a d'autres problèmes qui s'ajoutent dans le 2 ème cas, on n'en parle pas là) en fonction du nb de relevés, bien avant de s'occuper de tracer certaines lignes représentant certaines de ces moyennes avec leur incertitude statistique propre.

Le bruit c'est la variabilité habituelle pour le lieu (voir l'écart-type de ta série, une variation de 50 mm sur une moyenne/20 ans à Ouessant n'aura pas le même sens que la même sens que la même variation au Frioul face à Marseille)

L'idéal ce serait de sortir des cartes à la mode Hansen, des cartes d'anomalies du nb d'écarts-type locaux, ce qui montreraient vraiment les zones où les RR se sont décalées le plus anormalement de la moyenne en fonction de la variabilité locale habituelle.

Lien à poster
Partager sur d’autres sites

Invité Guest

Très précisement, non je n'ai pas default_wink.png/emoticons/wink@2x.png 2x" width="20" height="20"> C'est plus par rapport à la taille de l'échantillon et la qualité des données que je me fixe alpha. J'essaye toujours de garder aussi en tête le risque bêta. Sur ce cas spécifique, je penses qu'on a quelques effets kiss cool du au risque II, avec l'acceptation de H0 (moyenne différente) à tort. Même si il n'y a pas de lien explicite entre les deux, lorsque je parle de taille d'échantillons, qualité des données, et toussa, c'est avec cette idée de risque bêta en tête. À vouloir diminuer alpha, on fait exploser bêta, et là je penses même que bêta doit être trop élevé (à vue de nez, il y a facilement au moins ~10% des stations qui acceptent H0 mais dont j'ai l'intime conviction que c'est foireux default_happy.png/emoticons/happy@2x.png 2x" width="20" height="20"> ) dans ce cas là.

Ôte-moi d'un doute : Quand tu donnes un seuil de significativité de 90% à une moyenne de 70mm. L'intervalle est plutôt de [63;77] plutôt que [60;80] non ?

70 *0.9 = 63 et 70 * 1.1 = 77, c'est cela ? default_tongue.png/emoticons/tongue@2x.png 2x" width="20" height="20">

Sauf que cela ne marche pas ainsi default_happy.png/emoticons/happy@2x.png 2x" width="20" height="20">

Quand on dit que 90% des valeurs sont dans l'intervalle, cela ne veut pas dire que les bornes de l'intervalle sont 0.9x et 1.1x. Les bornes de l'intervalles sont déterminées en fonction de la taille de l'échantillon et de l'écart type de l'échantilon.

Un échantillon avec une moyenne donné mais forte variabilité aura un intervalle plus large qu'un autre échantillon de même moyenne, mais de variabilité plus faible.

Lien à poster
Partager sur d’autres sites

Merci ChristianP et Paix pour vos messages explicatifs.

70 *0.9 = 63 et 70 * 1.1 = 77, c'est cela ? default_tongue.png/emoticons/tongue@2x.png 2x" width="20" height="20">

Sauf que cela ne marche pas ainsi default_happy.png/emoticons/happy@2x.png 2x" width="20" height="20">

Quand on dit que 90% des valeurs sont dans l'intervalle, cela ne veut pas dire que les bornes de l'intervalle sont 0.9x et 1.1x. Les bornes de l'intervalles sont déterminées en fonction de la taille de l'échantillon et de l'écart type de l'échantilon.

Un échantillon avec une moyenne donné mais forte variabilité aura un intervalle plus large qu'un autre échantillon de même moyenne, mais de variabilité plus faible.

Donc quand tu as donné les intervalles [60;80] à une moyenne de 70mm pour un seuil de significativité de 90%, c'était au pif ?
Lien à poster
Partager sur d’autres sites

Posté(e)
Alès - St Hilaire de Brethmas (30)

Merci pour ces cartes Acrid33.

Pour le sud est on voit particulièrement bien combien il est peu révélateur d'une tendance de prendre en considération une période climatique trop courte. On voit sur Nîmes l'influence passée d'octobre 88. On voit les influences récentes des septembres des années 2000. Pour le Luc on voit incontestablement l'effet d'un épisode très court sur les moyennes. Est-ce bien significatif tout ça ? Un épisode monumental en méditerrannée, très très court mais extrèmement intense suffit à boulverser de façon gigantesque les moyennes sur la période que tu as considérée.

Perso je me méfie beaucoup de cette image pour nos régions méditerranéenes, car même sur 10 années le constat ne peut être qu'un instantanné biaisé si on le veut comparatif.

Edit :

Exemple à Le Luc :

En un mois de juin (2010), il a pratiquement plu l'équivalent des 12 autres juins de la période considérée (313mm en 2010 et 335mm entre 1999 et 2011 en excluant 2010). Forcément on passe d'une moyenne en juin de 49.9mm sur la période à 27.9mm si l'on exclut 2010... pour une norme 71-00 à 40.2mm. Focément ça change carrément tout !

Lien à poster
Partager sur d’autres sites

Invité Guest

Merci ChristianP et Paix pour vos messages explicatifs.

Donc quand tu as donné les intervalles [60;80] à une moyenne de 70mm pour un seuil de significativité de 90%, c'était au pif ?

Oui default_happy.png/emoticons/happy@2x.png 2x" width="20" height="20"> L'intervalle de confiance, c'est :

6ce841d61c846907bc31263135bd907a.png

Avec x barre, la moyenne ; s l'écart-type ; n le nombre de gus ; et t indice alpha le nombre de student qu'on trouve dans des tables (http://en.wikipedia.org/wiki/Student%27s_t-distribution#Table_of_selected_values) qui permet de définir le risque (alpha). C'est donc un truc du genre : moyenne +/- incertitude. Dans l'exemple cité, c'est 70 +/- 10 mm.

Si s augmente, l'intervalle de confiance s'élargit (il est au dénominateur) ; et si n diminue, l'intervalle de confiance s'élargit (il est au numérateur).

Lien à poster
Partager sur d’autres sites

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant
 Partager

  • En ligne récemment   0 membre est en ligne

    • Aucun utilisateur enregistré regarde cette page.
×
×
  • Créer...