Invité Guest Posté(e) 25 mars 2012 Partager Posté(e) 25 mars 2012 Oui c'est clair, d'ailleurs j'avais vu Tamino en tenir compte quelque part dans un msg où il avait laminé Watts à ce sujet qui présentait de bien plus gros chevauchements. Il recalcule les N réellement dispo en tenant compte du chevauchement, ça élargit les IC et donc la significativité présente sans en tenir compte, disparaît plus souvent, ce qui est plus juste. Oui, il est clair que cela reste de l'approximatif, si ce n'est de la grosse arrache /emoticons/happy@2x.png 2x" width="20" height="20"> C'est juste pour donner une idée. Je ne comprends pourquoi tu as choisis un seuil de significativité à 90% au lieu de 95%, comme je le vois parfois dans quelques études, mais je ne sais pas dans quels cas il est conseillé de choisir 90% plutôt que 95%, vu que je ne suis jamais tombé sur un cours de stats (appliquées à la météo ou non) qui indiquait comment choisir objectivement ( tous sont à 95% ou parfois 99%, enfin j'ai vu chez Scaffeta nous sortir un IC à environ 68%, mais bon là on se doute bien pourquoi). Quand tu auras un moment, pourrais tu nous expliquer comment choisir de façon objective et/ou mathématique entre 90%, 95%, 99% en météo/climato ? Merci ! Heu, on le tire au dé ? Non sérieusement, je ne connais pas de réponse vraiment fondée. J'avais eu une conf' d'un gars qui avait fait voler Ariane dans le temps et participer au projet Hermès (la navette spatiale européenne), il disait que le seuil dépendait dans ce cas des applications. Je veux dire, on n'ira jamais faire voler une navette avec un risque de 10% Et donc là il faut essayer de ramener le seuil à 1%, ce qui coûte très (très, très, très) cher, d'où un "epic fail". Alors que pour Ariane on peut accepter un peu plus de pertes. Le 95% vient aussi du fait que c'est un peu près l'intervalle à deux sigmas d'une loi normale (95.45% exactement). Mais cela reste des chiffres ronds pour faire "joli". Rien n'empêche de prendre un seuil de racine ( 3000 * pi ) (97.081% et des brouettes /emoticons/biggrin@2x.png 2x" width="20" height="20"> ). Spécifiquement pour ce cas j'ai évité de prendre un seuil trop élevé car cela n'aurait pas eu de sens. L'échantillon n'est pas énorme, et il y a effectivement des biais, prendre un seuil élevé eu été un tantinet surfait je pense, mais je dois dire que j'y étais plus au "pif" qu'à autre chose /emoticons/biggrin@2x.png 2x" width="20" height="20"> Et que cela ne me convient pas plus que cela en fait. Il y a aussi ce lien que je trouve sympa sur les p-values, notamment pour les tests asymptotiques (et le lien vers un autre billet de blog sympa aussi). http://blogperso.univ-rennes1.fr/arthur.charpentier/index.php/post/2009/08/26/Comment-lire-une-p-value Lien à poster Partager sur d’autres sites More sharing options...
Alfeternale Posté(e) 25 mars 2012 Die (26) Partager Posté(e) 25 mars 2012 Cela veut dire que la différence "existe" réellement. On ne peut pas connaitre la moyenne exacte 71/00 ni la moyenne exacte 99/11. On estime donc l'erreur commise, avec une certaine probabilité d'erreur (risque de première espèce alpha). Ici, les zones hachurés présentent une différence avec un risque de 10% au moins. Ailleurs, la différence est juste du au hasard. Pour être franc, et au risque de me ridiculiser (/emoticons/wink@2x.png 2x" width="20" height="20">), je ne comprends rien à ton explication et à tes interventions suivantes. J'imagine qu'il faut avoir fait des stats (poussées ?) pour comprendre. Mais merci quand même d'avoir essayé (j'espère que ça aura servi à d'autres /emoticons/smile@2x.png 2x" width="20" height="20">). Lien à poster Partager sur d’autres sites More sharing options...
Invité Guest Posté(e) 25 mars 2012 Partager Posté(e) 25 mars 2012 Non, il n'y a pas de problèmes Je prendrais le temps ce soir de mieux vous expliquez cela /emoticons/wink@2x.png 2x" width="20" height="20"> Lien à poster Partager sur d’autres sites More sharing options...
Aldébaran Posté(e) 25 mars 2012 Le Voide (49-Maine et Loire), à 35 km au sud d'Angers et à 135 mètres d'altitude. Partager Posté(e) 25 mars 2012 Merci beaucoup Acrid33 pour tout ce travail fourni, et qui est passionnant à lire! Lien à poster Partager sur d’autres sites More sharing options...
Invité Guest Posté(e) 25 mars 2012 Partager Posté(e) 25 mars 2012 Pour être franc, et au risque de me ridiculiser (/emoticons/wink@2x.png 2x" width="20" height="20">), je ne comprends rien à ton explication et à tes interventions suivantes. J'imagine qu'il faut avoir fait des stats (poussées ?) pour comprendre. Mais merci quand même d'avoir essayé (j'espère que ça aura servi à d'autres /emoticons/smile@2x.png 2x" width="20" height="20">). Je vais finir prof de math's avec une barbe blanche à ce compte ^^. En statistiques, on a deux entités très nettement distinctes. D'une part la population. La population est une collection d'objets qui ont une ou des caractéristiques communes qui nous intéressent. Par exemple, une population peut être l'ensemble des écrous produits par une usine, et on s'intéresse au diamètre de ces écrou pour savoir si il y a beaucoup de défauts. Ou alors la population constitué par la famille du monstre du Loch Ness, et on s'intéresse à la structure de la famille (nombre de monstres femelles, nombre de monstres mâles, nombre de monstres jouant les stars à la surface du lac, ....). Dans la pratique, on n'a jamais accès à toute la population (problème de sous sous, de moyen matériel, ou même tout simplement population qui n'est pas accessible). Il est donc impossible en partant de la population, d'avoir ses caractéristiques. D'autre part, on a l'échantillon. L'échantillon est une fraction de la population qui permet d'approcher les caractéristiques de la population. Déjà là, il apparaît un problème qui est le biais d’échantillonnage. L'exemple historique ultra classique est celui d'une boîte de sondage aux USA dans les années 30 qui a appelé les gens par téléphone pour connaître leur intention de vote. Le problème, à l'époque le tél' était un bien de luxe et peu de gens en possédaient. Les gens qui ont répondu étaient donc uniquement représentatif de la "upper class" et non de toute la population. Inutile de dire que le résultat du sondage s'avéra complétement erroné Le problème, c'est comment à partir d'un échantillon, retrouvé les caractéristiques de la population.... L'échantillon, c'est le mesuré, la pop' c'est ce qu'on voudrait bien trouver. Pour être plus concret, on va faire des petits essais. On va prendre un échantillon de 10 chiffres d'une population qui a pour moyenne 0 et écart type 1. Sous R : x<-rnorm(10,0,1) La population est donc connue sans problème, c'est une population de moyenne nulle et d'écart type 1. On essaye une fois : [1] 0.06157442 1.57659999 -0.94343862 -1.38958740 1.38427907 -1.27350072 [7] 1.56003704 -1.23444605 -0.00110446 0.71073484> mean(x)[1] 0.04511481 Oups, la moyenne est de 0.045 est des brouettes et non 0 ^^ C'est parce qu'on a pris un échantillon très petit de la population (10 gus). On se la retente ? [1] -0.8359945 -1.9226426 1.9924160 -1.9937709 -0.7753456 1.4180276 [7] -2.0321261 -0.1222978 -0.5886592 -0.4667398> mean(x)[1] -0.5327133 Là, c'est un gros oups, la moyenne part carrément à -0.53 On se la retente ? [1] -1.32903812 -0.41148459 -2.20144311 -0.97177366 0.07010178 0.26692499 [7] -0.37893002 -0.49093916 -0.80644798 -1.37493514> mean(x)[1] -0.7627965 (Non, je n'ai rien trafiqué ... ^^) Moyenne à -0.7627... (Pour montrer quand même que c'est peu probable, un screen shoot montrant comment je me suis excité sur R /emoticons/biggrin@2x.png 2x" width="20" height="20"> ) Et pourtant, à chaque fois la population est bien spécifié avec une moyenne de 0. Donc quand on saisit un échantillon d'une population, on ne trouvera pas exactement la moyenne de la population. Ce qu'on fait alors, plutôt que de baisser les bras et se dire qu'on ne peut accéder à la moyenne de la population, on dit que la moyenne de la population est dans un intervalle centrée autour de la moyenne de l'échantillon. Pour le premier exemple, l'intervalle de confiance autour de la moyenne mesurée (0.04511 et quelques) au risque 90% est : [-0.6512131;0.7414427] Cela veut dire que la moyenne de la population a 9 chances sur 10 d'être dans cette intervalle. Comme on sait qu'elle est égale à 0, donc dans l'intervalle, on peut se dire qu'on a bien ratrapé le truc quand même ^^ Pour le deuxième exemple, l'intervalle de confiance autour de la moyenne mesurée (-0.5327 et quelques) au risque 90% est : [-1.316129;0.2507022] Cela veut dire que la moyenne de la population a 9 chances sur 10 d'être dans cette intervalle. Comme on sait qu'elle est égale à 0, donc dans l'intervalle, on peut se dire qu'on a bien ratrapé le truc quand même ^^ Pour le troisième exemple, l'intervalle de confiance autour de la moyenne mesurée (-0.7627 et quelques) au risque 90% est : [-1.186;-0.3395933] Là, on se fait défoncer. La moyenne de la population est en dehors de l'intervalle de confiance à 90%, cette fois-ci c'est une malchance sur 10 de se louper, et on vient de la trouver cette malchance /emoticons/tongue@2x.png 2x" width="20" height="20"> (Voir quand même le screen shoot montrant que dire que la probabilité est faible - 1/10 - est réel. J'ai du retenté ma chance une paire de fois avant de vous trouver ce résultat ) Par contre, si on élargit l'intervalle de confiance, par exemple à 99.5% (donc le risque que la moyenne de la population soit en dehors est de 0.5%) : [-1.59916;0.07356699] Revenons à notre problème de pluvio donc. Les mesures 71/00 ne sont qu'un échantillon, donc la moyenne de la population (la population est la même qu'au dessus, une loi de distri' -sauf que cette fois-ci les paramètres ne sont pas connus /emoticons/tongue@2x.png 2x" width="20" height="20"> -) n'est pas connu exactement. De même pour 99/11. On va donc tenter d'estimer l'erreur commise de la même façon. On va par exemple calculer que pour une station, la moyenne de l'échantillon 71/00 (le truc qu'on mesure) est de 60 mm et que la moyenne de la population au risque 10% (le truc qu'on cherche) est dans l'intervalle [55;65]. De même, la moyenne de l'échantillon 99/11 (le truc qu'on mesure) est de 40 mm et que la moyenne de la population au risque 10% (le truc qu'on cherche) est dans l'intervalle [30;50]. Ici, on n'a pas de recouvrement des deux intervalles, donc la moyenne des populations est probablement (au risque 10%) différente. Et on va par exemple calculer que pour une station, la moyenne de l'échantillon 71/00 (le truc qu'on mesure) est de 70 mm et que la moyenne de la population au risque 10% (le truc qu'on cherche) est dans l'intervalle [60;80]. De même, la moyenne de l'échantillon 99/11 (le truc qu'on mesure) est de 65 mm et que la moyenne de la population au risque 10% (le truc qu'on cherche) est dans l'intervalle [50;80]. Ici, on a recouvrement des deux intervalles, donc la moyenne des populations est probablement (au risque 10%) la même. Est-ce plus clair ? Lien à poster Partager sur d’autres sites More sharing options...
acrid vintaquatre Posté(e) 25 mars 2012 Saint-André-Allas (225 m) à 5 km à l'ouest de Sarlat (Périgord Noir), Condat-sur-Vézère (88 m) pour le travail Auteur Partager Posté(e) 25 mars 2012 Mois j'ai compris /emoticons/tongue@2x.png 2x" width="20" height="20"> Pour résumer simplement : Vu que le panel de stations utilisé n'est pas exhaustif de 100 % du territoire français, il y a forcément des imperfections au niveau des endroits où l'on fait passer les isobares sur la carte . Par exemple, si 2 stations ont des cumuls respectifs de 55 mm et 65 mm et sont éloignées de 150 km, et que l'on n'a pas d'autres stations de référence entre ces deux là, l'isobare séparant les classes [50-60 mm] et [60-70 mm] passera arbitrairement à mi-chemin entre les 2. Mais aucune donnée ne permet de nous dire qu'à mi-chemin entre ces 2 stations il y a forcément eu 60 mm (donc entre 55 et 65 mm)... Donc fixer un seuil de significativité permet de corriger ces imperfections géographiques, obligatoires quel que soit le nombre de stations dans le panel puisqu'elles ne représenteront jamais 100 % du territoire étudié, aussi nombreuses soient-elles... Enfin en tout cas moi, c'est comme ça que je l'ai compris /emoticons/happy@2x.png 2x" width="20" height="20"> Lien à poster Partager sur d’autres sites More sharing options...
gerardlh Posté(e) 26 mars 2012 Rouen Est 152 m. Partager Posté(e) 26 mars 2012 Bonjour acrid33 . Merci pour ce dossier une merveille . C'est l'une des meilleures étude faite sur IC . Lien à poster Partager sur d’autres sites More sharing options...
Alfeternale Posté(e) 26 mars 2012 Die (26) Partager Posté(e) 26 mars 2012 Non, il n'y a pas de problèmes Je prendrais le temps ce soir de mieux vous expliquez cela /emoticons/wink@2x.png 2x" width="20" height="20"> Merci beaucoup.Je crois avoir compris ta seconde explication qui me permet de comprendre la 1ère que je n'avais pas comprise même s'il reste certains termes et notions que tu n'as pas expliqué, notamment ce que veut dire "trop de bruit" ? Ôte-moi d'un doute : Quand tu donnes un seuil de significativité de 90% à une moyenne de 70mm. L'intervalle est plutôt de [63;77] plutôt que [60;80] non ? Par contre j'ai l'impression de ne pas comprendre la même chose qu'Acrid33 /emoticons/tongue@2x.png 2x" width="20" height="20">. Lien à poster Partager sur d’autres sites More sharing options...
Alfeternale Posté(e) 26 mars 2012 Die (26) Partager Posté(e) 26 mars 2012 Bonjour acrid33 . Merci pour ce dossier une merveille . C'est l'une des meilleures étude faite sur IC . Avec un bon logiciel de carto, facile, rapide et avec un beau rendu, elle ferait des étincelles /emoticons/wink@2x.png 2x" width="20" height="20">. Lien à poster Partager sur d’autres sites More sharing options...
acrid vintaquatre Posté(e) 26 mars 2012 Saint-André-Allas (225 m) à 5 km à l'ouest de Sarlat (Périgord Noir), Condat-sur-Vézère (88 m) pour le travail Auteur Partager Posté(e) 26 mars 2012 Bonjour acrid33 . Merci pour ce dossier une merveille . C'est l'une des meilleures étude faite sur IC . Merci /emoticons/biggrin@2x.png 2x" width="20" height="20"> Avec un bon logiciel de carto, facile, rapide et avec un beau rendu, elle ferait des étincelles /emoticons/wink@2x.png 2x" width="20" height="20">. Faut que j'apprenne un peu CartIC car il y a des trucs que je ne pige pas dedans /emoticons/tongue@2x.png 2x" width="20" height="20"> Lien à poster Partager sur d’autres sites More sharing options...
ChristianP Posté(e) 26 mars 2012 Besse sur Issole (83 - Alt 275 m à 26 km de la mer) Partager Posté(e) 26 mars 2012 Merci Paix, j'avais vu ce type d'explications et je passais de temps en temps chez le bon Charpentier. Je te demandais surtout ça au cas où tu aurais vu passer quelque chose d'autre de très précis, spécifique à la météo/climato. Alfeternale, c'est assez bien expliqué dans ces pages, avec quelques exemples appliqués simples : http://homepages.ulb...aresc/Stat2.pdf http://spiral.univ-l.../c7p2/c7p2.html http://www.mnhn.fr/m...lus_handout.pdf La vérification de la significativité te permet de vérifier avec un certain niveau de confiance qu'on choisit pour être efficace pour le cas (cas le plus courant pour les précipitations: 95%), que la différence entre 2 moyennes (2 pourcentages ou autres) est (ou n'est) probablement (pas) significative d'un changement réel de moyenne. Il faut vérifier que ce n'est pas l'illusion donnée par l'incertitude des moyennes/20 ans estimées avec trop peu d'échantillons, qui génère ces écarts de moyenne. Acrid, à la base l'incertitude dont on parle là, n'a pas de rapport avec l'incertitude de la position des isolignes pour le paramètre donné, même si sur le fond ça jouera, là on ne parle pas de l'incertitude du tracé. On discute de l''incertitude statistique d'une moyenne donnée (pour une station donnée ou pour une moyenne des la zone donnée avec x stations, c'est le même problème de base d'incertitude statistique des moyennes, même s'il y a d'autres problèmes qui s'ajoutent dans le 2 ème cas, on n'en parle pas là) en fonction du nb de relevés, bien avant de s'occuper de tracer certaines lignes représentant certaines de ces moyennes avec leur incertitude statistique propre. Le bruit c'est la variabilité habituelle pour le lieu (voir l'écart-type de ta série, une variation de 50 mm sur une moyenne/20 ans à Ouessant n'aura pas le même sens que la même sens que la même variation au Frioul face à Marseille) L'idéal ce serait de sortir des cartes à la mode Hansen, des cartes d'anomalies du nb d'écarts-type locaux, ce qui montreraient vraiment les zones où les RR se sont décalées le plus anormalement de la moyenne en fonction de la variabilité locale habituelle. Lien à poster Partager sur d’autres sites More sharing options...
Invité Guest Posté(e) 26 mars 2012 Partager Posté(e) 26 mars 2012 Très précisement, non je n'ai pas /emoticons/wink@2x.png 2x" width="20" height="20"> C'est plus par rapport à la taille de l'échantillon et la qualité des données que je me fixe alpha. J'essaye toujours de garder aussi en tête le risque bêta. Sur ce cas spécifique, je penses qu'on a quelques effets kiss cool du au risque II, avec l'acceptation de H0 (moyenne différente) à tort. Même si il n'y a pas de lien explicite entre les deux, lorsque je parle de taille d'échantillons, qualité des données, et toussa, c'est avec cette idée de risque bêta en tête. À vouloir diminuer alpha, on fait exploser bêta, et là je penses même que bêta doit être trop élevé (à vue de nez, il y a facilement au moins ~10% des stations qui acceptent H0 mais dont j'ai l'intime conviction que c'est foireux /emoticons/happy@2x.png 2x" width="20" height="20"> ) dans ce cas là. Ôte-moi d'un doute : Quand tu donnes un seuil de significativité de 90% à une moyenne de 70mm. L'intervalle est plutôt de [63;77] plutôt que [60;80] non ? 70 *0.9 = 63 et 70 * 1.1 = 77, c'est cela ? /emoticons/tongue@2x.png 2x" width="20" height="20"> Sauf que cela ne marche pas ainsi /emoticons/happy@2x.png 2x" width="20" height="20"> Quand on dit que 90% des valeurs sont dans l'intervalle, cela ne veut pas dire que les bornes de l'intervalle sont 0.9x et 1.1x. Les bornes de l'intervalles sont déterminées en fonction de la taille de l'échantillon et de l'écart type de l'échantilon. Un échantillon avec une moyenne donné mais forte variabilité aura un intervalle plus large qu'un autre échantillon de même moyenne, mais de variabilité plus faible. Lien à poster Partager sur d’autres sites More sharing options...
Alfeternale Posté(e) 2 avril 2012 Die (26) Partager Posté(e) 2 avril 2012 Merci ChristianP et Paix pour vos messages explicatifs. 70 *0.9 = 63 et 70 * 1.1 = 77, c'est cela ? /emoticons/tongue@2x.png 2x" width="20" height="20"> Sauf que cela ne marche pas ainsi /emoticons/happy@2x.png 2x" width="20" height="20"> Quand on dit que 90% des valeurs sont dans l'intervalle, cela ne veut pas dire que les bornes de l'intervalle sont 0.9x et 1.1x. Les bornes de l'intervalles sont déterminées en fonction de la taille de l'échantillon et de l'écart type de l'échantilon. Un échantillon avec une moyenne donné mais forte variabilité aura un intervalle plus large qu'un autre échantillon de même moyenne, mais de variabilité plus faible. Donc quand tu as donné les intervalles [60;80] à une moyenne de 70mm pour un seuil de significativité de 90%, c'était au pif ? Lien à poster Partager sur d’autres sites More sharing options...
Euphydryas Posté(e) 2 avril 2012 Alès - St Hilaire de Brethmas (30) Partager Posté(e) 2 avril 2012 Merci pour ces cartes Acrid33. Pour le sud est on voit particulièrement bien combien il est peu révélateur d'une tendance de prendre en considération une période climatique trop courte. On voit sur Nîmes l'influence passée d'octobre 88. On voit les influences récentes des septembres des années 2000. Pour le Luc on voit incontestablement l'effet d'un épisode très court sur les moyennes. Est-ce bien significatif tout ça ? Un épisode monumental en méditerrannée, très très court mais extrèmement intense suffit à boulverser de façon gigantesque les moyennes sur la période que tu as considérée. Perso je me méfie beaucoup de cette image pour nos régions méditerranéenes, car même sur 10 années le constat ne peut être qu'un instantanné biaisé si on le veut comparatif. Edit : Exemple à Le Luc : En un mois de juin (2010), il a pratiquement plu l'équivalent des 12 autres juins de la période considérée (313mm en 2010 et 335mm entre 1999 et 2011 en excluant 2010). Forcément on passe d'une moyenne en juin de 49.9mm sur la période à 27.9mm si l'on exclut 2010... pour une norme 71-00 à 40.2mm. Focément ça change carrément tout ! Lien à poster Partager sur d’autres sites More sharing options...
Invité Guest Posté(e) 2 avril 2012 Partager Posté(e) 2 avril 2012 Merci ChristianP et Paix pour vos messages explicatifs. Donc quand tu as donné les intervalles [60;80] à une moyenne de 70mm pour un seuil de significativité de 90%, c'était au pif ? Oui /emoticons/happy@2x.png 2x" width="20" height="20"> L'intervalle de confiance, c'est : Avec x barre, la moyenne ; s l'écart-type ; n le nombre de gus ; et t indice alpha le nombre de student qu'on trouve dans des tables (http://en.wikipedia.org/wiki/Student%27s_t-distribution#Table_of_selected_values) qui permet de définir le risque (alpha). C'est donc un truc du genre : moyenne +/- incertitude. Dans l'exemple cité, c'est 70 +/- 10 mm. Si s augmente, l'intervalle de confiance s'élargit (il est au dénominateur) ; et si n diminue, l'intervalle de confiance s'élargit (il est au numérateur). Lien à poster Partager sur d’autres sites More sharing options...
Messages recommandés
Créer un compte ou se connecter pour commenter
Vous devez être membre afin de pouvoir déposer un commentaire
Créer un compte
Créez un compte sur notre communauté. C’est facile !
Créer un nouveau compteSe connecter
Vous avez déjà un compte ? Connectez-vous ici.
Connectez-vous maintenant