Monday, February 20, 2017

Utilisation De Imputed Data In Stata Forex

Imputation multiple dans Stata: Imputation Il s'agit de la quatrième partie de la série Imputation multiple dans Stata. Pour une liste des sujets couverts par cette série, voir l'Introduction. Cette section vous parlera des détails du processus d'imputation. Assurez vous d'avoir lu au moins la section précédente, Création de modèles d'imputation. De sorte que vous avez un sens de ce que les questions peuvent affecter la validité de vos résultats. Exemple de données Pour illustrer le processus, utilisez bien un jeu de données fabriqué. Contrairement à ceux de la section des exemples, cet ensemble de données est conçu pour avoir une certaine ressemblance avec les données du monde réel. Femelle (binaire) race (catégorique, trois valeurs) urbaine (binaire) edu (ordonnée catégorique, quatre valeurs) exp (continue) Chaque valeur de toutes les variables sauf la femelle a une chance de manquer complètement au hasard, mais bien sûr dans le monde réel, nous ne saurons pas qu'il est MCAR à l'avance. Nous allons donc vérifier si c'est MCAR ou MAR (MNAR ne peut pas être vérifié en regardant les données observées) en utilisant la procédure décrite dans Décider d'Imputer: unab numvars: unab missvars: urbaine salaire misstable somme, gen (miss) foreach var of (3) quotlogit missingness de var sur covarsquot logit missvar covars foreach nvar de covars local display newline (3) quotttest de nvar par manque de varquot ttest nvar, par (missvar) Voir le log Fichier pour les résultats. Notre but est de faire régresser les salaires en fonction du sexe, de la race, du niveau d'éducation et de l'expérience. Pour voir les réponses quotrightquot, ouvrez le fichier do qui crée l'ensemble de données et examinez la commande gen qui définit le salaire. Le code complet pour le processus d'imputation peut être trouvé dans le fichier suivant: Le processus d'imputation génère beaucoup de résultats. Bien mis en évidence dans cette page, cependant, un fichier journal complet comprenant les graphiques associés peut être trouvé ici: Chaque section de cet article aura des liens vers la section pertinente du journal. Cliquez sur quotbackquot dans votre navigateur pour revenir à cette page. Configuration La première étape de l'utilisation de mi commandes est de mesurer vos données. C'est un peu similaire à svyset. Tsset. Ou xtset. La commande mi set indique à Stata comment elle doit stocker les imputations supplémentaires que vous créerez. Nous vous suggérons d'utiliser le format large, car il est légèrement plus rapide. D'autre part, mlong utilise un peu moins de mémoire. Pour que Stata utilise la structure de données étendue, tapez: Pour que Stata utilise la structure de données mlong (long margin), tapez: La terminologie large vs. longue est empruntée à remodeler et les structures sont semblables. Cependant, ils ne sont pas équivalents et vous n'auriez jamais utiliser remodeler pour modifier la structure de données utilisée par mi. Au lieu de cela, tapez mi convertir large ou mi convert mlong (ajouter, effacer si les données n'ont pas été enregistrées depuis le dernier changement). La plupart du temps, vous n'avez pas à vous soucier de la façon dont les imputations sont stockées: les commandes mi comptent automatiquement comment appliquer tout ce que vous faites à chaque imputation. Mais si vous avez besoin de manipuler les données d'une manière mi cant faire pour vous, alors vous aurez besoin d'apprendre sur les détails de la structure que vous utilisez. Vous aurez également besoin d'être très, très prudent. Si vous êtes intéressé par de telles choses (y compris les formats flong et flongsep rarement utilisés) exécutez ce fichier et lire les commentaires qu'il contient tout en examinant le navigateur de données pour voir ce que les données ressemblent dans chaque formulaire. Enregistrement des variables Les commandes mi reconnaissent trois types de variables: Les variables imputées sont des variables que mi doit imputer ou a imputé. Les variables régulières sont des variables que mi ne doit pas imputer, soit par choix, soit parce qu'elles ne manquent aucune valeur. Les variables passives sont des variables qui sont complètement déterminées par d'autres variables. Par exemple, le salaire journalier est déterminé par le salaire, ou un indicateur de l'obésité peut être déterminé par une fonction de poids et de taille. Les termes d'interaction sont également des variables passives, mais si vous utilisez la syntaxe d'interaction Statas, vous n'aurez pas à les déclarer comme tels. Les variables passives sont souvent problématiques dans les exemples sur les transformations. Non linéarité. Et les interactions montrent comment leur utilisation inappropriée peut conduire à des estimations biaisées. Si une variable passive est déterminée par des variables régulières, elle peut être traitée comme une variable régulière car aucune imputation n'est nécessaire. Les variables passives ne doivent être traitées que si elles dépendent de variables imputées. L'enregistrement d'une variable indique à Stata quel type de variable il est. Les variables imputées doivent toujours être enregistrées: mi registre imputé varlist où varlist doit être remplacé par la liste réelle des variables à imputer. Les variables régulières n'ont souvent pas à être enregistrées, mais c'est une bonne idée: mi register regular varlist Les variables passives doivent être enregistrées: mi register passive varlist Cependant, les variables passives sont plus souvent créées après imputing. Faites le avec mi passive et theyll être enregistré comme passif automatiquement. Dans nos données d'exemple, toutes les variables sauf femelle doivent être imputées. La commande appropriée de mi register est: mi register imputed race wage (Notez que vous ne pouvez pas utiliser votre varlist même si vous devez imputer toutes vos variables, car cela inclurait les variables système ajoutées par mi set pour suivre la structure d'imputation Le fait d'inscrire la femelle comme régulière est facultatif, mais une bonne idée: mi register regular female Vérification du modèle d'imputation Sur la base des types de variables, les méthodes d'imputation évidente sont: race (categorie, trois valeurs): mlogit urban (binaire) Logit edu (ordonnée catégorique, quatre valeurs): ologit exp (continue): régression salariale (continue): régress féminine n'a pas besoin d'être imputée, mais doit être incluse dans les modèles d'imputation parce qu'elle est dans le modèle d'analyse et parce que Susceptibles d'être pertinentes. Avant de procéder à l'imputation, nous vérifierons chacun des modèles d'imputation. Toujours exécuter chacun de vos modèles d'imputation individuellement, en dehors du cadre de mi impute enchaîné, pour voir si ils convergent et (dans la mesure du possible) vérifier qu'ils sont spécifiés correctement. Code pour exécuter chacun de ces modèles est: mlogit course i. urban exp salaire i. edu i. female logit urbain i. race exp salaire i. edu i. female ologit edu i. urban i. race exp salaire i. female régression exp I. urban i. race salaire i. edu i. female régression salaire i. urban i. race exp i. edu i. female Notez que lorsque les variables catégorielles (ordonnées ou non) apparaissent comme covariables i. Les développe en ensembles de variables indicatrices. Comme on le voit plus loin, la sortie de la commande mi impute enchaînée comprend les commandes pour les modèles individuels qu'il exécute. Ainsi, un raccourci utile, surtout si vous avez beaucoup de variables à imputer, consiste à configurer votre commande impute enchaînée avec l'option dryrun pour l'empêcher de faire une imputation réelle, l'exécuter et copier les commandes de la sortie en Votre fichier pour les tests. Problèmes de convergence La première chose à noter est que tous ces modèles sont exécutés avec succès. Des modèles complexes comme mlogit peuvent ne pas converger si vous avez un grand nombre de variables catégorielles, car cela conduit souvent à de petites tailles de cellules. Pour déterminer la cause du problème, supprimez la plupart des variables, assurez vous que le modèle fonctionne avec ce qui reste, puis ajoutez des variables à la fois ou en petits groupes jusqu'à ce qu'il cesse de fonctionner. Avec une certaine expérimentation, vous devriez être en mesure d'identifier la variable de problème ou la combinaison de variables. À ce stade, vous devrez décider si vous pouvez combiner des catégories ou des variables de dépôt ou effectuer d'autres modifications afin de créer un modèle utilisable. Prévision de prédiction La prédiction parfaite est un autre problème à noter. Le processus d'imputation ne peut pas simplement laisser tomber les observations parfaitement prédites de la manière logit. Vous pourriez les laisser tomber avant d'imputer, mais cela semble aller à l'encontre du but de l'imputation multiple. L'alternative est d'ajouter l'option augment (ou juste aug) aux méthodes affectées. Ceci indique à mi impute enchaîné d'utiliser l'approche de la régression de quota ratio, qui ajoute des observations fausses avec des poids très faibles de telle manière qu'ils ont un effet négligeable sur les résultats mais empêchent une prédiction parfaite. Pour plus de détails voir la section QuotThe question de la prédiction parfaite lors de l'imputation des données catégoriques dans la documentation Stata MI. Vérification de l'absence de spécification Vous devez également essayer d'évaluer si les modèles sont correctement spécifiés. Une discussion complète sur la façon de déterminer si un modèle de régression est spécifié correctement ou non est bien au delà de la portée de cet article, mais utiliser les outils que vous jugez appropriés. Voici quelques exemples: Placements de valeur résiduelle / ajustée Pour les variables continues, les tracés de valeur résiduelle par rapport à la valeur ajustée (faciles à réaliser avec la trame rvf) peuvent être utiles8212, plusieurs exemples les utilisent pour détecter des problèmes. Considérons l'intrigue pour l'expérience: régresser exp i. urban i. race salaire i. edu i. female rvfplot Notez comment un certain nombre de points sont regroupés le long d'une ligne en bas à gauche, et aucun point n'est en dessous: Cela reflète la contrainte que L'expérience ne peut être inférieure à zéro, ce qui signifie que les valeurs ajustées doivent toujours être supérieures ou égales aux valeurs résiduelles ou que les valeurs résiduelles doivent être supérieures ou égales au négatif des valeurs ajustées. (Si le graphe avait la même échelle sur les deux axes, la ligne de contrainte serait une ligne de 45 degrés.) Si tous les points étaient au dessous d'une ligne semblable plutôt que dessus, cela indiquerait qu'il y avait une limite supérieure sur la variable Plutôt qu'une limite inférieure. L'interception y de la ligne de contrainte indique la limite dans les deux cas. Vous pouvez également avoir une limite inférieure et une limite supérieure, en mettant tous les points dans une bande entre eux. Le modèle quotobviousquot, régress. Est inappropriée pour l'expérience car elle n'appliquera pas cette contrainte. Son également inapproprié pour les salaires pour la même raison. Les solutions de rechange comprennent le truncreg, ll (0) et pmm (bien utiliser pmm). Ajout d'interactions Dans cet exemple, il semble plausible que les relations entre les variables puissent varier selon la race, le sexe et les groupes urbains urbains. Ainsi, une façon de vérifier la spécification erronée est d'ajouter des termes d'interaction aux modèles et de voir s'ils s'avèrent importants. Par exemple, bien comparer le modèle évident: régresser exp i. race salaire i. edu i. urban i. female avec un qui inclut les interactions: régresser exp (i. race i. urban i. female) (c. wage i. edu ) Des comparaisons similaires ont été menées pour les modèles des autres variables. Cela crée une grande quantité de sortie, donc voir le fichier journal pour les résultats. Les interactions entre les variables féminines et les autres variables sont significatives dans les modèles pour exp. salaire. Edu. Et urbain. Il y a quelques interactions significatives entre la race ou l'urbain et d'autres variables, mais pas presque autant (et gardez à l'esprit qu'avec ce nombreux coefficients wed s'attendent à certains faux positifs en utilisant un niveau de signification de 0,05). Eh bien impute les hommes et les femmes séparément. C'est une option particulièrement bonne pour cet ensemble de données car la femelle ne manque jamais. Si c'était le cas, il faut laisser tomber les observations qui manquent à la femelle parce qu'elles ne pouvaient pas être placées dans un groupe ou dans l'autre. Dans l'ordre d'imputation cela signifie ajouter l'option par (femelle). Lorsque vous testez des modèles, cela signifie que vous devez démarrer les commandes avec le préfixe femelle: (et enlever la femelle des listes de covariables). Les modèles d'imputation améliorés sont donc: par femelle femelle: reg exp i. urban i. race salaire i. edu par femelle: logit urban exp i. race salaire i. edu par femelle: mlogit race exp i. urban salaire i. edu par femme : Reg salaire exp i. urban i. race i. edu par femelle: ologit edu exp i. urban i. race salaire pmm lui même ne peut pas être exécuté en dehors du contexte d'imputation, mais comme il est basé sur la régression, vous pouvez utiliser la régression régulière pour le tester . Ces modèles devraient être testés à nouveau, mais bien omettre ce processus. La syntaxe de base pour mi impute enchaînée est: mi impute enchaîné (méthode1) varlist1 (méthode2) varlist2. Regvars Chaque méthode spécifie la méthode à utiliser pour imputer la varlist suivante Les possibilités de méthode sont regress. Pmm Truncreg. Intreg. Logit. Ologit. Mlogit. Poisson Et nbreg. Regvars est une liste de variables régulières à utiliser comme covariables dans les modèles d'imputation mais non imputée (il peut ne pas en avoir). Les options de base sont: add (N) rseed (R) savetrace (tracefile. Remplacer) N est le nombre d'imputations à ajouter à l'ensemble de données. R est la graine à utiliser pour le générateur de nombres aléatoires8212si vous ne définissez pas ce youll obtenir des imputations légèrement différentes chaque fois que la commande est exécutée. Le tracefile est un jeu de données dans lequel mi impute enchaîné stocke des informations sur le processus d'imputation. Bien utiliser cet ensemble de données pour vérifier la convergence. Les options qui sont pertinentes pour une méthode particulière vont avec la méthode, à l'intérieur des parenthèses mais en suivant une virgule (par exemple (mlogit, aug)). Les options qui sont pertinentes pour le processus d'imputation dans son ensemble (comme par (femme)) vont à la fin, après la virgule. Pour notre exemple, le commandement serait: mi impute enchaîné (logit) urbain (mlogit) race (ologit) edu (pmm) exp salaire, ajouter (5) rseed (4409) par (femme) Notez que ceci ne comprend pas de savetrace (). A ce jour, par () et savetrace () ne peuvent pas être utilisés en même temps, vraisemblablement parce qu'il faudrait un fichier de trace pour chaque groupe. Stata est conscient de ce problème et nous espérons que cela sera bientôt changé. Pour les besoins de cet article, bien supprimer l'option by () quand vient le temps d'illustrer l'utilisation du fichier de trace. Si ce problème survient dans votre recherche, parlez nous de work arounds. Choix du nombre d'imputations Il ya un certain désaccord entre les autorités quant au nombre d'imputations qui sont suffisantes. Certains disent 3 10 dans presque toutes les circonstances, la documentation Stata suggère au moins 20, tandis que White, Royston et Wood soutiennent que le nombre d'imputations devrait être à peu près égal au pourcentage de cas avec des valeurs manquantes. Cependant, nous ne sommes pas au courant d'un argument selon lequel l'augmentation du nombre d'imputations cause jamais des problèmes (juste que le bénéfice marginal d'une autre imputation s'approche asymptotiquement de zéro). Augmenter le nombre d'imputations dans votre analyse ne prend essentiellement aucun travail de votre part. Il suffit de changer le nombre dans l'option add () à quelque chose de plus grand. D'autre part, il peut être beaucoup de travail pour l'imputation de l'ordinateur a introduit de nombreux chercheurs dans le monde des emplois qui prennent des heures ou des jours à courir. Vous pouvez généralement supposer que le temps requis sera proportionnel au nombre d'imputations utilisées (par exemple, si un fichier do prend deux heures pour être exécuté avec cinq imputations, il faudra probablement environ quatre heures pour exécuter dix imputations). Voilà donc notre suggestion: Commencez par cinq imputations (le bas de ce qui est largement considéré comme légitime). Travailler sur votre projet de recherche jusqu'à ce que vous êtes raisonnablement confiant que vous avez l'analyse dans sa forme finale. Assurez vous de tout faire avec les fichiers de sorte que vous pouvez l'exécuter à volonté. Notez combien de temps le processus prend, de l'imputation à l'analyse finale. Considérez combien de temps vous avez disponible et décidez combien d'imputations vous pouvez vous permettre d'exécuter, en utilisant la règle de pouce que le temps nécessaire est proportionnel au nombre d'imputations. Si possible, faire le nombre d'imputations à peu près égal au pourcentage de cas avec les données manquantes (une estimation haut de gamme de ce qui est nécessaire). Laissez le temps de récupérer si les choses vont mal, comme ils le font généralement. Augmenter le nombre d'imputations dans votre fichier de travail et le démarrer. Faites autre chose pendant que le fichier do s'exécute, comme écrire votre papier. Ajouter des imputations ne devrait pas changer vos résultats de manière significative et dans l'éventualité peu probable qu'ils le font, considérez vous chanceux d'avoir découvert cela avant de publier. Accélérer le processus d'imputation L'imputation multiple a introduit de nombreux chercheurs dans le monde des emplois qui prennent des heures, des jours ou même des semaines à courir. Habituellement, ce n'est pas la peine de passer votre temps à faire Stata code courir plus vite, mais l'imputation multiple peut être une exception. Utilisez l'ordinateur le plus rapide à votre disposition. Pour les membres de SSCC, cela signifie apprendre à exécuter des travaux sur Linstat, le cluster de calculs Linux de SSCC. Linux n'est pas aussi difficile que vous pouvez penser8212Utiliser Linstat a des instructions. L'imputation multiple implique plus de lecture et d'écriture sur le disque que la plupart des commandes Stata. Parfois, cela inclut l'écriture de fichiers temporaires dans le répertoire de travail courant. Utilisez l'espace disque le plus rapide disponible, à la fois pour votre jeu de données et pour le répertoire de travail. En général, l'espace disque local sera plus rapide que l'espace disque réseau, et sur le disque virtuel Linstat (un quotdirectoryquot qui est en fait stocké dans la RAM) sera plus rapide que l'espace disque local. D'un autre côté, vous ne voudriez pas stocker de façon permanente des ensembles de données ailleurs que l'espace disque du réseau. Donc, envisagez d'avoir votre fichier faire quelque chose comme ce qui suit: Windows (Winstat ou votre propre PC) Cela s'applique lorsque vous utilisez des données imputées ainsi. Si votre jeu de données est assez grand pour travailler avec elle après l'imputation est lent, la procédure ci dessus peut aider. Vérification de la convergence MICE est un processus itératif. Dans chaque itération, mi impute enchaîné estime d'abord le modèle d'imputation, en utilisant à la fois les données observées et les données imputées de l'itération précédente. Il tire alors de nouvelles valeurs imputées des distributions qui en résultent. Notez que, par conséquent, chaque itération a une certaine autocorrélation avec l'imputation précédente. La première itération doit être un cas particulier: dans ce cas, mi impute enchaîné estime d'abord le modèle d'imputation de la variable ayant le moins de valeurs manquantes en se fondant uniquement sur les données observées et tire les valeurs imputées pour cette variable. Il calcule ensuite le modèle de la variable avec les valeurs manquantes les plus récentes, en utilisant à la fois les valeurs observées et les valeurs imputées de la première variable, et se déroule de la même façon pour le reste des variables. Ainsi, la première itération est souvent atypique, et parce que les itérations sont corrélées, elle peut également rendre itératives ultérieures atypiques. Pour éviter cela, mi impute enchaîné par défaut passe par dix itérations pour chaque jeu de données imputé que vous demandez, en n'épargnant que les résultats de la dixième itération. Les neuf premières itérations sont appelées la période de burn in. Normalement, il s'agit d'un temps suffisant pour que les effets de la première itération deviennent insignifiants et que le processus converge vers un état stationnaire. Cependant, vous devez vérifier la convergence et augmenter le nombre d'itérations si nécessaire pour vous assurer qu'il utilise l'option burnin (). Pour ce faire, examinez le fichier de trace enregistré par mi impute enchaîné. Il contient la moyenne et l'écart type de chaque variable imputée dans chaque itération. Ceux ci varient au hasard, mais ils ne devraient pas montrer toute tendance. Un moyen facile de vérifier est avec tsline. Mais il faut d'abord remettre en forme les données. Notre modèle d'imputation préféré utilise par (). De sorte qu'il ne peut pas enregistrer un fichier de trace. Ainsi bien enlever par () pour le moment. Eh bien, augmentez l'option burnin () à 100 donc son plus facile de voir ce qu'est une trace stable ressemble. Eh bien, utilisez la forme et la ligne de droite pour vérifier la convergence: preserve mi impute enchaîné (logit) urbain (mlogit) race (ologit) edu (pmm) exp salaire femelle, ajouter (5) rseed (88) savetrace (extrace, replace) burnin 100) utiliser extrace, remplacer remodeler large moyenne sd, i (iter) j (m) tsset iter tsline expmean, titre (quotMean des valeurs imputées de l'expériencequot) note (quotEn ligne est pour une imputationquot) Png, replace tsline expsd, title (quotDéviation standard des valeurs imputées de l'expériencequot) note (quotLa ligne est pour une imputationquot) legende (off) graph export conv2.png, replace restore Les graphiques résultants ne montrent pas de problèmes évidents: Voir les signes que le processus peut ne pas avoir convergé après les dix itérations par défaut, augmentez le nombre d'itérations effectuées avant d'enregistrer les valeurs imputées avec l'option burnin (). Si la convergence n'est jamais atteinte, cela indique un problème avec le modèle d'imputation. Vérification des valeurs imputées Après l'imputation, vous devez vérifier si les données imputées ressemblent aux données observées. Malheureusement il n'y a pas de test formel pour déterminer ce qui est assez proche. Bien sûr, si les données sont MAR mais pas MCAR, les données imputées devraient être systématiquement différentes des données observées. Ironiquement, moins il y a de valeurs manquantes à imputer, plus il y aura de variation entre les données imputées et les données observées (et entre les imputations). Pour les variables binaires et catégoriques, comparez les tableaux de fréquence. Pour les variables continues, comparer les moyennes et les écarts types est un bon point de départ, mais vous devriez regarder la forme globale de la distribution ainsi. Pour cela, nous proposons des graphiques de densité du noyau ou peut être des histogrammes. Examinez chaque imputation séparément plutôt que de regrouper toutes les valeurs imputées afin que vous puissiez voir si l'une d'elles a mal tourné. Le préfixe mi xeq: indique Stata d'appliquer la commande suivante à chaque imputation individuellement. Elle s'applique également aux données originales, l'imputation quotzeroth. Ainsi: mi xeq: tab race vous donnera six tables de fréquences: une pour les données originales et une pour chacune des cinq imputations. Cependant, nous voulons comparer les données observées uniquement aux données imputées, et non à l'ensemble des données. Cela nécessite l'ajout d'une condition if aux commandes de tabulation pour les imputations, mais pas aux données observées. Ajouter un nombre ou une liste pour que mi xeq agisse sur des imputations particulières: mi xeq 0: tab race mi xeq 15: race d'onglets si missrace Cela crée des tables de fréquences pour les valeurs observées de la race puis les valeurs imputées dans les cinq imputations. Si vous avez un nombre significatif de variables à examiner, vous pouvez facilement faire une boucle sur eux: foreach var de varlist urbaine course edu mi xeq 0: onglet var mi xeq 15: onglet var if missvar Pour les résultats voir le fichier journal. L'exécution de statistiques sommaires sur des variables continues suit le même processus, mais la création de graphes de densité du noyau ajoute une complication: vous devez soit enregistrer les graphiques ou vous donner une chance de les regarder. Mi xeq: peut exécuter plusieurs commandes pour chaque imputation: il suffit de les placer toutes en une ligne avec un point virgule () à la fin de chacune. (Cela ne fonctionnera pas si vous avez changé le délimiteur général de fin de commande en point virgule.) La commande sleep indique à Stata de faire une pause pendant une période spécifiée, mesurée en millisecondes. Mi xeq 0: kdensity salaire de sommeil 1000 mi xeq 15: kdensity salaire si missvar sommeil 1000 Encore une fois, ceci peut tous être automatisé: foreach var de varlist salaire exp mi xeq 0: somme var mi xeq 15: somme var si missvar mi xeq 0: Kdensity var sleep 1000 mxeq 15: kdensity var si missvar sleep 1000 Enregistrer les graphiques s'avère être un peu plus délicat, car vous devez donner au graphique de chaque imputation un nom de fichier différent. Malheureusement, vous ne pouvez pas accéder au numéro d'imputation dans mi xeq. Cependant, vous pouvez faire une boucle forvalues ​​sur les nombres d'imputation, puis avoir mi xeq agir sur chacun d'eux: forval i15 mi xeq i: kdensity exp si missexp graph export expi. png, replace Intégrant ceci à la version précédente donne: foreach var of Varlist salaire exp mi xeq 0: somme var mi xeq 15: somme var si missvar mi xeq 0: kdensité var graphique export chkvar0.png, remplacez forval i15 mi xeq i: kdensité var si missvar graphique export chkvari. png, replace Pour les résultats, voir le fichier de log . Il est gênant que, dans toutes les imputations, la moyenne des valeurs imputées du salaire soit supérieure à la moyenne des valeurs observées du salaire. Et la moyenne des valeurs imputées de exp est inférieure à la moyenne des valeurs observées de exp. Nous n'avons pas trouvé de preuve que les données sont MAR mais pas MCAR, donc attendons que les moyens des données imputées soient regroupés autour des moyennes des données observées. Il n'y a pas de test formel pour nous dire définitivement s'il s'agit d'un problème ou non. Cependant, il devrait soulever des soupçons et si les résultats finaux obtenus avec ces données imputées diffèrent des résultats de l'analyse complète des cas, il soulève la question de savoir si la différence est due à des problèmes avec le modèle d'imputation. Dernière révision: 8232012Stata Caractéristiques Économétrie financière Utilisation de Stata par Simona Boffelli et Giovanni Urga fournit une excellente introduction à l'analyse des séries chronologiques et comment le faire dans Stata pour financier. La région Moyen Orient et Afrique du Nord (MENA) souffre à la fois de la disponibilité des données et de la qualité des données. Tout effort pour recueillir, nettoyer et présenter des données sur la région est un bien. La 4ème réunion du Groupe des Utilisateurs Stata de la Pologne aura lieu le lundi 17 octobre 2016 à la SGH Warsaw School of Economics, Varsovie, Pologne. L'objectif du Stata Users Group Meeti. Rain Data: Utilisation de Stata pour automatiser la création et l'étiquetage de chaque variable via looping Souvent dans le travail de données on trouve que le même travail doit être fait à nouveau et. La 22ème Réunion du Groupe Utilisateurs Stata de Londres aura lieu les jeudi 8 et vendredi 9 septembre 2016 au Cass Business School de Londres. La réunion du London Stata Users Group. Derniers cours de Stata Ce cours de 2 jours fournit une revue et un guide pratique de plusieurs grandes méthodologies économétriques fréquemment utilisées pour modéliser les faits stylisés de la série chronologique financière via des modèles ARMA, des modèles GARCH univariés et multivariés, l'analyse de gestion des risques et la contagion. La démonstration des techniques alternatives sera illustrée à l'aide de Stata. Les séances pratiques du cours comprennent les données sur les taux d'intérêt, les prix des actifs et les séries chronologiques. Le cours est dispensé par le professeur Giovanni Urga, auteur de l'Économétrie financière en utilisant Stata Boffelli, S et Urga, G (2016), Stata Press: TX. Les modèles linéaires définissent un résultat à partir d'un ensemble de prédicteurs d'intérêt en utilisant des hypothèses linéaires. Les modèles de régression étant un sous ensemble de modèles linéaires, sont un des outils, sinon les plus fondamentaux qu'un statisticien peut avoir. Ce cours couvre l'analyse de régression, les moindres carrés, l'inférence en utilisant des modèles de régression et des méthodes d'estimation robustes. Ce cours vous fournira des outils avancés pour la gestion des données et l'automatisation complète de votre flux de travail à l'aide de Stata. Ce cours de deux jours commence par l'examen des principales commandes de gestion des données disponibles dans Stata et continue en illustrant comment les combiner avec les constructions de programmation Stata et vous apprendrez à coder en utilisant des programmes Stata simples. Ce cours fournira aux participants les outils essentiels, théoriques et appliqués, pour une bonne utilisation des méthodes micro économétriques modernes pour l'évaluation des politiques et la modélisation causale contrefactuelle sous l'hypothèse d'une sélection sur les observables. Le deuxième de deux cours a été conçu comme une introduction aux méthodes bayésiennes pour l'analyse empirique. Nous commencerons par un certain nombre de questions théoriques, notamment l'échangeabilité, l'analyse antérieure postérieure, la comparaison de modèles et les tests d'hypothèses, ainsi que des modèles de données manquantes. Nous examinerons également le problème fondamental de l'élicitation préalable. Besoin d'un devis


No comments:

Post a Comment