Accueil > Astuces...

Astuces...

Dernier ajout : 11 juillet.

Rassemblement hétéroclite d’astuces dans l’utilisation de certains logiciels, la réalisation de certains calculs statistiques, de feuilles de calcul prêtes à l’emploi ou bien encore de mémo à afficher à côté de son PC...

  • ggplot2 Représentation graphique du 90-90-90

    11 juillet

    L’objectif 90-90-90 des Nations unies dans le domaine de la lutte contre le VIH (90% des personnes infectées diagnostiquées, 90% des personnes diagnostiquées sous traitement, 90% des personnes sous traitement avec charge virale contrôlée) est le plus souvent représenté au travers du graphique ci-dessous.
    Ce graphique peut être facilement reproduit avec R et ggplot2 à l’aide de la fonction gg909090() du package JLutils disponible sur GitHub.
    Pour reproduire la figure précédente, il suffit d’entrer la commande : gg909090()
    On peut facilement modifier les valeurs ainsi que la couleur du (...)

  • GGally Représenter les coefficients d’un modèle avec ggplot2

    6 juin

    Le packge GGally qui fournit plusieurs fonctions permettant de réaliser certains graphiques particuliers avec ggplot2 vien de se doter d’une fonction ggcoef permettant de représenter aisément les coefficients d’un modèle statistique sous forme de graphique.
    Pour plus de détails, on pourra se référer à la vignette accompagnant le package.
    À noter également, une fonction tidy_detailed fournie dans l’extension JLutils et étendant la fonction tidy du package broom. Voir le chapitre consacré à la régression logistique sur (...)

  • Calculer proprement un âge sous R

    1er janvier 2015

    Le calcul d’un âge sous R n’est pas forcément aussi trivial qu’il n’y parait.
    Rappel sur les âges
    Il convient en premier lieu de rappeler les principaux âges utilisés les démographes :
    L’âge — on précise parfois âge chronologique — est une des caractéristiques fondamentales de la structure des populations. On l’exprime généralement en années, ou en années et mois, voire en mois et jours, pour les enfants en bas âge ; parfois en années et fractions décimales d’année. Les démographes arrondissent d’ordinaire l’âge à l’unité inférieure, l’exprimant ainsi en années révolues, ou années accomplies, le cas échéant en (...)

  • R Où couper un dendrogramme ?

    3 novembre 2013

    La fonction best.cutree est maintenant disponible dans la package JLutils.
    Dans le cadre d’une classification hiérarchique, il n’est pas toujours aisée de déterminer le nombre adéquat de classes à retenir.
    Le package FactoMineR, dans le cadre de sa fonction HCPC, suggère d’utiliser la partition ayant la plus grande perte relative d’inertie. La fonction best.cutree ci-dessous permet de calculer ce critère à partir de n’importe quel dendrogramme, qu’il ait été calculé avec hclust ou agnes.
    best.cutree
    hc : dendrogramme renvoyé par hclust ou agnes
    min : nombre minimum de classes
    max : nombre (...)

  • R Manipulation de données : quelques mini-fonctions

    2 novembre 2013

    Les fonctions na.rm et rm.unused.levels sont maintenant disponibles dans le package questionr (à partir de la version 0.3.0).
    Deux petites fonctions pour manipuler un tableau de données sous R.
    Suppression des valeurs manquantes
    na.rm
    na.rm est similaire à na.omit sauf qu’il est possible de spécifier les variables à prendre en compte.
    > df df x y z 1 1 0 a 2 2 10 3 3 NA b
    > na.omit(df) x y z 1 1 0 a
    > na.rm(df) x y z 1 1 0 a
    > na.rm(df, c(« x »,« y »)) x y z 1 1 0 a 2 2 10
    > na.rm(df, « z ») x y z 1 1 0 a 3 3 NA b
    Suppression des modalités inutilisées d’un (...)

  • R Représenter des effectifs dans le plan factoriel

    2 novembre 2013

    La fonction s.freq est maintenant disponible dans la package JLutils.
    Lorsque l’on réalise une analyse des correspondances multiples (ACM), il n’est pas rare que plusieurs observations soient identiques, c’est-à-dire correspondent à la même combinaison de modalités. Dès lors, ces observations seront projetées sur le même point dans le plan factoriel. Une représentation classique des observations ne permettra pas de rendre des effectifs de chaque point.
    Prenons un exemple :
    library(questionr) data(hdv2003) library(ade4) acm <- (...)

  • R Calculer les Odds Ratio d’une régression logistique binaire ou multinomiale

    29 octobre 2013

    La fonction odds.ratio est maintenant disponible dans le package questionr (à partir de la version 0.3.0).
    Lorsque l’on calcule une régression logistique avec glm(), la fonction summary() ne fournit pas directement les odds ratio. Bien que ces derniers soient aisés à calculer (voir http://www.ats.ucla.edu/stat/r/dae/..., il peut être utile d’avoir une fonction les renvoyant directement.
    Le constat est presque identique lorsque l’on réalise une régression multinomiale avec multinom() du package nnet. Mais cette fois-ci, les valeurs de p ne sont même pas accessibles via summary() (voir (...)

  • R Transformer les valeurs manquantes en un facteur

    29 octobre 2013

    La fonction addNAstr est maintenant disponible dans le package questionr (à partir de la version 0.3.0).
    Sous R, les valeurs manquantes sont renseignés via la valeur NA.
    Selon les fonctions, on peut indiquer à R de prendre en compte ou non ces valeurs manquantes.
    Dans le cas d’une variable de type facteur, on peut vouloir considérer ces valeurs manquantes comme une modalité supplémentaire. Cela se fait via la fonction addNA :
    df$x
    Dans ce cas particulier, R va ajouter un niveau supplémentaire au facteur x, ce niveau ayant pour nom la valeur manquante, c’est-à-dire NA.
    Si cela ne pose pas de (...)

  • Analyse de Séquences Représenter un tapis de séquences ordonnées selon un dendrogramme

    11 mars 2013

    La fonction seq_heatmap est maintenant disponible dans le package JLutils.
    Nicolas Robette a écrit un excellent article d’introduction à l’analyse de séquences sur le blog Quanti.hypotheses.org (voir L’analyse de séquences : une introduction avec le logiciel R et le package TraMineR).
    Il y montre notamment comment calculer une distance entre séquences, ce qui permet ensuite d’effectuer une classification hiérarchique pour regrouper les différentes séquences en un nombre limité de classes en fonction de leur proximité.
    Un des modes de représentation proposé par le package TraMineR est appelé “tapis”. (...)

  • R Rechercher et visualiser les doublons

    27 février 2013

    Pour identifier des données dupliquées dans R, on a usuellement recours à la fonction duplicated().
    Or, la fonction duplicated() retourne les positions des lignes dupliquées, à partir de la seconde occurence de chaque ligne :
    > (df <- data.frame(x=c("a","b","c","b","d","c"),y=c(1,2,3,2,4,3))) x y 1 a 1 2 b 2 3 c 3 4 b 2 5 d 4 6 c 3 > duplicated(df) [1] FALSE FALSE FALSE TRUE FALSE TRUE
    Si cela est fort utile pour supprimer les doublons (puisque seules les secondes occurrences sont identifiées), on peut avoir (...)

0 | 10

Retour haut de page
Site réalisé avec SPIP | Plan du site | Contact | Crédits | Mentions Légales | Suivre la vie du site RSS 2.0
Habillage visuel © Larma par Joseph Larmarange sous Licence Creative Commons Attribution 2.5 License