Modèle linéaire généralisé sur r

si demandé (par défaut) le vecteur y utilisé. (C`est un vecteur même pour un modèle binomiale.) Ce que cela fait est d`adapter un modèle de probabilité maximale à nos données. C`est un modèle qui fournit des probabilités pour chaque Datum et le produit de toutes les probabilités prévues est moins surprenant (de sorte que le modèle tend à prédire des valeurs élevées sur y = vrais exemples et les valeurs faibles sur y = faux exemples). Comme on l`a vu dans la dérivation plus simple de la régression logistique, cela équivaut à trouver les a, b et c de telle sorte que maximiser le produit donné en multipliant dans un terme de la forme s (a + b * x1 + c * x2) pour chaque exemple positif et en multipliant dans un terme de la forme (1 – s (a + b * x1 + c * x2)) pour chaque exemple négatif. Ou dans les équations: la solution de vraisemblance maximale choisit a, b et c pour maximiser le produit suivant sur toutes les données de formation: nous pouvons obtenir les résidus de déviance de notre modèle à l`aide de la fonction des résidus: ce chapitre vous apprend comment les modèles linéaires généralisés sont un l`extension d`autres modèles dans votre boîte à outils de science des données. Le chapitre utilise également la régression de poisson pour introduire généraliser des modèles linéaires. La fonction ANOVA vous permet de spécifier un test facultatif. Les choix habituels seront „F” pour les modèles linéaires et „Chisq” pour les modèles linéaires généralisés. L`ajout du paramètre test = „Chisq” ajoute des valeurs de p à côté des déviances. Dans notre cas toutefois, pour le modèle basé sur la probabilité, le paramètre de dispersion est toujours fixé à 1. Il est ajusté uniquement pour les méthodes basées sur l`estimation de la quasi-probabilité, par exemple lorsque la famille = „quasi-poisson” ou „famille” = „quasi-binôme”. Ces méthodes sont particulièrement adaptées pour traiter la surdispersion.

Un prédicteur typique a la réponse de formulaire ~ termes où la réponse est le vecteur de réponse (numérique) et les termes est une série de termes qui spécifie un prédicteur linéaire pour la réponse. Pour les familles binomiales et quasi-binomiales, la réponse peut également être spécifiée comme un facteur (lorsque le premier niveau dénote l`échec et tous les autres succès) ou comme une matrice à deux colonnes avec les poteaux donnant le nombre de réussites et d`échecs. Une spécification de termes de la forme première + seconde indique tous les termes en premier ensemble avec tous les termes en second avec les doublons supprimés. Essayons d`abord un modèle simple d`additif où l`utilisation contraceptive dépend de l`âge, de l`éducation et des wantsMore: les résidus de déviance sont définis par la déviance. La déviance d`un modèle est donnée par nous pouvons voir que tous les termes étaient très significatifs quand ils ont été introduits dans le modèle. caractère, correspondance partielle autorisée. Type de poids à extraire de l`objet de modèle ajusté. Peut être abrégé.

Il y a quelques choses à expliquer ici. Tout d`abord, la fonction est appelée GLM et j`ai assigné sa valeur à un objet appelé lrfit (pour ajustement de régression logistique). Le premier argument de la fonction est une formule de modèle, qui définit la réponse et le prédicteur linéaire. Les GLMs permettent l`utilisation de modèles linéaires dans les cas où la variable de réponse a une distribution d`erreur qui est non-normale. Chaque distribution est associée à une fonction de liaison canonique spécifique.