> Advertising=read.csv("Advertising.csv") > head(Advertising) X TV radio newspaper sales 1 1 230.1 37.8 69.2 22.1 2 2 44.5 39.3 45.1 10.4 3 3 17.2 45.9 69.3 9.3 4 4 151.5 41.3 58.5 18.5 5 5 180.8 10.8 58.4 12.9 6 6 8.7 48.9 75.0 7.2 > nrow(Advertising) [1] 200 > #(1) Existe-t-il une relation entre le budget publicitaire et les ventes ? > regr=lm(sales ~ TV+radio+newspaper,data=Advertising) > summary(regr) Call: lm(formula = sales ~ TV + radio + newspaper, data = Advertising) Residuals: Min 1Q Median 3Q Max -8.8277 -0.8908 0.2418 1.1893 2.8292 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.938889 0.311908 9.422 <2e-16 *** TV 0.045765 0.001395 32.809 <2e-16 *** radio 0.188530 0.008611 21.893 <2e-16 *** newspaper -0.001037 0.005871 -0.177 0.86 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.686 on 196 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956 F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16 > #F-statistic avec p-value très petit -> il y a une relation > > #(2) Quantifier la dépendance entre le budget publicitaire et les ventes. > #R-squared = 0.8972, presque 90% de la variabilité est expliquée par le modèle > > #(3) Quels médias contribuent aux ventes ? > #les valuerus p des coefficients suggèrent que seulement TV et radio sont importants, on peut vérifier en considerant la régression en utilisant seulement ces 2 predicteurs > summary(lm(sales ~ TV+radio,data=Advertising)) Call: lm(formula = sales ~ TV + radio, data = Advertising) Residuals: Min 1Q Median 3Q Max -8.7977 -0.8752 0.2422 1.1708 2.8328 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.92110 0.29449 9.919 <2e-16 *** TV 0.04575 0.00139 32.909 <2e-16 *** radio 0.18799 0.00804 23.382 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 1.681 on 197 degrees of freedom Multiple R-squared: 0.8972, Adjusted R-squared: 0.8962 F-statistic: 859.6 on 2 and 197 DF, p-value: < 2.2e-16 > #le Adjusted R-squared est augmenté, il suggére que effectivement seulement TV et radio sont importants > > #(4) Avec quelle précision pouvons-nous estimer l’effet de chaque moyen de communication sur les ventes ? > confint(lm(sales ~ TV+radio+newspaper,data=Advertising)) 2.5 % 97.5 % (Intercept) 2.32376228 3.55401646 TV 0.04301371 0.04851558 radio 0.17154745 0.20551259 newspaper -0.01261595 0.01054097 > confint(lm(sales ~ TV+radio+newspaper,data=Advertising),level=0.90) 5 % 95 % (Intercept) 2.42340953 3.454369213 TV 0.04345935 0.048069943 radio 0.17429853 0.202761502 newspaper -0.01074031 0.008665319 > > #(5)  Avec quelle précision pouvons-nous prévoir les ventes futures ? > #par exemple nous voulons prédire les vents après un investisement de 100000$, 20000$ et 1000$ respectivement pour TV, radio et journaux > budget=data.frame(TV=100000,radio=20000,newspaper=1000) > predict(regr,budget,interval="prediction") fit lwr upr 1 8348.966 7923.735 8774.198 > > #(6)  La relation est-elle linéaire ? > par(mfrow=c(2,2)) > plot(regr) > #la 1ère figure residual vs fitted suggère que la relation ne soit pas lineaire parce que les rediduals sont positifs pour valuers petites et grandes et negatives au milieu > #(7)  Existe-t-il une synergie entre les médias publicitaires ? > summary(lm(sales ~ TV*radio*newspaper,data=Advertising)) > #en utilisant * à la place de + on considère comme predicteurs pas seulement TV, radio et newspaper, mais aussi tous leur produits Call: lm(formula = sales ~ TV * radio * newspaper, data = Advertising) Residuals: Min 1Q Median 3Q Max -5.8955 -0.3883 0.1938 0.5865 1.5240 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.556e+00 4.655e-01 14.083 < 2e-16 *** TV 1.971e-02 2.719e-03 7.250 9.95e-12 *** radio 1.962e-02 1.639e-02 1.197 0.233 newspaper 1.311e-02 1.721e-02 0.761 0.447 TV:radio 1.162e-03 9.753e-05 11.909 < 2e-16 *** TV:newspaper -5.545e-05 9.326e-05 -0.595 0.553 radio:newspaper 9.063e-06 4.831e-04 0.019 0.985 TV:radio:newspaper -7.610e-07 2.700e-06 -0.282 0.778 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.9406 on 192 degrees of freedom Multiple R-squared: 0.9686, Adjusted R-squared: 0.9675 F-statistic: 847.3 on 7 and 192 DF, p-value: < 2.2e-16
 >#le résultat suggère qu'il y a une très forte synergie positive entre TV et radio. Un modèle meilleur pourrait être simplement un modèle qui utilise comme predicteurs TV et le produit TV*radio. > summary(lm(sales~TV+TV:radio, data = Advertising)) Call: lm(formula = sales ~ TV + TV:radio, data = Advertising) Residuals: Min 1Q Median 3Q Max -5.8735 -0.4321 0.1726 0.5796 1.7342 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.428e+00 1.360e-01 54.62 <2e-16 *** TV 1.558e-02 1.064e-03 14.64 <2e-16 *** TV:radio 1.233e-03 2.719e-05 45.34 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.966 on 197 degrees of freedom Multiple R-squared: 0.9661, Adjusted R-squared: 0.9657 F-statistic: 2804 on 2 and 197 DF, p-value: < 2.2e-16 >#on voit que son Adjusted R-squared est beaucoup meilleur que celui de la régression avec TV+radio >