{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": { "id": "xwFyEsosINqT" }, "outputs": [], "source": [ "import numpy as np\n", "import pandas as pd" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "id": "pKewSQysItJ-" }, "outputs": [], "source": [ "# https://www.statsmodels.org/stable/index.html\n", "import statsmodels.api as sm" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "id": "Lz-DyAtNWsJR" }, "outputs": [], "source": [ "# Download Dataset from https://www.dropbox.com/scl/fi/v7c1c8a3cnncuv1fo28es/Wages.xlsx?rlkey=vli12nwph687hvn9jskgf73a1&st=s862pfm6&dl=1\n", "# and add it to colab" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "id": "0zM8FGMJXJ70" }, "outputs": [], "source": [ "# wagesDf = pd.read_excel(\"./Wages.xlsx\")\n", "wagesDf = pd.read_excel(\"https://www.dropbox.com/scl/fi/v7c1c8a3cnncuv1fo28es/Wages.xlsx?rlkey=vli12nwph687hvn9jskgf73a1&st=s862pfm6&dl=1\")" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "colab": { "base_uri": "https://localhost:8080/", "height": 423 }, "id": "wsIgDGYcXT_z", "outputId": "ea121018-2592-4214-8f58-69fa61183858" }, "outputs": [ { "data": { "text/html": [ "
| \n", " | Wage | \n", "Educ | \n", "Age | \n", "
|---|---|---|---|
| 0 | \n", "17.54 | \n", "12 | \n", "76 | \n", "
| 1 | \n", "20.93 | \n", "10 | \n", "61 | \n", "
| 2 | \n", "12.94 | \n", "8 | \n", "75 | \n", "
| 3 | \n", "19.34 | \n", "6 | \n", "38 | \n", "
| 4 | \n", "24.12 | \n", "12 | \n", "59 | \n", "
| ... | \n", "... | \n", "... | \n", "... | \n", "
| 75 | \n", "25.64 | \n", "14 | \n", "74 | \n", "
| 76 | \n", "38.77 | \n", "21 | \n", "41 | \n", "
| 77 | \n", "21.87 | \n", "15 | \n", "75 | \n", "
| 78 | \n", "27.54 | \n", "20 | \n", "46 | \n", "
| 79 | \n", "23.66 | \n", "12 | \n", "49 | \n", "
80 rows × 3 columns
\n", "| \n", " | Wage | \n", "Educ | \n", "Age | \n", "
|---|---|---|---|
| count | \n", "80.000000 | \n", "80.000000 | \n", "80.000000 | \n", "
| mean | \n", "24.930500 | \n", "13.850000 | \n", "49.487500 | \n", "
| std | \n", "7.479982 | \n", "4.016107 | \n", "17.213473 | \n", "
| min | \n", "6.930000 | \n", "6.000000 | \n", "18.000000 | \n", "
| 25% | \n", "19.145000 | \n", "10.000000 | \n", "34.750000 | \n", "
| 50% | \n", "24.980000 | \n", "14.000000 | \n", "51.000000 | \n", "
| 75% | \n", "30.572500 | \n", "17.000000 | \n", "65.250000 | \n", "
| max | \n", "43.440000 | \n", "22.000000 | \n", "77.000000 | \n", "
| \n", " | Wage | \n", "Educ | \n", "Age | \n", "predictedWage1 | \n", "
|---|---|---|---|---|
| 0 | \n", "17.54 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "
| 1 | \n", "20.93 | \n", "10 | \n", "61 | \n", "19.344145 | \n", "
| 2 | \n", "12.94 | \n", "8 | \n", "75 | \n", "16.442142 | \n", "
| 3 | \n", "19.34 | \n", "6 | \n", "38 | \n", "13.540139 | \n", "
| 4 | \n", "24.12 | \n", "12 | \n", "59 | \n", "22.246147 | \n", "
| ... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
| 75 | \n", "25.64 | \n", "14 | \n", "74 | \n", "25.148150 | \n", "
| 76 | \n", "38.77 | \n", "21 | \n", "41 | \n", "35.305160 | \n", "
| 77 | \n", "21.87 | \n", "15 | \n", "75 | \n", "26.599152 | \n", "
| 78 | \n", "27.54 | \n", "20 | \n", "46 | \n", "33.854159 | \n", "
| 79 | \n", "23.66 | \n", "12 | \n", "49 | \n", "22.246147 | \n", "
80 rows × 4 columns
\n", "| \n", " | Wage | \n", "Educ | \n", "Age | \n", "predictedWage1 | \n", "predictedWage2 | \n", "
|---|---|---|---|---|---|
| 0 | \n", "17.54 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "26.621568 | \n", "
| 1 | \n", "20.93 | \n", "10 | \n", "61 | \n", "19.344145 | \n", "25.664811 | \n", "
| 2 | \n", "12.94 | \n", "8 | \n", "75 | \n", "16.442142 | \n", "26.557784 | \n", "
| 3 | \n", "19.34 | \n", "6 | \n", "38 | \n", "13.540139 | \n", "24.197784 | \n", "
| 4 | \n", "24.12 | \n", "12 | \n", "59 | \n", "22.246147 | \n", "25.537243 | \n", "
| ... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
| 75 | \n", "25.64 | \n", "14 | \n", "74 | \n", "25.148150 | \n", "26.494001 | \n", "
| 76 | \n", "38.77 | \n", "21 | \n", "41 | \n", "35.305160 | \n", "24.389135 | \n", "
| 77 | \n", "21.87 | \n", "15 | \n", "75 | \n", "26.599152 | \n", "26.557784 | \n", "
| 78 | \n", "27.54 | \n", "20 | \n", "46 | \n", "33.854159 | \n", "24.708054 | \n", "
| 79 | \n", "23.66 | \n", "12 | \n", "49 | \n", "22.246147 | \n", "24.899405 | \n", "
80 rows × 5 columns
\n", "| \n", " | Wage | \n", "Educ | \n", "Age | \n", "predictedWage1 | \n", "predictedWage2 | \n", "agePower2 | \n", "
|---|---|---|---|---|---|---|
| 0 | \n", "17.54 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "26.621568 | \n", "5776.0 | \n", "
| 1 | \n", "20.93 | \n", "10 | \n", "61 | \n", "19.344145 | \n", "25.664811 | \n", "3721.0 | \n", "
| 2 | \n", "12.94 | \n", "8 | \n", "75 | \n", "16.442142 | \n", "26.557784 | \n", "5625.0 | \n", "
| 3 | \n", "19.34 | \n", "6 | \n", "38 | \n", "13.540139 | \n", "24.197784 | \n", "1444.0 | \n", "
| 4 | \n", "24.12 | \n", "12 | \n", "59 | \n", "22.246147 | \n", "25.537243 | \n", "3481.0 | \n", "
| ... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
| 75 | \n", "25.64 | \n", "14 | \n", "74 | \n", "25.148150 | \n", "26.494001 | \n", "5476.0 | \n", "
| 76 | \n", "38.77 | \n", "21 | \n", "41 | \n", "35.305160 | \n", "24.389135 | \n", "1681.0 | \n", "
| 77 | \n", "21.87 | \n", "15 | \n", "75 | \n", "26.599152 | \n", "26.557784 | \n", "5625.0 | \n", "
| 78 | \n", "27.54 | \n", "20 | \n", "46 | \n", "33.854159 | \n", "24.708054 | \n", "2116.0 | \n", "
| 79 | \n", "23.66 | \n", "12 | \n", "49 | \n", "22.246147 | \n", "24.899405 | \n", "2401.0 | \n", "
80 rows × 6 columns
\n", "| \n", " | Wage | \n", "Educ | \n", "Age | \n", "predictedWage1 | \n", "predictedWage2 | \n", "agePower2 | \n", "predictedWage3 | \n", "
|---|---|---|---|---|---|---|---|
| 69 | \n", "25.13 | \n", "16 | \n", "18 | \n", "28.050153 | \n", "22.922107 | \n", "324.0 | \n", "11.536003 | \n", "
| 27 | \n", "12.39 | \n", "13 | \n", "19 | \n", "23.697149 | \n", "22.985891 | \n", "361.0 | \n", "12.651138 | \n", "
| 62 | \n", "6.93 | \n", "6 | \n", "21 | \n", "13.540139 | \n", "23.113459 | \n", "441.0 | \n", "14.777375 | \n", "
| 60 | \n", "18.11 | \n", "14 | \n", "21 | \n", "25.148150 | \n", "23.113459 | \n", "441.0 | \n", "14.777375 | \n", "
| 28 | \n", "16.37 | \n", "12 | \n", "22 | \n", "22.246147 | \n", "23.177243 | \n", "484.0 | \n", "15.788477 | \n", "
| ... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
| 48 | \n", "28.95 | \n", "20 | \n", "75 | \n", "33.854159 | \n", "26.557784 | \n", "5625.0 | \n", "19.752807 | \n", "
| 77 | \n", "21.87 | \n", "15 | \n", "75 | \n", "26.599152 | \n", "26.557784 | \n", "5625.0 | \n", "19.752807 | \n", "
| 67 | \n", "15.38 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "26.621568 | \n", "5776.0 | \n", "18.891302 | \n", "
| 0 | \n", "17.54 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "26.621568 | \n", "5776.0 | \n", "18.891302 | \n", "
| 50 | \n", "10.31 | \n", "9 | \n", "77 | \n", "17.893143 | \n", "26.685352 | \n", "5929.0 | \n", "17.995120 | \n", "
80 rows × 7 columns
\n", "| \n", " | Wage | \n", "Educ | \n", "Age | \n", "predictedWage1 | \n", "predictedWage2 | \n", "agePower2 | \n", "predictedWage3 | \n", "
|---|---|---|---|---|---|---|---|
| 69 | \n", "25.13 | \n", "16 | \n", "18 | \n", "28.050153 | \n", "22.922107 | \n", "324.0 | \n", "11.536003 | \n", "
| 27 | \n", "12.39 | \n", "13 | \n", "19 | \n", "23.697149 | \n", "22.985891 | \n", "361.0 | \n", "12.651138 | \n", "
| 62 | \n", "6.93 | \n", "6 | \n", "21 | \n", "13.540139 | \n", "23.113459 | \n", "441.0 | \n", "14.777375 | \n", "
| 60 | \n", "18.11 | \n", "14 | \n", "21 | \n", "25.148150 | \n", "23.113459 | \n", "441.0 | \n", "14.777375 | \n", "
| 28 | \n", "16.37 | \n", "12 | \n", "22 | \n", "22.246147 | \n", "23.177243 | \n", "484.0 | \n", "15.788477 | \n", "
| ... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
| 48 | \n", "28.95 | \n", "20 | \n", "75 | \n", "33.854159 | \n", "26.557784 | \n", "5625.0 | \n", "19.752807 | \n", "
| 77 | \n", "21.87 | \n", "15 | \n", "75 | \n", "26.599152 | \n", "26.557784 | \n", "5625.0 | \n", "19.752807 | \n", "
| 67 | \n", "15.38 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "26.621568 | \n", "5776.0 | \n", "18.891302 | \n", "
| 0 | \n", "17.54 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "26.621568 | \n", "5776.0 | \n", "18.891302 | \n", "
| 50 | \n", "10.31 | \n", "9 | \n", "77 | \n", "17.893143 | \n", "26.685352 | \n", "5929.0 | \n", "17.995120 | \n", "
80 rows × 7 columns
\n", "| \n", " | Wage | \n", "Educ | \n", "Age | \n", "predictedWage1 | \n", "predictedWage2 | \n", "agePower2 | \n", "predictedWage3 | \n", "predictedWage4 | \n", "
|---|---|---|---|---|---|---|---|---|
| 69 | \n", "25.13 | \n", "16 | \n", "18 | \n", "28.050153 | \n", "22.922107 | \n", "324.0 | \n", "11.536003 | \n", "26.543357 | \n", "
| 27 | \n", "12.39 | \n", "13 | \n", "19 | \n", "23.697149 | \n", "22.985891 | \n", "361.0 | \n", "12.651138 | \n", "22.267494 | \n", "
| 62 | \n", "6.93 | \n", "6 | \n", "21 | \n", "13.540139 | \n", "23.113459 | \n", "441.0 | \n", "14.777375 | \n", "12.274758 | \n", "
| 60 | \n", "18.11 | \n", "14 | \n", "21 | \n", "25.148150 | \n", "23.113459 | \n", "441.0 | \n", "14.777375 | \n", "23.802849 | \n", "
| 28 | \n", "16.37 | \n", "12 | \n", "22 | \n", "22.246147 | \n", "23.177243 | \n", "484.0 | \n", "15.788477 | \n", "20.967998 | \n", "
| ... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
| 48 | \n", "28.95 | \n", "20 | \n", "75 | \n", "33.854159 | \n", "26.557784 | \n", "5625.0 | \n", "19.752807 | \n", "34.996187 | \n", "
| 77 | \n", "21.87 | \n", "15 | \n", "75 | \n", "26.599152 | \n", "26.557784 | \n", "5625.0 | \n", "19.752807 | \n", "27.791130 | \n", "
| 67 | \n", "15.38 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "26.621568 | \n", "5776.0 | \n", "18.891302 | \n", "23.515267 | \n", "
| 0 | \n", "17.54 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "26.621568 | \n", "5776.0 | \n", "18.891302 | \n", "23.515267 | \n", "
| 50 | \n", "10.31 | \n", "9 | \n", "77 | \n", "17.893143 | \n", "26.685352 | \n", "5929.0 | \n", "17.995120 | \n", "19.239405 | \n", "
80 rows × 8 columns
\n", "| \n", " | Wage | \n", "Educ | \n", "Age | \n", "predictedWage1 | \n", "predictedWage2 | \n", "agePower2 | \n", "predictedWage3 | \n", "predictedWage4 | \n", "predictedWage5 | \n", "
|---|---|---|---|---|---|---|---|---|---|
| 69 | \n", "25.13 | \n", "16 | \n", "18 | \n", "28.050153 | \n", "22.922107 | \n", "324.0 | \n", "11.536003 | \n", "26.543357 | \n", "17.325188 | \n", "
| 27 | \n", "12.39 | \n", "13 | \n", "19 | \n", "23.697149 | \n", "22.985891 | \n", "361.0 | \n", "12.651138 | \n", "22.267494 | \n", "14.420408 | \n", "
| 62 | \n", "6.93 | \n", "6 | \n", "21 | \n", "13.540139 | \n", "23.113459 | \n", "441.0 | \n", "14.777375 | \n", "12.274758 | \n", "7.276959 | \n", "
| 60 | \n", "18.11 | \n", "14 | \n", "21 | \n", "25.148150 | \n", "23.113459 | \n", "441.0 | \n", "14.777375 | \n", "23.802849 | \n", "17.308629 | \n", "
| 28 | \n", "16.37 | \n", "12 | \n", "22 | \n", "22.246147 | \n", "23.177243 | \n", "484.0 | \n", "15.788477 | \n", "20.967998 | \n", "15.577878 | \n", "
| ... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
| 48 | \n", "28.95 | \n", "20 | \n", "75 | \n", "33.854159 | \n", "26.557784 | \n", "5625.0 | \n", "19.752807 | \n", "34.996187 | \n", "28.672466 | \n", "
| 77 | \n", "21.87 | \n", "15 | \n", "75 | \n", "26.599152 | \n", "26.557784 | \n", "5625.0 | \n", "19.752807 | \n", "27.791130 | \n", "22.402672 | \n", "
| 67 | \n", "15.38 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "26.621568 | \n", "5776.0 | \n", "18.891302 | \n", "23.515267 | \n", "17.979211 | \n", "
| 0 | \n", "17.54 | \n", "12 | \n", "76 | \n", "22.246147 | \n", "26.621568 | \n", "5776.0 | \n", "18.891302 | \n", "23.515267 | \n", "17.979211 | \n", "
| 50 | \n", "10.31 | \n", "9 | \n", "77 | \n", "17.893143 | \n", "26.685352 | \n", "5929.0 | \n", "17.995120 | \n", "19.239405 | \n", "13.529107 | \n", "
80 rows × 9 columns
\n", "