Dữ liệu bảng được sử dụng nhiều trong các nghiên cứu gần đây đặc biệt trong kinh tế vi mô khi nghiên cứu về hộ gia đình, doanh nghiệp,...
Dữ liệu bảng là sự kết hợp dữ liệu theo "cá nhân" ( individual - mang nghĩa phổ quát) và theo thời gian. Do đó, khi các nhà phân tích cần theo dõi hay tìm hiểu các vấn đề dựa trên dữ liệu thời gian của hàng loạt các " cá nhân" thì phân tích dữ liệu bảng là phù hợp là phức tạp hơn so với các dữ liệu cross-section.

Trong phân tích dữ liệu bảng cơ bản, ta đi phân tích theo các hướng tiếp cận sau:
- Mô hình POOLED. Phân biệt mô hình pooled và mô hình biến giả cũng như kiểm định lựa chọn
- Mô hình các nhân tố ảnh hưởng cố định và mô hình ảnh hưởng ngẫu nhiên, phân biệt 2 mô hình cũng như kiểm định hausman dùng để lựa chọn mô hình phù hợp.
Việc phân tích này có thể được thực hiện ở các phần mềm phân tích dữ liệu như SPSS, Eviews, Stata, R,....
Trong bài viết này, các bước phân tích sẽ được minh họa thông qua phần mềm Stata.
Bước đầu tiên trong phân tích dữ liệu bảng khi chúng ta xác định được vấn đề nghiên cứucó dữ liệu bảng, do đó, tiếp cận theo phương thức phân tích dữ liệu bảng sẽ giúp xử lý các dữ liệu được thuận tiện hơn.
- Khi có dữ liệu, đầu tiên chúng ta và gắn dữ liệu vào phần mềm để phần mềm nhận dạng dữ liệu bảng, việc gắn dữ liệu vào phần mềm tùy thuộc vào từng phần mềm, đây hoàn toàn chỉ mang tính kỹ thuật trong phân tích.
+ Trong Eviews, có thể sử dụng chức năng restructure page\ undate structure ( lưu ý, không nhớ chính xác từ ngữ nhá :) ) --> thực hiện đưa tên biến individuals vào sau đó là tên thời biến thời gian ( vd : id nam)
+ Trong Stata, có thể thực hiện nhiều cách, đơn giản nhất là câu lệnh : xtset [individual- tên biến cá nhân] [time- tên biến thời gian].

". use C:\Users\PC\Desktop\fdi.dta
. xtset id yr
       panel variable:  id (strongly balanced)
        time variable:  yr, 2005 to 2011
                delta:  1 unit"
Một cách khác để khai báo trong stata về dữ liệu bảng, dùng 2 câu lệnh
iis [individual]
tis [timeseries]
1. Mô hình Pooled
Mô hình pooled thực chất là việc sử dụng dữ liệu bảng để phân tích bằng hình thức sử dụng tất cả dữ liệu bằng cách xếp chồng không phân biệt từng individual riêng. Tức là, mô hình này sử dụng dữ liệu như một phân tích OLS bình thường, sử dụng tập hợp thành đám mây dữ liệu để ước lượng tương quan trong mô hình.
Trong Stata:
regress fdi x1 x2 x3
.regress fdi x1 x2 x3

Source SSdf MSNumber of obs= 35
F( 3, 31)= 1.89
Model 4805.941023 1601.98034Prob > F= 0.1516
Residual 26259.291331 847.073914R-squared= 0.1547
Adj R-squared= 0.0729
Total 31065.232434 913.683305Root MSE= 29.105
fdi Coef.Std. Err. tP>t[95% Conf.Interval]
x1 5.0806395.377495 0.940.352-5.88683416.04811
x2 -1.860765.059891 -0.370.716-12.180488.458956
x3 11.238657.738756 1.450.156-4.5446527.02194
_cons -69.6419750.99462 -1.370.182-173.646234.36224

Trong Eviews: Có thể sử dụng vào menu object\ newobject\ pooled

2. Mô hình ảnh hưởng của các nhân tố cố định ( fixed effect model)

Việc sử dụng các nhân tố cố định để xem xét sự ảnh hưởng của nó đến mô hình có thể được xem xét giống như một mô hình OLS sử dụng biến giả, các biến giả đóng vai trò là các nhân tố cố định:
TH1: cố định individual
TH2: cố định time
TH3: cố định cả 2 nhân tố

Trong Stata, thực hiện câu lệnh: xtreg [DEV] [INDEV], fe
xtreg fdi x1 x2 x3, fe
Fixed-effects (within) regressionNumber of obs = 35
Group variable: idNumber of groups = 5
R-sq: within = 0.1094Obs per group: min = 7
between = 0.2505avg = 7.0
overall = 0.1434max = 7
F(3,27) = 1.11
corr(u_i, Xb) = -0.0792Prob > F = 0.3642
fdi Coef. Std. Err.t P>t [95% Conf. Interval]
x1 6.962278 5.7800321.20 0.239 -4.897369 18.82193
x2 .4011396 6.3062230.06 0.950 -12.53816 13.34044
x3 9.176508 10.486590.88 0.389 -12.3402 30.69322
_cons -83.36419 81.74524-1.02 0.317 -251.0916 84.36318
sigma_u 14.485612
sigma_e 27.735893
rho .21430929 (fractionof variance due to u_i)
F test that all u_i=0: F(4, 27) =1.78 Prob > F = 0.1612


R-sq: within: Đây là chỉ số biểu thị độ phù hợp của mô hình chưa điều chỉnh- sử dụng trong FEM
R-sq: between: Đây là chỉ số biểu thị độ phù hợp của mô hình nếu chúng ta sử dụng trung bình từng nhóm sau khi điều chỉnh dữ liệu phù hợp sử dụng trong REM
R-sq: overall: Chỉ số về độ phù hợp của mô hình sau khi điều chỉnh dữ liệu biến.

Chú ý rằng các hệ số ảnh hưởng của các biến là trung bình cộng các hệ số ảnh hưởng theo từng id khác nhau. Để xem xét cho từng id riêng ta thực hiện lệnh hồi quy theo mô hình có các biến giả của từng id ( chú ý rằng số biến giả = số id -1 ). Riêng trong phần mềm Eviews thì không cần khai báo biến giả.



 regress fdi x1 x2 x3 D1 D2 D3 D4 D5, noconst

      Source |       SS       df       MS              Number of obs =      35
-------------+------------------------------           F(  8,    27) =    7.19
       Model |   44261.575     8  5532.69687           Prob > F      =  0.0000
    Residual |   20770.553    27  769.279742           R-squared     =  0.6806
-------------+------------------------------           Adj R-squared =  0.5860
       Total |   65032.128    35   1858.0608           Root MSE      =  27.736

------------------------------------------------------------------------------
         fdi |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          x1 |   6.962278   5.780032     1.20   0.239    -4.897369    18.82193
          x2 |   .4011396   6.306223     0.06   0.950    -12.53816    13.34044
          x3 |   9.176508   10.48659     0.88   0.389     -12.3402    30.69322
          D1 |  -69.87496   73.94172    -0.95   0.353    -221.5908    81.84092
          D2 |  -92.39651   77.51531    -1.19   0.244    -251.4448    66.65175
          D3 |  -82.48445   92.54192    -0.89   0.381    -272.3648    107.3959
          D4 |  -69.28772   84.50002    -0.82   0.419    -242.6674     104.092
          D5 |  -102.7773   83.24263    -1.23   0.228    -273.5771    68.02247
------------------------------------------------------------------------------
hoặc có thể dùng lệnh sau:
 regress fdi x1 x2 x3 D1 D2 D3 D4 D5
note: D1 omitted because of collinearity

      Source |       SS       df       MS              Number of obs =      35
-------------+------------------------------           F(  7,    27) =    1.91
       Model |  10294.6793     7  1470.66847           Prob > F      =  0.1068
    Residual |   20770.553    27  769.279742           R-squared     =  0.3314
-------------+------------------------------           Adj R-squared =  0.1580
       Total |  31065.2324    34  913.683305           Root MSE      =  27.736

------------------------------------------------------------------------------
         fdi |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          x1 |   6.962278   5.780032     1.20   0.239    -4.897369    18.82193
          x2 |   .4011396   6.306223     0.06   0.950    -12.53816    13.34044
          x3 |   9.176508   10.48659     0.88   0.389     -12.3402    30.69322
          D1 |  (omitted)
          D2 |  -22.52155   15.26087    -1.48   0.152    -53.83427    8.791165
          D3 |  -12.60949   23.91759    -0.53   0.602    -61.68433    36.46535
          D4 |     .58724   19.40353     0.03   0.976    -39.22551    40.39999
          D5 |  -32.90233   18.42248    -1.79   0.085    -70.70214    4.897474
       _cons |  -69.87496   73.94172    -0.95   0.353    -221.5908    81.84092
------------------------------------------------------------------------------



Vậy với 2 mô hình đã đưa ra, kiểm định nào để lựa chọn mô hình tốt hơn :
-- Trước hết nói  hạn chế của 2 mô hình này: Mô hình POOLED với các giả định mạnh thường mang tính phi thực tế trong khi đó mô hình FEM lại làm giảm bậc tự do của mô hình đặc biệt khi số biến giả lớn ( id lớn - dữ liệu bảng rộng.)
-- Ta sử dụng kiểm định F cho 2 mô hình
F(n-1, nT-n-K)=[ (Ru2 - Rp2) / (n-1) ] / [ (1 - Ru2) / (nT - n - k) ]
Ru: unrestricted model ( mô hình không hạn chế) - mô hình có biến giả. Hệ số R được lấy từ mô hình có đầy đủ biến giả ( regress fdi x1 x2 x3 D1 D2 D3 D4 D5)
Rp: mô hình pooled.

n : là số id
nT: Tổng số quan sát
k: số biến độc lập

Giả thiết Ho : mô hình Pooled hiệu quả hơn.
Giá trị để so sánh là giá trị F(id-1,nT-id-k)với mức ý nghĩa được lựa chọn.

3. Mô hình tác động ngẫu nhiên ( ECM hay REM )
Mô hình tác động ngẫu nhiên là khi chúng ta quan tâm đến việc các khác biệt của mỗi cá nhân ảnh hưởng đên mô hình chung. Lệnh stata thực hiện : xtreg dev indev, re .
4. Kiểm định lựa chọn mô hình FEM hay REM
Việc lựa chọn mô hình nào phụ thuộc vào việc có hiện tượng tác động ngẫu nhiên của từng cá nhân vào mô hình hay chỉ có khác biệt của cá nhân đóng góp vào mô hình.
Kiểm định thực hiện là kiểm định Hausman.



























.................................................................................................................................................................

> The three R-squareds are:
> 
> 1) within:  The R-squared from the mean-deviated regression, 
> i.e. the ordinary r-squared from running OLS on the transformed data.
> 
> 2)between: first, this computes the fitted values using the 
> fixed-effects parameter vector and the within-individual 
> means of the indepdenent variables.  Then calculates the 
> r-squared as the squared correlation between those predicted 
> values and the within-individual means of the original y variable.
> 
> 3) overall: first, this computes the fitted values using the 
> fixed-effects parameter vector and the original, 
> untransformed independent variables.  Then calculates the 
> r-squared as the squared correlation between those predicted 
> values and the original, untransformed y variable.
> 
> 
> Seems to me like you would want the within R-squared, since 
> you are using the within estimator.
> 
> Justin Smith

0 comments:

Post a Comment