Bài này được viết dựa trên  thảo luận cùng một số bạn sinh viên FPT khi các bạn băn khoăn về việc dùng phần mềm nào để phân tích dữ liệu, và các bạn sử dụng các phần mềm khác nhau để so sánh kết quả dẫn đến bối rối khi thấy kết quả có sự khác biệt nhau.

Trước khi bắt đầu thảo luận về các phần mềm phân tích dữ liệu chúng ta cần xác nhận lại một lần nữa về tác dụng của các phần mềm phân tích dữ liệu:
 1. Các phần mềm phân tích dữ liệu chỉ là công cụ giúp người phân tích thực hiện các ước lượng, tính toán nhanh chóng trong quá trình phân tích dữ liệu nghiên cứu.
2. Các phần mềm phân tích dữ liệu đều dựa trên các công thức toán học, thống kê, kinh tế lượng chung, các phần mềm chỉ có sự khác biệt khi xử lý về cách thức tính toán, thiết lập hay yêu cầu người dùng thực hiện khác nhau. Chính vì thế kết quả các phân tích dữ liệu bằng các model giống nhau trên các phần mềm khác nhau đều cũng cho các kết quả giống nhau, tất nhiên nếu có sự khác biệt thì sự sai biệt này khá nhỏ.

Phân loại các phần mềm phân tích dữ liệu:
1. Phần mềm nguồn mở: R, Octave, Python,...Đặc điểm chính của nhóm phần mềm này là việc yêu cầu người dùng phải có hiểu biết cao về kinh tế lượng, thống kê và khả năng lập trình vì trong phân tích đòi hỏi người dùng phải dùng các mã code để thực hiện các bước ước lượng và kiểm định hay phân tích các vấn đề cần thiết trong dữ liệu. Lợi thế lớn nhất của các phần mềm này là được phát hành miễn phí, các cộng đồng thảo luận lớn và đang có xu hướng sử dụng ngày càng nhiều.
2. Các phần mềm thương mại: SPSS, Eviews, Stata,..Là các phần mềm phải trả phí khá cao, tùy vào từng cách thức thu phí của các công ty phát hành. Việc sử dụng các phần mềm này khá tiện lợi với người dùng do được tối ưu trong phần mềm với các model hay công cụ có sẵn và được hỗ trợ mạnh từ các công ty cũng như forum của các phần mềm này.
SPSS ( AMOS): Được IBM phát hành, sử dụng tốt trong các ước lượng, khá tiện lợi và dễ sử dụng với người dùng mới, Amos sử dụng rất tốt trong phân tích mô hình cấu trúc tuyến tính. Tuy nhiên đối với các mô hình panel data hay timeseries chuyên sâu thì SPSS đòi hỏi người dùng phải sử dụng các script khá mệt. Đây là phần mềm được sử dụng rộng rãi và được nhiều người biết đến ở Việt Nam.
EViews: Được sử dụng rộng rãi ở Việt Nam, sử dụng rất tốt và giao diện khá thân thiện, đặc biệt trong các model về timeseries.
Stata: Ít được biết đến rộng rãi ở Việt Nam nhưng đang dần phát triển do tiện lợi trong phân tích một số mô hình mới phát triển hiện nay, rất tiện lợi trong phân tích dữ liệu bảng.

Bàn luận theo ý kiến cá nhân:
- Nên ưu tiên sử dụng các phần mềm nguồn mở vì lý do bản quyền.
- Không nên quá đặt nặng việc sử dụng phần mềm nào mà nên quan tâm đến mục tiêu phân tích trước hết, như đã nói ở trên, các phần mềm chỉ là sự khác biệt và tiện lợi cũng như update nhanh hơn nhau thôi, do đó lựa chọn phần mềm nào phụ thuộc vào sự quen thuộc của người phân tích và khả năng hiểu rõ mô hình để thực hiện chính xác trong phần mềm.
- Khi có sự khác biệt về kết quả trong mô hình giữa các phần mềm nên :
     + Xem lại các bước thực hiện trong phần mềm đã đúng chưa về model.
     + Xem lại công thức ước lượng trong model, các option sử dụng cho chính xác.

0 comments:

Post a Comment