Triết lý sống

Phàm làm việc gì trước phải suy xét đến hậu quả của nó
Hành động của người quân tử là giữ tĩnh lặng để tu thân, cần kiệm để dung dưỡng đức độ. Không đạm bạc thì không thể có trí tuệ sáng suốt, không yên tĩnh thì không có chí vươn xa. Học thì phải cần yên tĩnh, muốn có tài năng phải học; không học thì không biết rộng, không có chí thì việc học không thành.

Mong muốn lan man thì không thể nảy sinh cái tinh túy, vội tìm cái hiểm hóc thì không nắm được cái thực tình. Thời gian tuổi tác qua nhanh, ý chí cùng ngày tháng trôi đi trở thành khô héo, phần lớn không tiếp cận được với thời đại, rồi buồn tủi nơi lều nát, sao còn khôi phục lại kịp cái chí hướng được nữa !

Tuesday, June 7, 2011

Phân tích biệt số

Hiện nay, bên cạnh phương pháp chuyên gia, các phương pháp dự báo rủi ro tín dụng doanh nghiệp dựa trên dữ liệu thống kê đang phát triển ngày càng mạnh mẽ cả về chiều rộng và chiều sâu. Từ mô hình xác suất tuyến tính LPM và phương pháp MDA đã được sử dụng từ những năm 1930, đến phương pháp hồi quy Logistic, Probit đang được ứng dụng rộng rãi từ những năm 1980 và gần đây thì xuất hiện các cách thức tiếp cận mới sử dụng phương pháp thống kê phi thông số (non-parametric) phức tạp như lân cận gần nhất K, mạng nơ ron thần kinh.

1. Mô hình xác suất tuyến tính

Mô hình xác suất tuyến tính (Linear probability model - LPM) là mô hình ước lượng đa biến dùng phương pháp bình phương tối thiểu OLS. Mô hình này gặp phải nhiều hạn chế:

* Sai số hồi quy không phân phối chuẩn.
* Phương sai thay đổi.
* Không thỏa mãn điều kiện cơ bản của xác suất trong khoảng 0 - 1.
* Tác động biên không đổi, trong khi bản chất của mô hình xác suất là tác động biên thay đổi theo từng giá trị của biến độc lập.

Chính vì vậy, mô hình này hầu như không còn được sử dụng trong dự báo rủi ro tín dụng .

2. Phân tích biệt số đa nhân tố MDA, Logit và Probit

Phân tích biệt số đa nhân tố (Multiple Disciminant Analysis - MDA) là dạng tổng quát của hàm phân biệt tuyến tính. MDA có các giả định cơ bản:

* Số lượng các nhóm rời rạc và được định nghĩa trước.
* Biến độc lập có phân phối chuẩn; tương quan giữa các biến độc lập thấp hoặc không tương quan.
* Ma trận hiệp phương sai của các nhóm là như nhau.
* Hàm phân biệt là tuyến tính.

Năm 1968, MDA đã được Altman sử dụng để dự báo khả năng phá sản rất hiệu quả. Tuy nhiên, từ những năm 1980 trở lại đây thì hồi quy Logistic lại được sử dụng rất phổ biến. Lý do là Logit không có bất cứ giả thiết nào về phân phối của các biến độc lập, kiểm định thống kê không phức tạp, có thể điều chỉnh hàm phi tuyến dễ dàng, các biến độc lập định tính thông qua việc thiết lập biến giả có thể chuyển thành định lượng.

Stone và Rasp (1991), Maddala (1991) trong các nghiên cứu của mình đã so sánh Logit với ước lượng OLS và cho cùng kết quả Logit thích hợp hơn OLS. Martin (1977), Press và Wilson (1978), Wiginton (1980) chỉ ra rằng Logit thì vượt trội hơn MDA; Yesilyaprak (2004) khi so sánh mạng nơ ron thần kinh với MDA và Logit cũng cho kết quả mạng nơ ron dự báo tốt nhất, thứ hai là Logit và sau cùng là MDA.

Mô hình Probit cũng phù hợp. Sự khác nhau trong giả thiết giữa mô hình Logit và Probit là mô hình Logit giả định hạng nhiễu phân phối chuẩn logistic, trong khi Probit giả định hạng nhiễu phân phối chuẩn thông thường. Tuy nhiên, sự khác biệt giữa Logit và Probit không đáng kể và không có ý nghĩa về mặt thống kê. Charles M. Friel trong nghiên cứu "Linear probability response models: Probit and Logit" đã chỉ ra vấn đề này.

3. Lân cận gần nhất K và mạng nơ ron thần kinh

Machine learning (nhiều tác giả dịch là "học máy") là một lĩnh vực của trí tuệ nhân tạo mà nó liên quan đến thiết kế và phát triển các thuật toán cho phép cải thiện khả năng thực thi các chức năng dựa trên cơ sở dữ liệu. Mục tiêu chính trong nghiên cứu machine learning là đưa ra những mô hình có kết quả được tạo ra một cách tự động từ những quy luật hay kiểu mẫu từ dữ liệu. Do đó, các mô hình này đòi hỏi phải có dữ liệu đầu vào lớn. Các nhóm thuật toán trong machine learning gồm supervised learning, unsupervised learning, semi-supervised learning, reinforcement learning, transduction và learning to learn. Mỗi nhóm này có một chức năng khác nhau, ở đây tác giả quan tâm đến nhóm supervised learning, mà các thuât toán của nó sau đây, đang được sử dụng để xếp hạng tín nhiệm trên thế giới như là những kỹ thuật riêng lẻ tốt nhất: lân cận gần nhất K (K-nearest neighbor) và mạng nơ ron thần kinh (neural network).

Lân cận gần nhất K một trong số những thuật toán machine learning đơn giản nhất. Thuật toán này phân loại dựa trên phương pháp chọn những quan sát gần nhau trong không gian véc tơ đa chiều của các biến độc lập thành một nhóm, mức độ gần nhau của các quan sát phụ thuộc vào K. K là một số nguyên dương và có đặc trưng là nhỏ. Tương tự đối với hồi quy, bằng cách phân giá trị của quan sát gần với trung bình giá trị của nhóm các quan sát nằm trong khoảng lân cận gần nhất K Giá trị của biến nào càng gần mức trung bình thì tỷ trọng của nó càng lớn.

Mạng nơ ron thần kinh là một kỹ thuật phân tích khác để xây dựng mô hình dự báo. Mạng nơ ron thần kinh có thể bắt chước và nhận thức được các trạng thái thực đối với dữ liệu đầu vào không đầy đủ hoặc dữ liệu với một số lượng biến rất lớn. Kỹ thuật này đặc biệt phù hợp với mô hình dự báo mà không có công thức toán học nào được biết để miêu tả mối quan hệ giữa các biến đầu vào và đầu ra. Hơn nữa nó hữu dụng khi mục tiêu dự báo là quan trọng hơn giải thích. Một trong những thuận lợi của mô hình mạng là nó có thể giải quyết mối quan hệ phi tuyến.

Nhiều nghiên cứu đã kết luận, mô hình ước lượng và dự báo dựa trên phương pháp lân cận gần nhất K và mạng nơ ron thần kinh tốt hơn mô hình Logit và Probit, sau đó mới là MDA và LPM. Nhưng do lân cận gần nhất K và mạng nơ ron thần kinh đòi hỏi dữ liệu đầu vào lớn, các phương pháp này cũng rất phức tạp và chưa phổ biến ở nước ta. Nên việc lựa chọn mô hình tốt thứ hai là hợp lý vì yêu cầu mẫu không quá cao, ít ràng buộc về mặt giả thiết, hiện đang được sử dụng rộng rãi trên thế giới.

Tóm lại, phương pháp xây dựng mô hình xếp hạng tín nhiệm hay rủi ro tín dụng dựa trên hàm Logistic là phương pháp phù hợp đối với các ngân hàng thương mại Việt Nam. Và để biết được hiệu quả của mô hình Logit có thể tốt đến mức độ nào, các doanh nghiệp nên dùng thử mô hình xếp hạng rủi ro tín dụng tự động mà Ban Quản Trị website đã lập ra dựa trên hồi quy Logistic nhằm dự báo xác suất doanh nghiệp không trả nợ quá hạn 90 ngày.

Lê Tất Thành - http://rating.com.vn/home
Ghi rõ nguồn Rating.com.vn khi trích lại các thông tin từ địa chỉ này

No comments:

Post a Comment