sol’s blog

머신러닝을 활용한 LC 부도 예측 모형의 ROE 향상 방법 연구

요약

연구 구조 및 목적
• 부도 에측 모형의 수익률(ROE) 극대화 방안을 탐색
• 투자자와 회사 모두의 이익을 극대화하는 방향으로 목표 설정
• 2단계 모델링 접근법 도입
신규 지표(P_ratio)새로운 목표 변수(prof_status) 제안
서론
• ROE 극대화를 목표로 설정한 이유를 코즈 정리(Coase theorem) 등을 통해 정당화
→ 기대효과로 부도 고위험 대출을 걸러내어 손실 최소화 및 이익 극대화를 도모할 수 있다고 제시
방법론
두 가지 접근법을 제시
1. 기존 부도 여부(loan_status) 예측 모델들 중 최고 성능(ROE 기준)을 찾는 방법
2. 새롭게 고안한 수익성 여부(prof_status) 를 예측하는 모델을 만드는 방법

두 방법 모두 2단계 모델 구조(1차 연속형 예측 + 2차 분류)를 시도했고, 1차 모델에서 상환비율 P_Ratio 를 예측하여 2차 분류모델의 입력으로 활용
결과
• validation dataset에서 방법2(prof_status 기반)의 최종 모델이 방법1보다 더 높은 ROE를 달성하여 최적임을 확인함
• CatBoost 회귀 + CatBoost 분류 조합의 2단계 모델이 가장 높은 ROE를 기록
⚠️ 다만, 최종 테스트 결과 ROE는 약 0.75%로 기대보다 낮아, 데이터 분포 차이와 일부 과적합 가능성을 확인했음
Callout icon'

ROE vs Sharpe Ratio

ROE

기업이 주주의 자본을 얼마나 효율적으로 사용해 수익을 냈는지

Sharpe Ratio

투자 포트폴리오의 위험 대비 초과 수익률을 측정하는 지표

섹션별 핵심 내용 요약

1. 서론

LC의 P2P대출 비즈니스 모델과 데이터 개요를 설명

연구 목적

  • LC 대출데이터를 활용해 대출 승인 여부를 결정하는 예측 모델을 개발
  • 특히, 투자자와 LC 전체이 ROE(Return on Equity)를 최대화하는 대출 분류 모델 구축을 목적으로 삼음
    • → 코즈 정리에 따라 거래비용이 낮고 재산구너이 명확할 경우 자원의 최적 배분이 가능하므로 LC와 투자자의 이익은 궁극적으로 일치한다는 논리

2. 본론

2.1 연구방법

방법 1: 전통적인 부도 여부(loan_status) 예측 모델들을 비교해 ROE가 가장 높은 모델을 구축하는 것

방법 2: 새로 정의한 수익성 여부(prof_status )를 예측하는 모델을 구축

→ 두 방법 모두 1차 회귀 + 2차 분류의 2단계 모델 구조를 채택

  1. 회귀모델
      • 대출 상환비율 p_ratio 예측
  1. 분류모델
      • 부도 여부 또는 수익성 여부를 예측

 
  • 2단계로 설계한 이유
    • 1단계에서 예측한 p_ratio를 특징으로 활용하면 대출 상환 정도에 대한 연속정보를 분류모형에 제공하여 성능 향상을 기대했기 때문
    • 2단계의 의미를 검증하기 위해, 동일 알고리즘의 1단계 분류모형(직접 부도분류)과 2단계 회귀-분류모형의 ROE 성능을 비교하여 p_ratio 활용의 유효성을 확인하겠다고 명시

  • 핵심 개념
    • 상환 비율
      p_ratio
      • 실제 상환금액 / 상환 의무금액
      • 애출 즉시 상환해 이자수익 0인 경우, 혹은 대출월에 곧바로 부도처리된 경우 등은 ROE 계산 불가하거나 무의미하여 제외
      ROE 계산
      (대출로 거둔 순이익) / (투자금)
      수익성 여부
      prof_status
      • 해당 대출이 투자 댇비 수익을 줬는가
      • 각 대출의 ROE가 같은 기간 국채 수익률보다 높으면 1, 낮거나 같으면 0

2.2 연구절차

EDA 및 전처리
  • 기간에 따른 정책 변화로 2017년 이후 공동대출 데이터 구조가 달라지는 문제가 관찰됨. 데이터 일관성을 위해 최종적으로 공동 대출 건을 제외하고 개인 대출만 분석 대상으로 삼았음
파생변수 생성
 
외부 데이터 결합
  • Fed가 공개한 우편번호별 평균 FICO 점수 자료를 매칭해 score_ave 변수로 추가
  • 미국 인구조사국의 American Community Servey(ACS) 2020 데이터를 이용해 해당 우편번호 지역의 지난 12개월간 소득 0인 가구 비율과 중위소득을 얻어 결합했고, S1501 테이블로 25세 이상 대학 이상 학력 비율을 계산하여 넣음.

모델
  1. 선형회귀
  1. 결정트리
  1. XGBoost
  1. LightGBM
  1. CatBoost
  1. XGBoost RF
  1. MLP
  1. 5-means 클러스터링 + 회귀

  • 성능평가 = 검증세트의 MSE 등을 기준으로

추천 글

BlogPro logo
Made with BlogPro

태그