Optimizing Investment Strategy in Peer to Peer Lending
샤프비율 ⬆️ = 동일한 변동성 수준에서 더 높은 초과수익을 올리고 있음
| 데이터셋 구성 | LC이 2008년부터 2016년까지 발행한 모든 대출 기록 |
| 범주형 변수 처리 | 빈도가 2% 미만인 희소한 번주들은 “기타”로 통합하여 처리 |
| 데이터 분할 | train: validation: test = 70%: 15%: 15% |
모델 및 방법론
샤프 비율을 높이는 방법
- 포트폴리오의 기대 수익률을 높이거나
- 수익률의 변동성을 낮추는 것
→ 두 가지 방향의 모델 검토
- 대출의 연간 수익률을 예측하여 고수익 대출을 선별하는 접근(Linear Regression)
- 대출의 Default 확률을 예측하여 저위험 대출을 선별하는 접근(Logistic Regression + Neural Network)
- 변동성(표준편차) 추정 = 부트스트랩 시뮬레이션 활용
선형 회귀 모델을 통한 수익률 예측
- 손실함수 → 모델은 손실함수를 최소화하도록 학습
- : 샘플 수
- : i번째 대출의 실제 연간 수익률
- : i번째 대출의 j번째 피처 값
- : 정규화 항
- 라쏘의 경우, (L1)
- 릿지의 경우, (L2)
- : 정규화 항의 가중치
- 정규화가 없는 순수 선형 회귀 모델, L1 정규화를 적용한 라쏘 회귀, L2 정규화를 적용한 릿지 회귀의 세 가지 모델을 모두 학습시키고 비교
- 라쏘 = 파라미터를 희소화하여 중요 피처를 선별하는 효과
- 릿지 = 가중치의 크기를 작게 만들어 과적합을 완화
- 정규화 항의 가중치는 학습 데이터에 대한 교차 검증을 통해 최적값을 선택
→ 정규화된 선형 모델을 통해 각 대출의 예상 수익률을 얻고, 예측 수익률이 가장 높은 상위 1%의 대출들을 투자 포트폴리오로 선택
로지스틱 회귀 모델을 통한 디폴트 예측
각 대출이 정상 상환될지 채무불이행 될지 확률적으로 예측
- 로지스틱 회귀 모델
- 시그모이드 함수를 통해 default 확률 를 출력
- 손실함수: 실제 값과 예측 확률 사이의 로지스틱 우도손실에 정규화항을 더한 형태
- : i번째 대출의 실제 라벨(디폴트 여부)
- : 피처 벡터
- : 모델 파라미터 벡터
→ validation set에서 성능(샤프 비율 기준)이 가장 우수한 모델을 최종 선정하여 테스트에 사용
로지스틱 회귀 모델을 통해 각 대출이 default 될 확률 p 를 예측
→ 확률 값이 가장 낮은 상위 1%의 대출들을 선별하여 투자 포트폴리오를 구성
이는 디폴트 발생 가능성이 극히 낮은 대출들에 집중 투자하는 전략, 수익률의 분산을 줄이기 위한 접근
인공 신경망 모델을 통한 디폴트 예측
신경망 모델은 비선형 모델로서, 복잡한 피처 상호작용을 학습하여 분류 성능 향상을 도모
- PReLU 활성화 함수 적용
- 음수 입력에 대해 작은 기울기를 허용하는 활성화 함수
- 음수 영역의 정보 손실을 줄이고 분류 오류에 대한 패널티를 더 강하게 부여하므로 모델 일반화 성능을 향상시킴
포트폴리오 변동성 추정을 위한 부트스트랩
- 1000회 반복
- 원본 데이터에서 무작위 복원 추출 방식으로 표본을 생성
- 각 반복에서 새롭게 추출된 데이터셋을 얻음
- 생성된 표본 데이터셋에 대해 훈련된 모델로 최적의 포트폴리오(상위 1% 대출)을 선택
- 해당 포트폴리오의 연간 수익률을 계산하여 로 기록
- 1000개의 시뮬레이션으로부터 얻은 수익률 집합 의 표준편차 계싼
→ 이 값이 바로 모델이 선택한 포트폴리오의 수익률 변동성(연간) 추정치가 됨
실험 결과
기준 투자 전략(베이스라인) 설정
직관적인 기준 투자 전략과 비교
- 수익률 최대화 기준: B3 등급의 대출에만 투자하는 전략
- 위험 최소화 기준: A1 등급의 대출에만 투자하는 전략
로지스틱 회귀 모델 결과
- A1 등급만 고른 포트폴리오보다 다소 높은 이자율의 대출도 포함함으로써 평균 수익률을 끌어올렸지만, 그 과정에서 포트포리오 변동성은 오히려 약간 증가했음
LC의 등급 체계가 이미 다수의 위험요소를 반영한 정교한 지표라는 점
- A1 등급 대출 포트폴리오는 LC가 엄선한 가장 우량한 대출들로 이루어져 있어 매우 낮은 변동성을 보임
선형 회귀 모델 결과
- 라쏘 정규화를 적용한 선형 회귀 모델이 가장 뛰어난 결과를 보임
- 높음 연간 수익률을 올리면서도 변동성 증가는 최소화하여 위험 대비 수익 효율이 가장 우수한 포트폴리오를 구성하는 데 성공
신경망 모델 결과
- 제안한 투자 시나리오(상위 1% 유망 대출 선별) 하에서는 매우 높은 성능을 보임
종합 비교 및 Sharpe 비율 요약
- 수익률 예측 기반 선택이 효과적.
- 모델의 예측은 오로지 투자대상 선택에만 활용되고, 수익률은 실제 데이터에서의 성과로 계산
- 모델 학습
- Train Set으로 각 모델을 학습시킴
- 선형 회귀: 각 대출의 수익률을 예측
- 로지스틱 회귀 & 딥러닝(신경망): 각 대출의 디폴트 확률을 예측
- Validation Set에서 투자 포트폴리오 구성
- 모델을 Validation Set에 적용하여 각 대출에 대해 다음 값을 얻음
- 선형회귀: 예측된 수익률 값
- 로지스틱 회귀 & 딥러닝: 예측된 디폴트 확률
- 각 모델에서 나온 값으로 상위 1%의 대출을 선정
- 선형회귀는 예측된 수익률이 가장 높은 대출 상위 1% 선택
- 로지스틱 회귀 & 딥러닝은 예측된 디폴트 확률이 가장 낮은 상위 1% 선택
- Validation Set에서 포트폴리오 성과 평가
- 이렇게 선택한 포트폴리오의 실제 결과(label)를 이용하여
- 실제 연간 수익률 계산
- 부트스트랩을 통해 여러 번 반복해 선택된 포트폴리오의 표준편차 계산
- 위 결과를 이용해 Sharpe Ratio 계산