티스토리 뷰

728x90

[ 밑줄/연결 ]

 

(데이터)

문제: 쓰레기가 입력되면 쓰레기가 출력된다.

해법: 고유하면서 다루기 힘든 자료로 작업하라. 당신이 유일한 사용자라면, 그 가치와 상관없이 당신만의 것이 된다.

방법: 데이터를 정확히 구성하라. 정보성 레이블을 생성하라. 예측성 특성을 찾아라.

 

(SW)

 문제: 특화된 과제는 맞춤형 툴이 필요하다.

 해법: 자신만의 클래스를 만들라. 보편적인 라이브러르를 사용하면 여러 경쟁자가 몰려들게 된다. 

 방법: 당신만의 함수를 개발하라. 

 

(HW)

 문제: 머신러닝은 모든 수학 중 가장 많은 계산양을 요구하는 과제를 포함한다.

 해법: 가능하면 슈퍼컴퓨터를 구축하기 위해 국립 연구소와 손잡으라

 방법: 다중 처리 아키텍처의 관점에서 사고하는 방법을 배우라. 라이브러리를 코딩할 때마다 함수를 병렬로 호출되도록 구성하라.  양자 컴퓨터용 알고리즘을 개발하라....

 

(수학)

 문제: 수학적 증명은 수년, 수십 년 그리고 수백 년이 걸릴 수도 있다. 그러나 이 기간동안 기다려줄 투자가는 없다.

 해법: 실험적 수학을 사용하라. 어렵고 다루기 힘든 문제를 증명으로 풀지 말고 실험으로 해결하라. 

 방법: 투자 성공에 대한 수학적 증명은 없다. 연구를 이끌어나기기 위해 실험적 기법에 의존하라.

 

머신 러닝 기술의 유연성과 힘에도 어두운 면이 있다. 잘못 사용되면 머신 러닝 알고리즘이 통계적 요행을 패턴으로 혼동하게 된다. 이 사실이 금융을 특징짓는 낮은 신호 대 잡음 비율과 결합되면 부주의한 사용자들은 곧바로 거짓을 발견하게 된다. 

 

인간의 감정의 동물이라 두려움, 희망, 현안 등에서 자유롭지 못하므로 사실-기반의 결정을 내리기에 적합하지 못하고, 특히 이해가 상충되는 결정의 경우 더욱 그러하다. 이러한 상황에서는 기계를 방대한 자료로 훈련시켜 사실에 입각한 판단을 하게 하는 것이 더 현명할 수 있다. 

 

머신 러닝 알고리즘은 우리가 3차원에서 하는 정도로 간단하게 100차원에서의 패턴을 탐지해낸다......알고리즘은 매일 더 진화하지만, 우리는 그러지 못하낟. 인간은 느리게 학습하고, 이는 금융처럼 빠르게 변화하는 세상에는 단점이 된다. 

 

머신 러닝 알고리즘은 블랙박스?  투명하고, 잘 정의돼 있으며, 패턴 인식 함수다...

 

어떤 기법을 사용하더라도 데이터 구조, 레이블, 가중값 계산, 정적 변환, CV, 특징 추출, 특징 중요도, 과적합, 백테스트 등과 같은 공통된 해결 과제가 있다.

 

 

[ 자평 ]

 

이 분야를 하지 않는 내 경험과 지식을 뛰어 넘는 어려운 책이다....

필요한 부분만 우선 보았다. 

댓글