티스토리 뷰
[ 밑줄/연결 ]
(머신러닝을 사용해야 할 때)
자칫 머신러닝을 사용하여 모든 문제를 해결하려고 하는 것은 과욕이 될 수 있다.
(문제가 너무 복잡해서 코딩으로 해결할 수 없을 때)
ㅇ 문제가 너무 복잡하거나 너무 커서 문제를 해결하기 위한 모든 규칙을 작성할 수 없는 상황에서 부분 해결이 가능하고 이러한 해결 방법이 효과적인 경우
ㅇ 너무 많은 조건과 예외가발생하여 결국 해당 코드를 유지보수하기가 어려워 짐
ㅇ ex) 스팸검출
ㅇ ex) 대출자가 대출금을 제대로 상환할지 여부를 예측하는 문제: 나이, 급여, 계좌 잔고, 과거 납입 정도, 결혼 여부, 자녀 수, 자동차 보유, 부동산 담보 대출 잔소 등 수백 개의 숫자가 각 대출자를 나타냄. 이 중 일부는 결정을 내리는 데 중요하고, 일부는 덜 중요하지만 매개 변수가 너무 많아 인간이 서로 상호 연관성을 찾기 어려움. 사람을 설명하는 모든 속성에 대한 매개변수를 최적의 방식으로 결합하여 예측하는 방법이 명확하지 않기 때문임
(문제가 지속적으로 변할 때)
ㅇ 변할 수 있으면 코드를 정기적으로 업데이트 해야 함. --> 엔지니어의 업무 부담 가중, 오류 발생 가능성 증가, 논리 유지/결합의 어려움, 업데이트 솔루션의 테스트와 배포에 비용 발생 등
(지각 문제일 때)
ㅇ 음성, 이미지, 동영상 인식과 같은 직관력이 필요한 문제 해결
(연구되지 않은 현상일 때)
ㅇ 잘 연구되지는 않았지마 관찰 가능한 견본이 있는 어떤 상황을 예측해야 하는 경우
ㅇ ex) 환자의 유전, 감각 데이터를 바탕으로 개인화된 정신건강 약물 선택 항목을 제공할 수 있음 < -- 머신러닝으로 수천 명의 환자를 분석하여 데이터의 패턴을 발견할 수 있고, 어떤 약물 분자가 특정 환자에게 도움이 될 가능성이 가장 높은지 예측할 수 있음
ㅇ ex) 복잡한 컴퓨팅 시스템과 네트워크의 로그. 머신러닝은 로그에 숨겨진 패턴을 학습하고 각 프로세스에 대해 아무것도 알지 못해도 예측할 수 있음
ㅇ ex) 관찰된 행동을 바탕으로 사람에 대한 예측을 하는 것은 어렵다. 사람의 뇌 모델이 없어. 하지만 그 사람의 생각을 표현하는 견본을 쉽게 이용하여 예측할 수 있다. 게시글, 댓글 등 SNS를 통해 어떤 사람에 대한 표현만으로 그 사람에게 콘텐츠를 추천하거나 다른 사람과 인맥 연결을 추천할 수 있음
(문제의 목적이 단순할 때)
ㅇ 머신러닝은 '예/아니오' 결정이나 단일 숫자 형태의 간단한 목표로 정의할 수 있는 문제 해결에 특히 적합
(비용 효율적인 경우)
ㅇ 머신러닝의 세 가지 주요 비용 요인
- 데이터 수집, 준비, 정제
- 모델 훈련 : 값비싼 HW + 인적 노동력 포함
- 모델을 서비스하고 모니터링 하기 위한 인프라 구축, 운영, 이를 유지하기 위한 인력 자원 : 모델을 지속적으로 모니터링하고 모델을 최신 상태로 유지하기 위한 추가 데이터 수집도 포함
머신러닝 엔지니어링이란 데이터 수집부터 모델 훈련, 제품이나 고객이 모델을 사용할 수 있도록 하는 모든 단계를 포함
(데이터 분석가): 비즈니스 문제를 이해하고 이를 해결하기 위한 모델을 구축하고 제한된 개발 환경에서 모델을 평가하는 데 관심이 있다.
데이터 수집, 변환, 특징 공학과 같은 일부 머신러닝 엔지니어링 작업을 수행
(머신러닝 엔지니어) 다양한 시스템과 위치에서 데이터를 조달하고, 전처리하고, 특징을 얻기 위해 프로그래밍하고, 효과적인 모델을 훈련하는 데 관심이 있다.
학습 알고리즘 선택, 초매개변수 조정, 모델 평가를 포함한 일부 데이터 분석 잡업을 수행
일반적으로 프로그램 동작이 결정되는 기존 SW와 달리 머신러닝 애플리케이션은 시간이 지남에 따라 자연적으로 성능이 저하되거나 갑자기 비정상적으로 작동할 수 있는 모델을 포함하고 있다.
(머신러닝 프로젝트 수명 주기)
(목표 정의)
머신러닝의 목표는 통계 모델이 입력받는 것, 출력으로 생성하는 것, 모델의 허용 가능한(또는 허용되지 않는) 동작의 기준을 지정하는 것이다.
(머신러닝의 비용)
다음의 세 가지 요소가 머신러닝 프로젝트의 비용에 큰 영향을 미친다.
ㅇ 문제의 난이도
- 구현된 알고리즘 또는 문제를 해결하는 SW 라이브러를 사용할 수 있는지 여부(사용 가능한 경우 문제가 크게 단순화됨)
- 모델을 구축하거나 실제 환경(운영 환경)에서 실행하는 데 높은 계산 성능이 필요한지 여부
ㅇ 데이터 비용
- 데이터를 자동으로 생성할 수 있는지 여부(자동 생성이 가능한 경우 문제가 크게 단순화됨)
- 데이터의 수동 주석 처리(annotation) 비용은 얼마 인가(즉, label 없는 견본에 레이블 할당)
- 얼마나 많은 견본이 필요한가(알려진 발표 결과나 조직의 자체 경험을 통해 추정할 수 있음)
ㅇ 요구하는 정확도(원하는 모델의 정확도)
- 머선러닝 프로젝트의 비용은 요구되는 정확도에 따라 초선형적으로 증가함. 정확도가 낮은 모델을 운영환경에 배포하면 큰 손실이 발생함
(머선러닝 프로젝트가 실패하는 이유)
'17년 ~ '20년까지 추정치에 따르면 머신러닝 및 고급 분석 프로젝트의 74% ~ 87%가 실패하거나 생산에 도달하지 못한 것
(숙력된 개발자 부족)
ㅇ 아직 머신러닝을 가르치는 표준적인 방법이 정립되어 있지 않음
ㅇ 많은 개발자들이 실험실에서 장난감 수준의 데이터 세트를 통해 머신러닝에 대한 피상적 수준의 전문 지식 보유 중
(경영진의 지원 부족)
ㅇ 서로 다른 목표, 동기, 성공 기준
ㅇ Agile조직에서 SW 엔지니어링팀은 예상 결과물이 명확하게 정의되어 있고 명확한 목표가 있는 스프린트로 작업함
ㅇ 데이터 과학자는 높은 불확실성 속에서 여러 가지 실험을 진행. 결과물을 얻지 못할 수도 있고, 모델을 구축하고 배포한 후에 전체 프로세스를 다시 시작해야 하는 경우도 많음
ㅇ 리더들은 이런 데이터 과학자의 작업을 시간과 자원 낭비로 인식할 수도 있음
ㅇ 리더들은 인공지능이 어떻게 동작하는지 모르거나 여기저기서 얻은 인공지능에 대한 매우 피상적이거나 지나치게 낙관적인 이해도를 가지고 있음.
ㅇ 충분한 자원, 기술, 인적 자원을 통해 인공지능이 단시간에 모든 문제를 해결할 수 있다는 사고 방식을 가지고 있음
ㅇ 결과적으로 빠른 진보가 이뤄지지 않으면 그들은 쉽게 데이터 과학자를 비난함
ㅇ 인공지능 담당 조직의 데이터 과학자가 이해 관계자들에 솜씨 좋게 인공지능을 이해시킬 줄 알고, 인공지능과 분석을 담당하는 최고위 관리자는 관련 기술이나 과학적 배경을 많이 가지고 있어야 함
(데이터 인프라 부족)
ㅇ 데이터 품질은 머신러닝 프로젝트의 성공에 매우 중요
ㅇ 기업의 데이터 인프라는 훈련 모델을 위한 양질의 데이터를 간단히 얻을 수 있어야 한다. + 모델이 운영 환경에 배포되면 유사한 품질의 데이터를 사용할 수 있어야 함
(데이터 레이블링의 어려움)
ㅇ 76%에 달하는 인공지능과 데이터 과학자팀은 자동화 시스템의 도움 없이 스스로 훈련 데이터에 레이블링 하고, 63%는 자체적으로 레이블링과 주석 자동화 기술을 구축하고 있음
ㅇ 데이터 레이블링 도구 개발에 상당한 시간을 소비. 해결해야 하는 가장 큰 어려움
ㅇ 보통 데이터 레이블링을 3rd Party에 아웃소싱함. 공식적이고 표준화된 교육에 투자해야 함.
(고립된 조직과 협업 부족)
ㅇ 신뢰와 협업이 부족하면 한 부서에서 다른 부서에 저장된 데이터에 접근해야 할 때 마찰이 발생함
(기술적으로 실행 불가능한 프로젝트)
ㅇ 초기에는 팀 간의 간단한 협업으로 범위를 쉽게 정할 수 있는 달성 가능한 프로젝트에 집중하고 간단한 비즈니스 목표를 세우는 것이 가장 좋음
[ 자평 ] 경험해 보진 못했다 해도, '알고 좀 떠들자'를 각오했기에 읽어 본 책
주워 들은 것은 있어 뭐라도 할려면 AI로 하라는 멍청이들을 볼 때 이 책이 생각난다.
'무엇이 되고 무엇이 안되는지?'의 그 한계점
'무엇이 어렵고 무엇이 쉬운지?'의 상대적 기준선을 알고 싶었고 충분히 알려 줬다.
'지능 > 인공지능' 카테고리의 다른 글
실무가 보이는 머신러닝 딥러닝 by 마창수 (1) | 2023.06.11 |
---|---|
난생처음 인공지능 입문 by 서지영 (0) | 2023.06.11 |
AI혁명의 미래 by 정인성 (0) | 2023.03.12 |
AI상식사전 by 한규동 (0) | 2023.03.05 |
처음 배우는 머신러닝 by 김승연, 중에서 (0) | 2023.03.01 |
- Total
- Today
- Yesterday
- 돈
- 참을 수 없는 존재의 가벼움
- Ai
- 파괴적 혁신
- 개발자가 아니더라도
- 부정성 편향
- 경계의 종말
- 스케일의 법칙
- 혁신
- 고도를 기다리며
- 경영혁신
- 함께 있으면 즐거운 사람
- 안나 카레니나
- 디지털 트랜스포메이션 엔진
- 제로 성장 시대가 온다
- 전략에 전략을 더하라
- 머신러닝 디자인 패턴
- 직감하는 양자역학
- 데브옵스 도입 전략
- 함께 있으면 피곤한 사람
- 최진석
- 플랫폼의 시대
- 당신은 AI를 개발하게 된다
- 인공지능
- 불교
- 상대성이론
- 사회물리학
- 양자역학
- 복잡계의 새로운 접근
- 이노베이션
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |