티스토리 뷰

728x90

[ 밑줄/연결 ]

 

학습된 알고리즘을 사용하여 예측하는 과정을 '추론'이라고 한다. 하지만 모델 학습과 추론 사이에는 여러 단계가 있다. 모델을 패키지하여 업무 환경에 배포하고, 성능을 모니터링하며 드리프트 (Drift, 시간이 흐르면 모델의 성능 저하를 야기하는 입력 데이터의 변경 내용)가 발생하면 최신 상태로 갱신해야 한다. 현실의  AI는 이 모두를 효율적으로 운영할 수 있는 환경과 문화를 구축할 조직이 필요하다. 이렇게 머신러닝 수명 주기를 관리하는 새로운 방법을 ML옵스(MLOps)라고 한다.

 

사실  AI모델을 개발하는 일은  AI모델의 결과값에 대해 수용 가능한 한계치를 결정하는 일이기도 하다.

 

데이터 과학이 AI모델 개발에 필수적인 것만큼 비즈니스 결정도  AI개발에서 중요한 부분을 차지한다. 모델의 매개변수와 범위를 결정하고, 어느 시점까지 모델이 업무를 지원할 만큼 정확도가 올라갈지, 언제 어떻게 모델을 배포할지, 어떻게 성능을 모니터할지 결정하는 일은 AI모델 개발만큼 성공에 중요한 요소다.

 

기업의 중요한 데이터를 관리하는 사람은 출처에 대한 맥락을 이해하고 활용 범위와 환계를 알기 때문에 반드시 팀에 속해야 한다. 

 

가장 중요한 골디라스 문제는 빨리 해결할 수 있을 만큼 작아야 한다.....이 작은 문제를 대규모로 해결하는 데 성공하면 확장은 쉬워진다. 

 

좋은 골디락스 문제의 특징은 같은 문제를 해결한 과거 사례 데이터가 많이 축적되어 있다는 것이다. 오토테스크의 비밀 번호 재설정 요청이 여기에 꼭 들어맞는다. 

 

이미지를 모은 다음에는 이 데이터에 주석을 입력해야 했다...

모델을 훈련시킬 수 있는 주석 처리된 데이터가 충분히 모일 때까지 이 모든 작업을 사람이 해야 했다. 

데이터 품질은 주석의 정확성에 따라 달라진다. 주석을 다는 사람들이 완전하고 올바르게 작업을 수행하는지 확인하는 품질 관리 프로세스가 있어야 한다. 그렇지 않으면 AI모델의 정확성이 떨어진다. 

 

저렴한 데이터를 사용하면 돈은 절약되겠지만 모델을 개발하고 수정하는 과정에서 더 많은 비용이 소요된다. 그리고 수정 작업을 수행하는 비용이 좋은 데이터를 구입하는 초기 비용보다 휠씬 크다.

 

데이터 파이프라인을 개발할 때 가용성, 적용 범위, 출처, 춤질, 보안을 모두 고려해야 한다. 파이프라인의 모든 단계는 일관되고 반복 가능하며 정확해야 한다. 정교하게 계획해 문서화시키고 반복하며 활용 가능한 파이프라인은 정기적으로 현장에서 AI모델이 성공하는 데 큰 도움이 될 것이다. 

 

내가 함께 일한 모든 팀에서 가장 큰 골치거리는 주석 처리된 데이터를 제대로 소싱하는 일이었다. 

 

새로운 팀의 구성원은 제품 담당자, 디자이너, 머신러닝 담당자 한 명씩과 프로트엔드 개발자와 백엔드 개발자였다.

 

전사적으로 바꾼 것 중 중요한 인사 문제는 인센티브였다....

우리는 기능적 목표가 전체 보너스에 기여하는 비중을 30%에 가깝게 줄이고 나머지는 팀의 모든 구성원이 회사 전체 매출을 공유하는 공통 인센티브로 대체했다. 그러자 회사의 조직은 휠씬 협업 위주의 시스템으로 돌아갔고 비즈니스 중심적인 고품질의 결과물을 얻을 수 있었다. 

 

AI모델만으로 해결할 수 있는 비즈니스 문제는 매우 드물다. 

대부분의 문제는 복잡하고 다층적이어서 데이터 파이프라인, 인프라, 사용자 경험, 비즈니스 위험 분석 등 다양한 기술이 필요하다. 달리 말해 머신러닝은 비즈니스 프로세스, 고객 경험, 제품에 통합되어야 하고 실제 제품으로 출시되어야만 의미가 있다. 

 

제일 먼저 채용하거나 팀에 영입해야 하는 사람은 제품 매니저나 비즈니스 분석가처럼 비즈니스 문제를 깊이 이해할 수 있는 사람이다.....팀의 계획을 관리하고 가치 창출을 이끄는 사람이다.

 

파이썬은 사용할 수 있는 자연어 처리 라이브러리가 다양했다. AI모델을 실제 환경에 배포할 때가 되었을 때 전체 모델을 스칼라라는 언어에 포팅해야 한다는 사실을 알았다. 스칼라는 확장성이 뛰어난 소프트웨어를 구축할 때 엔지니어들이 사용하는 프로그래밍 언어로 이 단계를 거쳐야 자바 환경에서 실행할 수 있었다.

 

AI를 도입하기 위해 기업에 가장 먼저 필요한 것은 교육이다.

모든 팀의 리더는 AI로 해결할 수 있는 자기 팀의 문제점을 파악할 수 있는 교육을 받아야 한다. 

 

데이터 내용이 변경됨에 따라 모델 성능이 저하되는 데이터 드리프트를 확인하려면 최소 한 달에 한 번은 모델을 갱신하는 것이 좋다. 

 

가장 중요한 것은 데이터 그 자체다.

 

모델의 학습, 테스트, 호스팅을 조정하는 플랫폼도 필요하다. 아마존, 구글, 마이크로소프트 같은 주요 클라우드 플랫폼은 모두 자동으로 모델을 학습시키고 테스트하고 조정하고 배포할 수 있는 머신러닝 플랫폼을 제공한다. 

 

머신러닝을 배포하는 동시에 편향도 같이 배포한다는 사실도 기억해야 한다. 기본적으로 AI모델을 만든다는 것은 인간 대신 판단할 크고 멋진 엔진에 편향과 의사결정을 인코딩하는 것이기 때문이다. 이런 엔진 개발에 참여할 때 우리에게는 책임 있게 행동해야 할 도덕적 의무가 있다. 

 

 

[ 자평 ] 해 본 사람이 책은 읽어 보면 다르다. 

 

댓글