티스토리 뷰

지능/인공지능

AI혁명의 미래 by 정인성

비즈붓다 2023. 3. 12. 17:50
728x90

[ 밑줄/연결 ]
 
2009년 NVIDA의  CUDA 사용을 전제로, 신경망 종류에 따라 5.3배에서 최대 15.3배의 학습 성능 향상이 있었던 것이다.
현재의 상용 인공신경망들도 학습이 한 달 이상 걸린다는 것을 생각해 보면 이게 얼마나 큰 진전인지 알 수 있다.
학습 속도는 시장 진출 타이밍 자체를 완전히 바꿔 놓는 문제이기 때문이다.
학습에 1년이 소요되는 신경망은 두 번망 실패해도 상용화까지 3년이 걸린다. 반면 학습 기간이 한 달이라면 1년에 12번은 해 볼 수 있었다.
 

 
STT의 발전을 가로막던 큰 문제는 다국어 지원 문제였다.
백인, 흑인, 황인 등 다양한 인종이 있지만 얼굴은 어느 정도 공통 요소가 존재한다.
하지만 음성인식은 다르다. 언어의 종류가 수십 가지다....
이런 문제를 해결한 것이 앞서 살펴봤던 LAS(Listen, Attend and Spell)이다. 
LSA는 기존 음성인식 기술의 복잡한 절차를 인간의 신경망 구조에 가깝게 더욱 단순화했다.
과거의 음성인식 기술은 음성 파일에서 사람 목소리를 골라내고(특성 추출)
이를 통해 발음을 글자로 만들어 낸 뒤(음향 모델)
해당 글자에 가장 가까운 단어를 사전에서 찾아내는(언어 모델)방식을 주로 사용했다.
 
하지만  Google의 LAS는 진정한 의미의 엔드 투 엔드 방식을 실현했다. 

 
연구자들은 언어에 대한 이해와 문장의 생성을 완전히 구분하지 않고 한 번에 학습하는 거대한 인공지능을 만들고자 했다.
그리고 오랜 시간에 걸쳐 이들의 노력이 드디어 빛을 발하게 되었다. 
OpenAI의  GPT-가 등장한 것이다.
 
파라미터의 개수 증가는 이 과정에서 지식이 저장될 공간을 늘려 주는 역할을 할 뿐이다.
 
트랜스포머는 RNN과 달리 문장이 단어 단위로 순차적으로 들어가지 않고 전체가 통째로 들어간다.
그리고 어텐션(Attention)이라고 불리는, 단어 간 연관성을 지시하는 그 자체로 학습 가능한 구조를 추가했다.
 
(좋은 AI의 두 가지 조건)
(1) 강인함(Robustness)
ㅇ 입력값에 노이즈나 약간의 변형이 있어도 결과가 안정적이어야 한다.
ㅇ 인공신경망이 입력값을 볼 때 본질과 본질이 아닌 부분을 구분하는 능력이다.
 
(2) 데이터 효율성(Data Efficient)
ㅇ 주어진 데이터 아래서 더 높은 정확도를 가지게 만드는 게 역시 매우 중요한 일이다.
 

 

 
난감한 것은 정확도를 높이는 데에 필요한 대가가 기하급수적으로 불어난다는 점이다.
Google은 정확도를 99.0%에서 99.1%로 올리기 위해 무려 1억 2100만 개의 파라미터를 필요로 했으며, 이를 용량으로 500MB 가까이 된다.
 
신경망이 99.1%의 정확도를 가지기 위해서는 기존 99.0% 때는 신경 쓰지 않던 매우 사소한 요소도 구분하도록 학습되어야 한다. 
 
생각을 바꿔 데이터 수집 능력 자체를 진입 장벽으로 삼아 볼 수도 있다.
 
 
[ 자평 ]  얼른 훑어 읽고 깊은 자료를 봐라.
 
초거대 언어모델을 써보고 그 원리가 궁금해서 몇 주 동안 읽었던 책 중 하나다.
ChatGPT가 뜨니 이런 저런 책들이 갑자기 기하급수적으로 늘어난다.
대체적으로 개념정도 설명하고, 어떻게 사용하는지 사례 언급하고, 그래서 사무직이 망하니 흥하니 이런 전망을 해대는 흐름이다. 
 
대체적으로 대중 용도로 쓰이진 이런 책들은 빨리 빨리 읽어서 모르는 부분만 체크해 나가면 된다.
이런 책들 중에서 많은 내용을 모르고 있다면, 이미 뒤쳐진 것이다. 
 
깊게 읽은 책, 읽어 봐야 할 책들은 따로 있다.
심지어 재독/삼독하는 책도 있다.

댓글