AI 모델의 추론 문제 - '사고' 능력을 가진 모델이 실제로 더 똑똑하지 않을 수 있는 이유

최근 인공지능(AI) 산업에서 기대를 모았던 AI 추론 모델들이 복잡한 문제를 해결하는 데 있어 한계가 있다는 연구 결과가 잇따라 발표되고 있다. 이 모델들은 문제를 논리적 단계로 나누어 사고함으로써 보다 복잡한 작업을 수행할 수 있다고 여겨졌으나, 실제로는 그러한 능력이 충분하지 않다는 주장이 제기되고 있다.
예를 들어, 애플의 연구팀이 발표한 백서 "사고의 환상"에서는 최신의 대형 추론 모델들이 일반화 가능한 문제 해결 능력을 개발하지 못하고 있으며, 복잡도가 특정 한계를 넘어서면 정확도가 급격히 떨어지고 있다는 내용을 담고 있다. 이는 문제의 복잡성이 증가할수록 추론 모델이 제 기능을 하지 못함을 의미하며, 더욱 우려스러운 것은 이 모델들이 그저 패턴을 암기하는 데 그치고 있을 가능성이 있다는 점이다.
Databricks의 CEO인 알리 고드시(Ali Ghodsi)는 "우리는 이 모델들이 특정 벤치마크 작업에서는 뛰어난 성과를 내도록 만들 수 있지만, 매우 일반적인 상식 문제에 대해서는 전혀 대응하지 못하는 모습을 보여준다. 이는 현재의 추론 모델이 가지고 있는 근본적인 한계"라고 지적했다.
Salesforce, Anthropic을 비롯한 여러 AI 연구소들도 이러한 추론 모델에 대해 경고하고 있으며, Salesforce는 이를 "불균형 지능(jagged intelligence)"이라 표현하면서 현재의 대형 언어 모델(Large Language Models)과 실제 기업의 수요 사이에 상당한 간극이 있음을 강조하고 있다. 이러한 제약은 엔비디아(후드)의 주가처럼 AI 인프라 기업들의 성장에 실망감을 주는 요소가 될 수 있다.
엔비디아 CEO인 젠슨 황(Jensen Huang)은 "현재 agentic AI와 추론의 결과로 필요한 연산량이 작년보다 백 배 많아졌다"며 향후 AI 기술의 발전에 필요한 연산 자원에 대한 우려를 표명했다. 그러나 일각에서는 애플의 연구 결과 발표가 자사의 AI 경쟁력 부족을 감추기 위한 전략으로 보인다는 반론도 제기되고 있다.
특히 애플은 AI 서비스인 '애플 인텔리전스' 관련 핵심 업그레이드를 2026년으로 미루고, 최근 세계 개발자 콘퍼런스에서는 AI 관련 발표가 미미했다. 이는 애플이 AI 산업의 쟁점에서 한 발 뒤처져 있다는 주장을 강화하는 요소로 작용하고 있다. 퓨처럼 그룹의 CEO인 다니엘 뉴먼(Daniel Newman)은 "애플이 LLM과 추론에 대해 제대로 작동하지 않는다고 발표하는 것은 현재 '우리가 잘 모르고 있다'는 신호로 보인다"고 덧붙였다.
결론적으로, AI 추론 모델의 화려한 비전 뒤에 감춰진 한계와 비판은 이러한 기술이 실질적으로 상업적 필요를 충족할 수 있을지에 대한 의문을 불러일으킨다. 업계의 안정성과 성장을 위해서는 이러한 제약을 극복하기 위한 더 많은 연구와 발전이 필요할 것으로 예상된다.
