선문대학교 창업보육센터

HOME 커뮤니티 질의응답

질의응답

상단구분라인

제 목 :

2개의 뇌가 1개보다 낫다 AI 환각 현상 완화 트렌드 살펴보기

작 성 자 :

31233

글 정 보 :

조회수 : 94, 등록일 : 2024-03-16 오후 9:52:27

2개의 뇌가 1개보다 낫다 AI 환각 현상 완화 트렌드 살펴보기

일반 대중과 여러 기업에서 생성형 AI를 광범위하게 사용하려는 움직임이 계속되고 있다. 하지만 오류, 저작권 침해 문제, 노골적인 환각 현상으로 인해 정확성에 대한 신뢰가 훼손되는 경우가 종종 발생한다.

스탠포드 대학교의 한 연구에 따르면, 생성형 AI는 법률 관련 질문에 답할 때 75% 확률로 실수를 저지르는 것으로 나타났다. 해당 연구팀은 "두 개의 서로 다른 사건 사이의 선례 관계를 측정하는 작업에서 LLM은 무작위 추측보다 더 나은 결과를 만들어내지 못했다"라고 말했다.

문제는 오픈AI의 GPT-4, 메타의 라마2(Llama2), 구글의 팜2(PaLM2)와 같이 생성형 AI 기술의 기반이 되는 LLM이 비특이적인 파라미터를 가진 무정형 형태일 뿐 아니라 LLM을 학습시키는 것이 선천적으로 편견을 가지고 태어난 인간이라는 점이다.

LLM은 규모가 커질수록 추측성 또는 무작위적인 답변이 많아지는 '확률적 앵무새'라는 특징을 가지고 있다. 이런 '다음 단어 예측 엔진'은 논리 프레임워크 없이 학습한 내용을 계속 앵무새처럼 반복한다.

환각 및 기타 생성형 AI 관련 오류를 줄이는 대표적인 방법은 특정 데이터 소스를 사용해 LLM의 근거를 갖추는 데 사용되는 기법인 RAG(Retrieval-Augmented Generation)다. RAG를 통해 쿼리에 대해 보다 정확하고 구체적인 응답이 가능한 맞춤화된 생성형 AI 모델을 만들 수 있다. 그러나 추론에 대한 논리적 규칙이 여전히 부재하므로 RAG 역시 생성형 AI의 혼란을 정리하지 못한다.

<a href="https://www.instamemory.co.kr/" target="_blank">인스타 팔로워 늘리기</a>
즉, NLP(Natural Language Processing)에는 신뢰할 수 있는 결론(출력)을 도출하기 위한 투명한 추론 규칙이 없다. 일각에서는 생성형 AI가 제공하는 최종 답변에 이르는 각 단계에서 신뢰할 수 있는 결론을 보장하기 위해 '공식 언어' 또는 일련의 규칙/가드레일이 필요하다고 주장한다. 정확한 의미를 위한 공식적인 시스템이 없는 상태의 NLP는 주관적이고 토대가 미흡한 의미를 생성한다.

AI 스타트업 엘리멘탈 코그니션(Elemental Cognition) CEO이자 컴퓨터 과학자 데이비드 페루치는 "쉽게 말해 2+2는 4라는 간단한 합의와 비슷하다. 4라는 최종 답변에는 모호함이 없다"라고 말했다. 엘리멘탈 고그니션은 '신경 기호 추론기(neuro-symbolic reasoner)'인 브래이드(Braid)를 개발했다. 브래이드는 엘리멘탈 코그니션 직원들과 진행한 인터뷰에 기반해 LLM의 언어 논리 모델을 구축한다.

페루치는 "예를 들면 비즈니스 분석가를 인터뷰할 때 '문제를 이해했는지 확인하겠다. 귀하에게 중요한 여러 비즈니스 규칙과 관계 제약 및 권한을 살펴보겠다'라는 표현을 사용한다. 이런 표현이 들어간 인터뷰를 학습하면 결국에는 이런 문제를 해결하는 방법을 알고 있는 정규 논리 추론자가 실행하는 정규 지식 모델을 얻게 된다"라고 설명했다.

간단히 말해 페루치는 "신경망의 장점을 살린 다음 논리, 투명성, 설명 가능성, 협업 학습을 추가한다. 이 작업을 LLM으로 엔드투엔드로 수행하려고 하면 실수하게 되고, 실수를 했다는 사실도 모르게 된다. 엘리멘탈 코그니션의 아키텍처는 LLM 단독 아키텍처가 아니다"라고 덧붙였다.

엘리멘탈 코그니션의 아키텍처에서 비즈니스에 맞는 답변을 제공하기 위해 LLM을 미세 조정하는 방식인 프롬프트 엔지니어링은 일련의 논리적 규칙으로 대체된다. 이런 규칙은 LLM을 통해 대화하는 범용 추론기가 정확하고 명확한 대화를 실행하도록 보장한다.

엘리멘탈 코그니션은 출력물에 대해 일종의 체크섬을 계산하는 생성형 AI 모니터링, 평기 및 관찰 툴을 개발한다. 이런 체크섬 기술은 다른 AI 엔진, 즉 한 AI 플랫폼이 다른 AI 플랫폼을 모니터링하는 데도 사용해 첫 번째 플랫폼이 잘못된 답변이나 콘텐츠를 내보내지 않도록 도와주는 역할을 하기도 한다.

엘리멘탈 코그니션과 함께 이런 종류의 생성형 AI 도구를 제공하는 업체는 아리제(Arize), 트루에라(TruEra), 휴먼루프(Humanloop) 등이 있다. IDC의 AI 및 자동화 부문 리서치 디렉터 캐시 랭에 따르면, 데이터로봇(DataRobot)과 같은 다양한 ML 플랫폼도 AI 모니터링 분야로 진출하고 있다.

지금까지는 엔터프라이즈 배포 환경에서 생성형 AI 결과물을 모니터링하는 작업에는 일반적으로 사람이 직접 참여해야 했다. 가까운 미래에도 그럴 가능성이 높지만, 모니터링 및 평가 기술이 뒷받침되면 생성형 AI는 훨씬 더 정확한 응답을 생성할 수 있다. 랭은 "사람이 LLM의 결과와 반응을 판단한 다음 피드백을 모델에 통합하는 방식은 확장성이 떨어진다. 최근에는 평가 함수나 다른 LLM을 사용해 다른 LLM의 결과를 판단하는 방법이 트렌드가 되고 있다"라고 말했다.

<a href="https://www.instamemory.co.kr/" target="_blank">인스타 한국인 팔로워</a>
랭은 LLM 모니터링 소프트웨어를 일반적으로 LLM 기반 애플리케이션을 평가하고 디버깅하는 LLMOps(Large Language Model Operation) 범주에 포함한다. 더 일반적으로는 FMOps(Foundation Model Operation)라고 부른다. 랭에 따르면, FMOps는 생성형 AI 라이프사이클을 자동화하고 간소화하는 데 사용된다. FMOps 기능에는 기초 모델 테스트, 평가, 추적 및 비교, 새로운 데이터로 조정 및 조정, 맞춤형 파생 모델 개발, 성능 디버깅 및 최적화, 프로덕션에서 FM 기반 애플리케이션 배포 및 모니터링 등이 포함된다. 랭은 "말 그대로 LLM을 위한 머신러닝 운영이며, LLM 기반 애플리케이션 수명주기를 운영하기 위한 새로운 도구 세트, 아키텍처 원칙 및 베스트 프랙티스에 중점을 둔다"라고 덧붙였다.

예를 들어, 아리제의 피닉스(Phoenix)는 하나의 LLM을 사용해 관련성, 유해성 및 응답 품질을 평가한다. '추적(Traces)'을 사용해 여러 단계를 통해 전파되는 LLM 요청(애플리케이션 또는 최종 사용자가 생성한)이 이동하는 경로를 기록하며, 함께 제공되는 오픈인퍼런스 추적 사양(OpenInference Tracing Specification)은 원격 측정 데이터를 사용해 LLM의 실행과 주변 애플리케이션 컨텍스트를 이해한다. 즉, LLM 워크플로우가 중단된 위치를 파악하거나 검색 및 도구 실행과 관련된 문제를 해결할 수 있다.

가트너 수석 애널리스트 아비바 리탄은 LLM 모니터링 및 평가 방식은 다양하다고 설명한다. 어떤 사람은 데이터의 출처를 확인하고 LLM 응답의 출처를 확인하려고 시도하고 "출처를 찾을 수 없으면 환각으로 간주한다"라고 설명했다. 입력과 출력 임베딩 간 모순을 찾아 일치하지 않거나 '합산'되지 않으면 환각으로 표시하는 방식도 있다. 혹은 '이상치(outlier)' 혹은 통상적이지 않은 응답을 찾는 기술도 있다.

구글 검색과 동일한 방식으로 데이터베이스의 정보를 숫자 데이터로 변환하는 것을 '임베딩'이라고 한다. 예를 들어, 한 지역의 호텔을 가격, 편의시설 및 위치에 기반해 5자리 숫자로 지정할 수 있다. 해당 지역에서 가격 및 편의시설이 비슷한 호텔을 구글에서 검색하면 검색 엔진은 비슷한 숫자를 가진 모든 호텔을 제시한다.

같은 방식으로 LLM 평가 소프트웨어는 임베딩과 유사한 답변, 즉 쿼리와 가장 유사한 데이터를 찾는다. 리탄은 "임베딩과 멀리 떨어져 있는 데이터는 이상치를 의미하며, 이상치인 이유를 찾을 수 있다. 그러면 그것이 올바른 데이터 소스가 아니라는 것을 확인할 수 있다. 구글은 검색 데이터와 검색 기능을 모두 갖추고 있기 때문에 이런 방법을 선호한다"라고 설명했다.

LLM 평가 도구를 통해 환각과 잘못된 출력을 최소화하는 또 다른 방법은 주어진 응답의 출처를 찾는 것이다. 신뢰할 수 있는 출처가 없다면 이는 환각이라는 뜻이다. 랭은 "모든 주요 클라우드 공급업체도 LLM 애플리케이션을 조정하고 평가하는 데 도움이 되는 유사한 유형의 기술을 연구하고 있다"라고 덧붙였다.

필자는 최근 '칼럼 | ‘코드 생성은 시작일 뿐’··· 생성형 AI가 이끌 SW 개발의 변화 10가지'라는 글을 썼다. 기사의 요지는 지금의 코드 생성기가 소프트웨어 개발 수명 주기(software development lifecycle, SDLC)를 제조 공정으로 발전시키고, 이 공정에서 개발자는 애플리케이션 컴포넌트를 요청하고 받아서 애플리케이션과 서비스로 조립하게 된다는 것이었다. 먼 미래의 이야기처럼 들리겠지만 코드 생성기는 이미 상당한 영향을 미치고 있다. 깃허브 조사에 따르면, 깃허브 코파일럿을 통해 개발자의 88%가 생산성 향상을 경험했고 74%는 더 만족감을 주는 일에 집중할 수 있었고 87%는 작업을 더 빠르게 완료했다고 답했다.

현재 로우코드 및 노코드 플랫폼은 개발을 간소화하고 애플리케이션을 개발할 수 있는 사람 수를 늘리고 사용자 경험을 맞춤 설정하기 위해 필요한 기술을 발전시키는 데 사용된다. 생성형 AI는 이 두 플랫폼에 어떻게 영향을 미칠까?

퀵베이스(Quickbase)의 엔지니어링 부문 수석 부사장 존 케네디는 "미래에는 모두가 의식하지 못한 채 소프트웨어를 만들게 될 것이다. 예를 들어 코파일럿에 적절한 질문을 하는 방법을 아는 것만으로 신속하게 앱을 만들거나 솔루션을 배포할 수 있다"라고 말했다.

자연어 쿼리와 프롬프트는 소프트웨어 개발자가 코드를 생성하고 생산성을 개선할 수 있게 해주지만 로우코드와 노코드 플랫폼은 자체적인 코파일럿 개발 기능을 더하고 있다.

코파도(Copado)의 수석 부사장이자 선임 에반젤리스트인 데이비드 브룩스는 "코딩은 거의 완전히 자동화될 것이고 UX 디자이너가 사실상의 프론트 엔드 개발자가 된다. 피그마(Figma)와 같은 그래픽 툴로 UI 목업을 제작하는 대신 앞으로는 생성형 AI 툴을 사용해서 회사가 선택한 프레임워크에서 실제로 작동하는 UI 프로토타입을 생성하게 될 것"이라고 말했다.

<a href="https://snsstudio.co.kr/category/%EC%9C%A0%ED%8A%9C%EB%B8%8C/43/" target="_blank">유튜브 조회수 늘리기</a>
코드 생성이 로우코드 플랫폼을 대체할까?
깃허브 조사에 따르면, 사용자는 코파일럿이 제안한 코드의 30%를 수락하며, 경험이 적은 개발자는 AI에서 더 많은 이점을 얻을 수 있다고 한다. 이를 두고 생성형 AI로 인해 로우코드 플랫폼이 종말을 맞이할 것으로 보는 사람도 있다.

크라우드보틱스(Crowdbotics)의 CEO이자 창업자인 아난드 쿨카니는 "로우코드는 기업에서 사라지고 있다. AI가 로우코드를 없애버릴 것"이라며 "똑 같은 노력으로 AI를 사용하면 전체 코드를 만들 수 있는데 로우코드를 사용할 이유가 무엇인가?"라고 반문했다.

다른 시각도 있다. 애피안(Appian) 공동 창업자 겸 CTO인 마이클 베클리는 "코드 생성기는 문제를 해결하기보다 그 자체가 문제의 일부다. AI 코파일럿은 많은 앱을 쉽게 만들 수 있게 해준다. 따라서 데이터 사일로와 보안 문제를 방지하기 위해 이런 모든 앱을 연결하고 관리하는 로우코드 플랫폼의 필요성은 오히려 증가하게 될 것"이라고 말했다.

베클리는 생성형 AI가 로우코드의 필요성과 사용례를 확장할 것이라면서 "로우코드는 AI 비서를 쉽게 배포할 수 있게 해주지만 AI의 품질은 전적으로 데이터에 따라 좌우된다. 로우코드 플랫폼은 사용자의 모든 데이터에 액세스하고 비밀을 지킬 수 있는 개인용 AI를 만들기 위해 데이터 패브릭을 포함하도록 발전하고 있다"라고 덧붙였다.

스냅로직(SnapLogic)의 제품 마케팅 담당 부사장인 매니시 라이는 "AI와 머신러닝은 비즈니스 프로세스 자동화와 데이터 및 애플리케이션 통합을 더 쉽게 구현하고 기술자가 아닌 사용자를 위해 접근성을 높이고 효율성을 높일 수 있는 새롭고 혁신적인 방법을 위한 길을 열었다"라고 설명했다.

<a href="https://snsstudio.co.kr/category/%EC%9C%A0%ED%8A%9C%EB%B8%8C/43/" target="_blank">유튜브 구독자 늘리기</a>
기업이 소프트웨어 투자에서 궁극적으로 얻고자 하는 것은 더 큰 AI 혁신과 더 개인화된 경험, 더 짧은 개발 주기, 더 큰 비즈니스 가치다. 기대치와 범위가 증가하면서 기술 리더들은 코드와 로우코드, 두 가지 옵션을 모두 사용해서 소프트웨어 기능을 구축하게 될 가능성이 높다.

SAP 제품 마케팅 부문 부사장인 시드 미스라는 로우/노코드 개발과 AI 및 모바일 기술의 결합을 통한 혁신적인 애플리케이션의 가능성을 강조하며 "로우/노코드 개발이 AI와 통합되면 전통적인 제한을 초월한 빠른 프로토타이핑과 정교한 솔루션 개발이 가능해진다. 예를 들어 의료 분야에서 개발자는 이런 툴을 활용해 더 정확하고 빠른 진단을 위한 패턴을 감지하는 AI를 통해 파킨슨병 진단을 대폭 강화하는 앱을 신속하게 구축할 수 있다"라고 언급했다.

생성형 AI는 개발자 스킬셋을 어떤 방향으로 이끌까?
생성형 AI는 코드, 테스트 사례, 문서를 비롯해 소프트웨어 개발에 필요한 요소를 생성할 수 있다. 이것이 로우코드 및 노코드 플랫폼으로 소프트웨어 기능을 구축하기 위한 기술에 어떻게 영향을 미칠까?

키스플로우(Kissflow)의 최고 제품 책임자 디네시 바라다라잔은 "코딩이 전통적인 구문에서 맥락 인식과 지능적 구조로 바뀌면서 비즈니스 사용자는 프로그래밍 기술이 거의 없어도 애플리케이션을 만들 수 있게 될 것"이라고 말했다.

개발자가 코딩을 하지 않는다면 다른 어떤 기술이 더 중요해질까?

부미(Boomi)의 최고 제품 및 기술 책임자 에드 마코스키는 "전통적인 코딩 전문 기술과 함께 로우/노코드 플랫폼 활용 능력, AI 기술을 통합하는 방법에 대한 이해, 이러한 툴을 사용한 팀 내에서의 효과적인 협업까지 포함하도록 스킬셋이 발전할 것"이라며 "로우코드와 코파일럿의 조합을 통해 개발자는 다양한 코딩 언어를 배우는 데 시간을 소비할 필요 없이 자신의 기술을 강화하고 비즈니스 성과를 지원하는 데 집중할 수 있게 된다"라고 말했다.

콜레스(Coalesce)의 CEO이며 공동 창업자인 아몬 페트로시안은 "분석적 사고, 문제 해결, 디자인 사고가 더 강조되고, 이런 유형의 문제를 해결하는 데 있어 기술적 장벽에 대한 부담은 낮아질 것"이라고 말했다.

현재 코드 생성기는 코드 제안, 코드 한 라인, 작은 모듈을 생성할 수 있다. 개발자가 생성된 코드를 여전히 평가하고 인터페이스를 조정하고 경계 조건을 파악하고 보안 위험을 검토해야 한다. 그러나 로우코드의 프롬프팅, 코드 생성, AI 비서가 개선되면 소프트웨어 개발은 어떤 형태가 될까?

<a href="https://www.instamemory.co.kr/_idio/inc/blog2.html" target="_blank">인스타 인기게시물</a>
엠퍼시스(Mphasis)의 최고 솔루션 책임자 스리쿠마 라마나단은 "프로그래밍 인터페이스가 대화형이 되면서 로우코드 플랫폼과 코파일럿 유형의 툴이 융합되고 있다. 스킬셋이 진화함에 따라 개발자는 AI 원칙을 수용하고 시민 개발자는 비즈니스 로직에 집중하면서 협업적인 AI가 이끄는 효율성과 맞춤화된 솔루션을 통해 품질이 개선될 것"이라고 말했다.

소프트웨어 품질은 개선될까, 악화될까?
다양한 스킬셋을 보유한 더 많은 사람이 AI 비서를 활용해서 소프트웨어를 구축하고 강화한다면 소프트웨어 품질과 최종 사용자 경험은 개선될까, 더 악화될까? AI를 통해 더 많은 사람들이 더 많은 코드를 릴리스함에 따라 결함이 프로덕션까지 흘러 들어가고, 기술 부채가 쌓이고, 보안 취약점이 더 커지게 될지 여부 역시 같은 맥락의 질문이다.

퀵베이스의 케네디는 "이미 개발자가 아닌 사람들이 만든 많은 앱이 기업 전반에 급격하게 확산되고 있다. 프로세스가 간단하기 때문이다. 흥미롭지만 주의를 기울여야 한다. 이런 앱과 코파일럿이 보편화하면 기업은 '쉬운 앱 만들기'가 생산성을 저해하거나 보안 위험을 초래할 수 있는 무분별한 확산으로 이어지지 않도록 해야 한다"라고 지적했다.

테스트와 거버넌스, 기타 가드레일을 AI 비서 기능으로 확장하는 로우코드 플랫폼이 한 가지 해결책이 될 수 있다.

아웃시스템즈(OutSystems)의 엔지니어링 부문 부사장 실비아 로차는 "개발자는 생성형 AI와 로우 코드 등의 툴을 함께 사용하여 전보다 훨씬 더 빠른 속도로 애플리케이션을 만들고 동일한 리소스로 더 많은 작업을 수행하고 있다. 이런 기술에 내장된 가드레일은 실험을 촉진하는 동시에 퍼블릭 AI 모델과 관련된 개인정보 보호 및 보안 위험을 없애준다"라고 말했다.

AI 비서는 요구사항 작성과 개발 아티팩트 생성 사이의 간극을 이어 개발팀의 시프트 레프트(shift left)를 지원하게 될 가능성이 높다. 코파도의 브룩스는 "또한 생성형 AI는 대부분의 작업을 잘 작성된 사용자 스토리에서 곧바로 수행할 수 있다. 맞춤형 객체/필드 툴을 사용하는 대신 코파일럿이 필요한 메타데이터를 생성해서 플랫폼에 직접 삽입할 수 있다"라고 설명했다.

그러나 지금 당장의 현실에서는 AI가 생성한 코드라고 해서 결함이 없고 보안이 확실하며 비용이 들지 않고 사람의 개입이 불필요한 코드를 의미하지는 않는다. 소나(Sonar)의 디벨로퍼 애드버케이트 벤 데크라이는 "코드 작성이든 노코드 워크플로우 생성이든 생성형 AI의 출력을 검증할 자격을 갖춘 사람이 필요하다"라고 강조했다.

생성형 AI를 이용해 더 많은 앱을 구축하게 될까?
과거 제조 조립 라인과 전자 소자 설계, 건설 프로젝트가 간소화되면서 각 산업에서 성장과 확장의 기회가 열렸다. 소프트웨어 개발도 마찬가지일 가능성이 높고, 다음 진화 단계는 생성형 AI다.

뉴젠 소프트웨어(Newgen Software)의 제품 관리 부문 부사장인 바룬 고스와미는 "최근 몇 년 동안 전통적인 SDLC가 로우코드 애플리케이션 플랫폼에 밀려나는 현상이 일어났다. 이 변화에 따라 수명 주기가 대폭 간소화되면서 기업은 시장 진출 전략의 속도를 높일 수 있게 됐다. 애플리케이션 개발에서 생성형 AI가 등장하면서 오늘날 수명 주기는 단순한 진화가 아닌 도약의 시기를 보내고 있다"라고 말했다.

나다(NADA) 코인, 거래소 비트겟(Bitget) 상장

영천시 금호읍, 민관합동 취약계층 이사짐 나르기 봉사

주요 메뉴

사이드 네비게이션

컨텐츠 주요 내용

질의응답