실리콘 밸리 (Silicon Valley)는 복잡한 소프트웨어 작업을 자율적으로 처리 할 수있는 AI 에이전트를 발전시키기위한 중추적 인 도구로 RL (Rinforcement Learning) 환경에 상당한 베팅을하고 있습니다. 수년 동안 주요 기술 회사의 경영진은 사용자를 대신하여 응용 프로그램과 상호 작용하여 생산성을 혁신 할 수있는이 에이전트의 잠재력을 과장해 보았습니다. 그러나 OpenAi의 ChatGpt 에이전트 및 Perplexity의 혜성과 같은 현재 소비자 가방 예제는 다단계 프로세스를 안정적으로 실행하는 능력에 상당한 제한이 있음을 보여줍니다. 이러한 격차는 RL 환경이 유망한 솔루션으로 등장하여 혁신적인 기술의 급증을 일으켰습니다. 이러한 시뮬레이션 된 교육은 실제 소프트웨어 상호 작용을 모방하여 AI 모델이 시행 착오를 통해 배울 수있는 데이터 세트가 이전 생성 AI 획기적인 시대에 연료를 공급하는 것과 마찬가지로 시행 착오를 통해 학습 할 수 있도록합니다. RL 환경은 AI 에이전트가 가상 설정에서 작업을 연습하고 성능에 따라 보상 또는 처벌을받는 제어 시뮬레이션으로 기능합니다. 에이전트가 아마존을 탐색하여 양말을 구매하는 임무를 수행하는 크롬 브라우저를 복제하는 디지털 작업 공간을 상상해보십시오. 성공에는 항목 선택, 체크 아웃 완료 및 잘못된 수량을 구매하거나 메뉴에 갇히는 등 오류를 피하는 것이 포함될 수 있습니다. 최근 인터뷰에서 설명한 한 창립자로서 이러한 환경을 구축하는 것은 “매우 지루한 비디오 게임 만들기”와 유사합니다. 고정 된 입력 및 출력을 제공하는 정적 데이터 세트와 달리 RL 환경은 예측할 수없는 에이전트 작업을 예상하고 처리해야하며 학습을 안내하는 일관된 피드백을 제공해야합니다. 이 복잡성은 에이전트가 예상 경로에서 벗어난 경우에도 시뮬레이션이 유용하게 유지되도록 강력한 설계를 요구합니다. 이러한 환경에 대한 수요는 OpenAi, Google Deepmind, Anthropic 및 Meta를 포함한 주요 AI 실험실 사이에서 급등했습니다. Andreessen Horowitz의 일반 파트너 인 Jennifer Li는 TechCrunch와의 인터뷰에서 “모든 대형 AI 실험실은 사내에서 RL 환경을 구축하고 있습니다.” 그러나 복잡한 개발 특성으로 인해 이러한 조직은 고품질 환경 및 평가 도구를 위해 타사 공급 업체와의 파트너십을 구했습니다. 이러한 추세는 투자와 기업가 정신의 물결을 불러 일으켰으며, 신생 기업과 설립 된 회사는 수십억 달러 규모의 시장이 될 수있는 것의 일부를 포착하기 위해 경쟁했습니다. 이 정보의 보고서에 따르면, Anthropic의 리더십은 내년에 RL 환경에 10 억 달러 이상을 할당하는 것에 대해 논의 하여이 기술의 전략적 우선 순위를 강조했습니다. 역사적 선례는 AI 개발에서 RL의 기본 역할을 보여줍니다. 2016 년 OpenAi는 시뮬레이션 시나리오에서 훈련 에이전트를위한 초기 프레임 워크 인 “RL Gyms”를 소개했습니다. 같은 해 Google DeepMind의 Alphago는 GO 게임에서 세계 챔피언을 물리 치고 전략적 의사 결정을 마스터하기 위해 시뮬레이션 된 환경 내에서 RL을 활용하여 획기적인 승리를 거두었습니다. 이러한 노력은 토대를 마련했지만 오늘날의 응용 프로그램은 상당한 진화입니다. 최신 RL 환경은 Alphago와 같은 전문화 된 폐쇄 세계 시스템과 대조적으로 다양한 소프트웨어 도구에서 일반적인 목적 작업을 위해 설계된 대규모 변압기 기반 모델을 대상으로합니다. 연구원들은 이제보다 진보 된 기초 모델로 시작하지만 광범위하게 유능한 에이전트를 창출하려는 야망은 개방형 상호 작용의 신뢰성을 보장하는 것과 같은 새로운 과제를 도입합니다. 기존 데이터 라벨링 거인은 기존 인프라와 클라이언트 관계를 활용하여 이러한 요구를 충족시키기 위해 적극적으로 피봇하고 있습니다. CEO Edwin Chen에 따르면 OpenAi, Google, Anthropic 및 Meta와 같은 AI 실험실과의 협력으로 인해 작년에 12 억 달러의 매출을 올린 SURGE는 RL 환경에 대한 요청이 “크게 증가한”것으로 나타났습니다. 이에 따라 회사는 자신의 창조에 중점을두기 위해 전용 내부 조직을 설립했습니다. 이 움직임은 전통적인 데이터 주석에서 동적 시뮬레이션으로 전환하여 전환하여 프론티어 AI 연구를 지원하는 입증 된 실적을 활용합니다. 100 억 달러에 달하는 Mercor는 코딩, 의료 및 법률과 같은 부문에 맞게 조정 된 도메인 별 RL 환경을 강조하는 또 다른 주요 플레이어입니다. 스타트 업은 OpenAi, Meta 및 Anthropic과의 파트너십을 확보했으며, CEO 인 Brendan Foody는 TechCrunch 인터뷰에서 “RL 환경에 대한 기회가 얼마나 큰지 이해하는 사람은 거의 없다”고 강조했다. Mercor의 접근 방식은 법률 데이터베이스 탐색 또는 의료 기록 분석과 같은 틈새 문제를 해결하는 특수 시뮬레이션을 제작하여 규제 산업에서 AI 채택을 가속화 할 수 있습니다. Scale AI는 290 억 달러의 평가로 데이터 라벨링 분야에서 확실한 리더 인 Scale AI가 최근의 좌절에 직면했습니다. Meta의 경쟁 벤처에 대한 140 억 달러의 투자와 Scale의 전 CEO의 밀렵으로 Meta 내부 경쟁과 함께 Google 및 OpenAi와의 계약이 손실되었습니다. 그럼에도 불구하고 규모는 RL 환경으로 확장하여 적응하고 있습니다. 에이전트 및 RL 환경을위한 제품 책임자 인 Chetan Rane은 “이것은 비즈니스의 본질 일뿐입니다. [Scale AI] 척도는 빠르게 적응하는 능력을 입증했습니다. 우리는 첫 번째 사업 단위 인 자율 주행 차의 초기 에이 작업을 수행했습니다. Chatgpt가 나왔을 때 Scale AI가 적응했습니다. 그리고 이제 다시 한 번, 우리는 에이전트와 환경과 같은 새로운 프론티어 공간에 적응하고 있습니다. “이 피벗은 스케일의 재창조 역사, 자율 주행 자동차에서 챗봇 붐에 이르기까지 대리인 시대의 관련성을 되찾기 위해 배치하는 스케일의 역사를 반영합니다. AI 코딩 에이전트를위한 RL 환경으로 시작하여 “모든 작업을 자동화하는”Matthew Barnett는 회사가 대기업의 볼륨 기반 접근 방식에 비해 몇 가지 고유 한 환경을 우선시하여 소프트웨어 엔지니어들에게 최대 $ 500,000의 연봉을 제공합니다 이 초기 견인력은 이미 RL 개발에 대한 토론을 거부했다. Fund와 Menlo Ventures는 지난 달 “RL 환경을위한 포옹”으로 모델링 된 RL 환경 허브를 출시했으며, Compute Services를 통해 수익을 창출하는 것은 Brown이 이러한 환경에서 계산 된 강조를 강조 할 것입니다. 우리가하는 일 중 일부는 그 주위에 좋은 오픈 소스 인프라를 구축하는 것입니다. 우리가 판매하는 서비스는 컴퓨팅이므로 GPU를 사용하는 데 편리한 onramp이지만, 장기적으로 더 많은 것을 생각하고 있습니다. “GPU 액세스를 촉진함으로써 주요 지능은 커뮤니티 중심의 진행 상황을 촉진 할뿐만 아니라 AI 훈련에서 확장 가능한 하드웨어 솔루션에 대한 확장 가능한 하드웨어 솔루션에 대한 점점 더 많은 요구를 겪습니다. 환경 ” – 스케일의 생성 AI 파동과 비슷한 지배적 인 힘. 자금의 유입은 RL 환경이 에이전트 AI의 다음 도약을 잠금 해제 할 수 있다는 낙관론을 반영하여 도구와 완벽하게 통합하고 웹을 탐색하고 엔터프라이즈 워크 플로우를 실행하며, 현장의 경쟁력을 실행하는 것은 Openai의 Sherwin Wu와 함께 엔터프리의 경쟁력을 실행할 수 있습니다. 최근 팟 캐스트에서 AI 연구의 빠른 진화를 강조했습니다 O1의 제작자는 이전에 TechCrunch와 공유 한 RL에 대한 투자로 인해 추가 데이터 및 리소스와의 확장 성이 텍스트 기반 보상보다 더 풍부한 학습 신호를 제공 할 수있는 대화식 경기장을 제공합니다. 수십억 달러의 노력-이 시뮬레이션은 Momentum에도 불구하고 일반적인 목적에 대한 지속적인 진전을 이끌어 낼 수 있습니다. “사람들은 환경을 확장하는 것이 얼마나 어려운지 과소 평가하고 있다고 생각합니다. 공개적으로 가장 잘 사용할 수 있습니다 [RL environments] 스케일링은 더 많은 환경뿐만 아니라 이러한 문제를 완화하기위한 개선이 필요합니다. 시뮬레이션조차도 실제 응용 프로그램에 충실한 상태를 유지해야합니다. 공개 벤치 마크조차도 종종 프로토 타입과 생산 준비 도구 사이의 격차를 강조하고, Andrej Karpathy는 Prime Intellect 및 환경 및 에이전트 중간에 대한 옹호자, X에 대한 Tempers in the rl. “나는 환경과 에이전트 상호 작용에 대해 낙관적이지만 Karpathy의 미묘한 관점은 더 넓은 논쟁을 강조합니다. 환경은 에이전트 훈련을위한 구조적 경로를 제공하지만, 기본 RL 패러다임은 현재 아키텍처에서 더 많은 이득을 추출 할 수 있습니다.

AI 에이전트를 위해 AI 스케일 AI는 RL 환경으로 확장됩니다
Written by
Starting with coding on Commodore 64 in elementary school moving to web programming in his teenage years, Aytun has been around technology for over 30 years, and he has been a tech journalist for over 20 years now. He worked in many major Turkish outlets (newspapers, magazines, TV channels and websites) and managed some. Besides journalism, he worked as a copywriter and PR manager (for Lenovo, HP and many international brands ) in agencies. He founded his agency, Linkmedya in 2019 to execute his way of producing content. He is recently interested in AI, automation and MarTech.
View all posts →Related Stories
Microsoft, 고급 AI 워크로드를 위한 Surface RTX Spark Dev Box 공개
Microsoft의 Surface RTX Spark Dev Box는 NVIDIA의 RTX Spark 칩과 최대 128GB 메모리를 결합하여 고급 AI 워크로드 및...
X, iOS 사용자를 위한 ‘비디오로 반응’ 기능 출시
X는 iOS용 "비디오로 반응" 기능을 출시하여 사용자가 원본 게시물과 함께 TikTok 스타일의 반응 비디오를 직접 게시할 수 있도록...
Microsoft, 차세대 에이전트 우선 장치를 지원하는 Project Solara 공개
Project Solara는 소프트웨어와 하드웨어를 혼합하여 전문화되고 개인화된 적응형 AI 경험을 만드는 에이전트 우선 컴퓨팅을 도입합니다.
Google, 새로운 안전 및 공유 기능을 갖춘 6월 Android 업데이트 출시
6월 Android Drop에서는 사용자가 보안과 창의성을 유지할 수 있도록 새로운 개인화 도구, 세련된 업데이트, 향상된 안전 기능을 선보입니다.




