Apple은 웹 브라우저에서 직접 테스트 할 수 있도록 FASTVLM (Visual Language Model)을 사용할 수있게 해주므로 Apple Silicon 기반 Mac을 사용하는 사용자가 거의 근접한 고해상도 이미지 처리 기능을 경험할 수있었습니다. 몇 달 전에 처음 출시 된이 모델은 Apple Silicon에 최적화 된 Apple의 Open Machine Learning 프레임 워크 인 MLX를 활용하여 비디오 캡션과 더 작은 모델 크기를 달성하여 상대방에 비해 더 적습니다.

FASTVLM은 비디오 캡션에서 최대 85 배 더 빠르고 비슷한 모델보다 3 배 이상 작습니다. 애플은 프로젝트의 가용성을 확장하여 Github 외에도 포옹에 접근 할 수있게했다. 이제 사용자는 브라우저에 직접 경량 FASTVLM-0.5B 모델을로드하여 성능을 평가할 수 있습니다.

테스트에 따르면, 모델로드는 16GB M2 Pro MacBook Pro에서 몇 분이 걸립니다. 일단로드되면 모델은 사용자의 외관, 주변 환경, 표현 및 객체를 정확하게 설명합니다. 사용자는 “한 문장에서 보는 내용을 설명하는 것”, “내 셔츠의 색상은 무엇입니까?”, “텍스트 나 서면 내용을 식별하는 것”, “어떤 감정이나 행동이 묘사되고 있습니까?”와 같은 사전 설정 옵션에서 프롬프트를 조정하거나 프리셋 옵션을 선택하여 모델과 상호 작용할 수 있습니다. 그리고“내 손에 들고있는 물건의 이름을 지정하십시오.” 이를 통해 맞춤형 및 대화식 경험이 가능합니다.

또한 사용자는 가상 카메라 앱을 사용하여 라이브 비디오를 도구에 공급하여 여러 장면을 즉시 자세히 설명 할 수 있습니다. 이것은 모델의 속도와 정확도를 강조합니다. 이 구현의 주요 특징은 브라우저에서 로컬로 실행되므로 데이터가 장치를 떠나는 경우 데이터 개인 정보를 보장한다는 것입니다. 이 모델은 오프라인으로 작동 할 수 있으므로 대기 시간과 효율성이 낮은 웨어러블 및 보조 기술의 응용 프로그램에 적합합니다.

  FIFA 22는 PC용 차세대 버전이 아니며 EA는 "좋은" 버전을 PS5, Xbox Series XS 및 Stadia로 제한합니다.

브라우저 기반 데모는 0.5 억 파라미터 버전의 FastVLM을 사용합니다. FASTVLM 패밀리에는 15 억 및 70 억 파라미터의 더 큰 변형이 포함됩니다. 이러한 대형 모델은 개선 된 성능과 속도를 제공 할 수 있지만 리소스 제약으로 인해 브라우저에서 직접 실행할 가능성이 없습니다. Apple은 사용자가 모델을 테스트하고 피드백을 공유하도록 권장합니다.

Source: Apple Fastvlm 데모는 이제 Apple Silicon의 브라우저에서 실행됩니다.