Apple은 웹 브라우저에서 직접 테스트 할 수 있도록 FASTVLM (Visual Language Model)을 사용할 수있게 해주므로 Apple Silicon 기반 Mac을 사용하는 사용자가 거의 근접한 고해상도 이미지 처리 기능을 경험할 수있었습니다. 몇 달 전에 처음 출시 된이 모델은 Apple Silicon에 최적화 된 Apple의 Open Machine Learning 프레임 워크 인 MLX를 활용하여 비디오 캡션과 더 작은 모델 크기를 달성하여 상대방에 비해 더 적습니다. FASTVLM은 비디오 캡션에서 최대 85 배 더 빠르고 비슷한 모델보다 3 배 이상 작습니다. 애플은 프로젝트의 가용성을 확장하여 Github 외에도 포옹에 접근 할 수있게했다. 이제 사용자는 브라우저에 직접 경량 FASTVLM-0.5B 모델을로드하여 성능을 평가할 수 있습니다. 테스트에 따르면, 모델로드는 16GB M2 Pro MacBook Pro에서 몇 분이 걸립니다. 일단로드되면 모델은 사용자의 외관, 주변 환경, 표현 및 객체를 정확하게 설명합니다. 사용자는 “한 문장에서 보는 내용을 설명하는 것”, “내 셔츠의 색상은 무엇입니까?”, “텍스트 나 서면 내용을 보이는 어떤 감정이나 행동이 묘사되고 있습니까?”와 같은 사전 설정 옵션에서 프롬프트를 조정하거나 프리셋 옵션을 선택하여 모델과 상호 작용할 수 있습니다. 그리고 “내 손에 들고있는 물건의 이름을 지정하십시오.” 이를 통해 맞춤형 및 대화식 경험이 가능합니다. 또한 사용자는 가상 카메라 앱을 사용하여 라이브 비디오를 도구에 공급하여 여러 장면을 즉시 자세히 설명 할 수 있습니다. 이것은 모델의 속도와 정확도를 강조합니다. 이 구현의 주요 특징은 브라우저에서 로컬로 실행되므로 데이터가 장치를 떠나는 경우 데이터 개인 정보를 보장한다는 것입니다. 이 모델은 오프라인으로 작동 할 수 있으므로 대기 시간과 효율성이 낮은 웨어러블 및 보조 기술의 응용 프로그램에 적합합니다. 브라우저 기반 데모는 0.5 억 파라미터 버전의 FastVLM을 사용합니다. FASTVLM 패밀리에는 15 억 및 70 억 파라미터의 더 큰 변형이 포함됩니다. 이러한 대형 모델은 개선 된 성능과 속도를 제공 할 수 있지만 리소스 제약으로 인해 브라우저에서 직접 실행할 가능성이 없습니다. Apple은 사용자가 모델을 테스트하고 피드백을 공유하도록 권장합니다.

Apple Fastvlm 데모는 이제 Apple Silicon의 브라우저에서 실행됩니다.
Written by
Starting with coding on Commodore 64 in elementary school moving to web programming in his teenage years, Aytun has been around technology for over 30 years, and he has been a tech journalist for over 20 years now. He worked in many major Turkish outlets (newspapers, magazines, TV channels and websites) and managed some. Besides journalism, he worked as a copywriter and PR manager (for Lenovo, HP and many international brands ) in agencies. He founded his agency, Linkmedya in 2019 to execute his way of producing content. He is recently interested in AI, automation and MarTech.
View all posts →Related Stories
Microsoft, 고급 AI 워크로드를 위한 Surface RTX Spark Dev Box 공개
Microsoft의 Surface RTX Spark Dev Box는 NVIDIA의 RTX Spark 칩과 최대 128GB 메모리를 결합하여 고급 AI 워크로드 및...
X, iOS 사용자를 위한 ‘비디오로 반응’ 기능 출시
X는 iOS용 "비디오로 반응" 기능을 출시하여 사용자가 원본 게시물과 함께 TikTok 스타일의 반응 비디오를 직접 게시할 수 있도록...
Microsoft, 차세대 에이전트 우선 장치를 지원하는 Project Solara 공개
Project Solara는 소프트웨어와 하드웨어를 혼합하여 전문화되고 개인화된 적응형 AI 경험을 만드는 에이전트 우선 컴퓨팅을 도입합니다.
Google, 새로운 안전 및 공유 기능을 갖춘 6월 Android 업데이트 출시
6월 Android Drop에서는 사용자가 보안과 창의성을 유지할 수 있도록 새로운 개인화 도구, 세련된 업데이트, 향상된 안전 기능을 선보입니다.




