70억 파라미터의 반란, Falcon H1R 7B AI 모델이 증명한 하이브리드 설계의 힘

TII가 공개한 Falcon H1R 7B AI 모델은 하이브리드 아키텍처를 통해 7배 큰 모델을 능가하는 성능을 보여줍니다. AIME 2025 83.1% 달성 및 고효율 추론의 미래를 확인하세요.

7배 더 큰 모델을 압도하는 소형 AI가 등장했다. 아부다비 기술혁신연구소(TII)가 공개한 Falcon H1R 7B는 생성형 AI 업계의 '거거익선' 법칙에 정면으로 도전하고 있다. 단 70억 개의 파라미터만으로 알리바바의 Qwen 32B와 47B, 엔비디아의 Nemotron 등 자신보다 몇 배나 덩치가 큰 모델들을 벤치마크에서 앞질렀기 때문이다.

Falcon H1R 7B AI 모델의 하이브리드 아키텍처

이번 모델의 핵심은 기존 Transformer 구조에서 벗어난 '하이브리드' 설계에 있다. TII는 Mamba로 불리는 상태 공간 모델(SSM) 아키텍처와 표준 트랜스포머 주의력 계층을 통합했다. 트랜스포머가 모든 데이터를 동시에 비교하며 기하급수적으로 연산 비용이 늘어나는 것과 달리, 맘바는 순차적으로 데이터를 처리해 선형적인 스케일링이 가능하다. TII의 기술 보고서에 따르면, 이 방식을 통해 GPU당 초당 약 1,500개의 토큰을 처리할 수 있으며, 이는 경쟁 모델인 Qwen3 8B 대비 약 2배 빠른 속도다.

벤치마크 결과: 체급을 넘어선 추론 성능

모델명	AIME 2025 (수학)	LCB v6 (코딩)
Falcon H1R 7B	83.1%	68.6%
Apriel-v1.6-Thinker (15B)	82.7%	-
OLMo 3 Think (32B)	73.7%	-

성능 지표는 더욱 놀랍다. 고도의 수학적 추론 능력을 평가하는 AIME 2025 벤치마크에서 83.1%를 기록하며, 320억 개 파라미터의 모델을 큰 차이로 앞질렀다. 코딩 테스트에서도 자신의 4배 크기 모델들을 제치고 최고 점수를 획득했다. 이는 단순한 규모 확장보다 아키텍처 효율성과 특화 훈련이 논리적 과제 해결에 더 중요하다는 점을 시사한다.

추론 효율을 높이는 훈련과 기술

이 모델은 GRPO(Group Relative Policy Optimization)라는 강화 학습 알고리즘을 사용했다. TII 연구진은 표준 강화 학습에서 사용하는 KL-발산 페널티를 제거하여 모델이 새로운 추론 경로를 공격적으로 탐색하도록 유도했다. 또한 추론 시 여러 경로를 생성하고 최적의 해답을 찾는 '테스트 타임 스케일링(TTS)' 단계에서 DeepConf 기술을 적용, 낮은 품질의 추론 과정을 실시간으로 제거함으로써 연산 효율을 극대화했다.

Falcon H1R 7B AI 모델의 하이브리드 아키텍처

벤치마크 결과: 체급을 넘어선 추론 성능

추론 효율을 높이는 훈련과 기술

의견

관련 기사