가장 싼 AI API 총정리: 초저가 모델 가이드

한눈에 2026년 5월 기준 절대 최저가는 Gemini 2.0 Flash·Mistral Small(입력 $0.10). 품질까지 보면 진짜 보석은 DeepSeek V3(벤치 86, 출력 $1.10). 싸다고 다 같은 게 아니라, 어디서 품질이 깎이는지를 알아야 손해를 안 본다.

"제일 싼 API 뭐예요"라는 질문엔 함정이 있다. 단가가 0에 가까워도 답을 두 번 다시 받으면 비싼 모델보다 비싸진다. 이 글은 초저가 모델 네 개를 실제 트레이드오프 중심으로 정리한다.

초저가 라인업 단가표

모델	입력	출력	벤치	속도	약점
Gemini 2.0 Flash	0.10	0.40	81	98	깊은 추론 약함
Mistral Small	0.10	0.30	78	95	복잡 작업 한계
GPT-4o mini	0.15	0.60	82	96	전문 영역 약함
DeepSeek V3	0.27	1.10	86	—	중국 데이터 우려
DeepSeek R1	0.55	2.19	89	느림	응답 지연
Llama 3.3 70B	0.60	0.60	82	—	운영 부담

절대 최저가: Flash와 Mistral Small

입력 $0.10은 사실상 "거의 공짜" 구간이다. 분류, 태깅, 키워드 추출, 단순 요약 같은 대량 단순 작업에 쓴다. 벤치 78~81이라 다단계 추론이나 코드 작성을 시키면 금방 한계가 드러난다. Flash는 속도 98로 압도적이라 실시간 대량 파이프라인에 특히 강하다.

실전 팁 초저가 모델은 "판단"이 아니라 "변환"에 써라. 텍스트를 분류·정형화하는 변환 작업은 품질 차이가 거의 안 보이고, 추론·창작은 바로 티가 난다.

품질까지 챙긴 진짜 가성비: DeepSeek V3

냉정하게 말하면 이 표의 주인공은 DeepSeek V3다. 벤치 86, 코드 88이면 GPT-4o(88.5)에 거의 붙는데 출력 단가가 GPT-4o의 9분의 1이다. 다만 데이터가 중국 정책 영향권이라 민감 정보 처리엔 부적합하다. 거기서 막히면 Llama 3.3 70B를 자체배포해 토큰값을 0으로 만드는 길이 있다.

"가장 싼 모델"이 아니라 "내 작업에서 품질이 안 깎이는 가장 싼 모델"을 찾아야 한다. 이 한 줄이 초저가 운용의 전부다.

추론이 필요한데 싸야 한다면: DeepSeek R1

추론 92인데 출력 $2.19. o1(추론 96, 출력 $60)의 28분의 1 가격이다. 대신 응답이 느리다. 실시간 챗봇엔 못 쓰고, 배치성 분석·리서치 보조에 맞다. 더 빠른 가성비 추론이 필요하면 o3-mini(추론 89, 출력 $4.4)가 절충안이다.

월비용 비교

입력 3,000만 / 출력 800만 토큰 기준.

Mistral Small: $3 + $2.4 = $5.4
Flash: $3 + $3.2 = $6.2
DeepSeek V3: $8.1 + $8.8 = $16.9
DeepSeek R1: $16.5 + $17.5 = $34
(참고) Sonnet 4.5: $90 + $120 = $210

같은 작업이 $5.4와 $210 사이에서 움직인다. 핵심은 어디까지 초저가로 버티고 어디서 승급하느냐의 라우팅 설계다. 본인 트래픽으로 계산하려면 API 비용 계산기, 전체 단가표는 AI API 가격 비교를 보라. 입문자라면 API 퀵스타트부터.

자주 묻는 질문

Q. 초저가 모델로 서비스를 운영해도 되나요?

A. 변환·분류 중심이면 충분합니다. 추론·창작·코딩이 핵심이면 품질이 바로 드러나니 2단 라우팅을 권합니다. 용도별 AI 도구를 참고하세요.

Q. DeepSeek 데이터 우려는 어느 정도인가요?

A. 공개·비민감 데이터엔 실질적 문제가 적습니다. 개인정보·기밀이 섞이면 자체배포형 Llama를 쓰는 게 안전합니다.

Q. 무료 모델만으로 버틸 수 있나요?

A. 테스트·소규모는 가능하지만 무료 티어는 속도·사용량 제한이 있습니다. 비교는 무료 비교 글에서.