OpenAi Wisher
OpenAI Whisper는 OpenAI에서 개발한 자동 음성 인식(ASR, Automatic Speech Recognition) 모델이다.
다양한 언어의 음성을 텍스트로 변환하는 데 최적화되어 있으며, 강력한 성능과 범용성을 갖춘 것이 특징이다.
OpenAi 사이트를 통해 유료로도 제공한다.
유료 사용 시 더 인식률이 좋은 Large-v2를 기반으로 처리해주고 있으며 무료는 Large 버전까지만 사용이 가능하다.
1분당 0.006달러로 가격이 매우 착한 게 특징인데, 인식 등에 대해 만족도가 높지 않다면 유료 API를 쓰는 것도 나쁜 선택이 아니라고 본다.
주요 특징
- 다국어 지원 – 50개 이상의 언어를 인식하고 번역 가능
- 고품질 음성 인식 – 잡음이 있는 환경에서도 높은 정확도 제공
- 멀티태스킹 기능 – 음성 언어 감지, 문장 구두점 자동 추가, 번역 지원
- 오픈소스 – GitHub에서 공개되어 누구나 활용 가능
모델 아키텍처
Transformer 기반으로 대량의 음성 데이터로 훈련
5가지 모델 크기( tiny, base, small, medium, large) 제공
대규모 데이터셋(680,000시간 분량)으로 학습
활용 사례
- 자막 생성 – 유튜브, 팟캐스트, 강의 등 자동 자막 생성
- 음성 비서 – AI 음성 인터페이스 및 보이스봇 구현
- 회의록 작성 – 회의 및 인터뷰 내용 자동 기록
로컬 설치 ( Mac OS 기준 )
Python 환경 : 3.9 (venv)
brew install ffmpeg
pip install setuptools-rust
pip install git+https://github.com/openai/whisper.git
model = whisper.load_model("turbo") # model
result = model.transcribe("파일.mp3") # file
print(result["text"]) # result
pip install openai-whisper 를 안 하고 git 주소를 그대로 install 했다.
이게 뭔가 pip 에 올라온 걸로 하면 잘 안되다 보니 이런 선택을 했다.
사용성 테스트
인터넷에 돌아다는 광고음성 파일 하나를 실행해봤다.
model = whisper.load_model("turbo")
result = model.transcribe("/Users/mx02/Downloads/광화문자생한방병원_1.mp3")
print(result["text"])
어? 의외로 잘되는 것을 확인했다.
Turbo가 가장 최근에 추가된 것 같았는데 속도도, 퀄리티도 나쁘지 않았다.
근데, 이렇게... 간단하다고? 뭔가 의구심이 들었다.
아내랑 통화했던 음성파일을 하나 꺼내와 직접 테스트를 해 보았다.
테스트 사양
- Mac Mini M4 Pro (기본형)
- Mac OS
- 26초짜리 음성 녹음 m4a 파일
tiny와 base는 건너뛰고 바로 small부터 테스트를 진행했고 각 모델별 추출 텍스트 및 소요시간은 아래와 같다.
Small
소요 시간 : 2.48초
네, 네, 네. 급한 건 아닌데, 나 카카오뱅크에 한 10달러가 얼마야? 10달러면 15천원 되나? 한 2만원 정도 넣어줘. 그거 결제하려고? 그거 한번 해보려고. 아... 카카오뱅크. 알았어. 2만원? 어, 2만원 정도만 넣어줘 봐. 최소단지 10달러네.
Medium
소요 시간 : 6.04초
어 왜왜왜왜 급한건 아닌데 나 카카오뱅크에 한 어 10달러가 얼마야 10달러면 15,000대나 한 2만원 정도 넣어줘 그거 결제할라고? 어 그거 한번 해보려고 어 카카오뱅크 아 알았어 2만원? 어 2만원 정도만 넣어줘봐 채소다지기 쉽게 하네 어 응
Large
소요 시간 : 10.64초
어 왜왜왜왜 급한건 아닌데 나 카카오뱅크에 한 어 10달러가 얼마야 10달러면 15000원 되나? 한 2만원정도 넣어줘 그거 결제할라고? 어 그거 한번 해보려고 아 카카오뱅크 아 알았어 어 2만원? 어 2만원정도만 넣어줘봐 여기 최소 단위 10달러네 아 알았어요 어 으응
Turbo
소요 시간 : 4.92초
어 왜왜왜왜 급한 건 아닌데 나 카카오뱅크에 한 어 10달러가 얼마야 한 2.. 10달러면 15,000대나? 한 2만원 정도 넣어줘 그거 결제하려고? 어 그거 한번 해보려고 아 카카오뱅크 아 알았어 2만원? 어 2만원 정도만 넣어줘봐 최소 다 10달러네 어
테스트 후기
모델 | 결과 | 만족도 |
Small | 초반 '어 왜왜왜왜' 를 '네, 네, 네,' 로 오인식 하였으며 15000(또는 만오천)을 15천원으로 적어버리는 말도 안되는 텍스트를 적었다. 또한 ~할라고 를 멋대로 ~하려고 로 바꿔 기입하였다. '최소 단위'라는 발음이 약간 좋지 못했는데, 해당 부분을 '최소단지'로 작성 |
엄청 별로 |
Medium | '15000 되나 ?' -> '15000 대나?' 뭐 그럴 수 있지, 라며 넘어갈 수준인거 같아 보이지만, 뒤에 '최소 단위' 부분을 '채소 다시지 쉽게 하네' 라는 말도 안되는 텍스트를 남김 | 별로 |
Large | 약간 더듬은 곳들이 있는데 그 부분들은 생략이 되었다. Turbo의 경우 '2... 10달러면' 이라며 2 라는 걸 기입했던데, Large는 더듬거나 말을 급히 수정하는 경우라면 센스있게 넘어가는 것 같다. |
좋음 |
Turbo | Medium에 이어 '15000 되나 ?'를 '15000 대나?' 로 인식. 다만 다른 모델들 다 못잡은.. '2...' 를 기입했다는게 의외였다. '결제할라고?' 를 '결제 하려고?' 로 오인식 했다. 뒷부분에서 '최소 단위가 '를 '최소 다'로만 남기고 가장 마지막 '응~' 부분은 아예 생략이 되었다. |
그럭저럭 |
결론
쓴다면 Large만 쓸 것 같다.
다른 건.. 좀 손이 많이 갈 것 같다는 생각이 들었다.
어찌 됐든 무료치고 이 정도 퀄리티는 기대 이상이라 만족스러울 따름이다. (OpenAI 감사합니다.)
Large의 경우 1배속 수준의 속도를 예상한다는 글이 있었지만 26초 정도 되는 음성 파일을 절반도 안 되는 시간만에 추출해 줬고 더불어 퀄리티 또한 만족도가 높았다.
파이썬 라이브러리로 쉽게 제공되고 있다 보니 다양한 프로그램에 활용하기 좋을 듯싶다.
자, 이제 이걸 어디다가 활용해 볼까?
'AI 인공지능' 카테고리의 다른 글
ollama - llama 3.2 Bllossom 3B gguf 한국어 모델 로컬 설치 (0) | 2025.02.07 |
---|---|
AI로 그림 그리자! Stable-diffusion-webui 설치! (0) | 2023.05.15 |