OpenAi WisherOpenAI Whisper는 OpenAI에서 개발한 자동 음성 인식(ASR, Automatic Speech Recognition) 모델이다. 다양한 언어의 음성을 텍스트로 변환하는 데 최적화되어 있으며, 강력한 성능과 범용성을 갖춘 것이 특징이다.OpenAi 사이트를 통해 유료로도 제공한다.유료 사용 시 더 인식률이 좋은 Large-v2를 기반으로 처리해주고 있으며 무료는 Large 버전까지만 사용이 가능하다.1분당 0.006달러로 가격이 매우 착한 게 특징인데, 인식 등에 대해 만족도가 높지 않다면 유료 API를 쓰는 것도 나쁜 선택이 아니라고 본다.주요 특징다국어 지원 – 50개 이상의 언어를 인식하고 번역 가능고품질 음성 인식 – 잡음이 있는 환경에서도 높은 정확도 제공멀티태..
로컬 PC에 llama 3.2 를 설치하는 법GGUF 파일 다운로드https://huggingface.co/Bllossom/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M 에 접속하여 GGUF 파일을 다운로드 받는다.Q숫자는 양자화(Quantization) 수준을 의미한다.보통 숫자가 높을수록 용량도 크고 느리지만 정확도가 높고, 반대로 숫자가 낮을수록 용량이 작다.모델파일 다운로드명령어 실행ollama create llama3.2-bllossom-kor-3B -f Modelfilegguf 파일과 ModelFile을 한 폴더에 넣어준 후 해당 폴더에서 위 명령어를 실행한다. % ollama create llama3.2-bllossom-kor-3B -f Modelfilegather..
스테이블 디퓨전 웹UI 설치brew install cmake protobuf rust python@3.10 git wgetgit clone https://github.com/AUTOMATIC1111/stable-diffusion-webuimodel 다운로드 Stable DIffusion 1.4 (sd-v1-4.ckpt)Stable Diffusion 1.5 (v1-5-pruned-emaonly.ckpt)Stable Diffusion 1.5 Inpainting (sd-v1-5-inpainting.ckpt)Stable Diffusion 2.0 (768-v-ema.ckpt)Stable Diffusion 2.1 (v2-1_768-ema-pruned.ckpt)/stable-diffusion-webui/models/..