Chat Completions
어떤 모델을 사용할 수 있나요?
어떤 모델을 사용할 수 있나요?
현재 지원되는 모델:
-
HCX-GOV-Think: 추론형(Reasoning) 모델
- 컨텍스트 길이: 128,000 tokens
- 복잡한 문제 해결, 논리적 추론, 단계별 설명에 적합
-
HCX-DASH-002: 경량화 모델
- 컨텍스트 길이: 32,000 tokens
- 간단한 질의응답, 빠른 응답이 필요한 경우에 적합
-
LLM42 (Gemma 3 12B): 멀티모달 모델
- 컨텍스트 길이: 128,000 tokens
- 이미지 분석, 차트 해석, 문서 OCR, 시각적 질의응답에 적합
대화 히스토리는 어떻게 관리하나요?
대화 히스토리는 어떻게 관리하나요?
스트리밍 응답을 사용할 수 있나요?
스트리밍 응답을 사용할 수 있나요?
네, 사용자 경험 향상을 위해 스트리밍을 권장합니다.
stream: true 옵션을 사용하면 실시간으로 응답을 받을 수 있습니다:temperature와 top_p는 무엇인가요?
temperature와 top_p는 무엇인가요?
응답의 창의성과 일관성을 조절하는 매개변수입니다:Temperature (0.0 ~ 1.0):
- 0.0-0.3: 일관되고 예측 가능한 응답
- 사실 기반 질문, 데이터 분석, 코드 생성에 적합
- 0.4-0.7: 균형잡힌 응답 (권장, 기본값 0.5)
- 일반적인 대화, 설명, 요약에 적합
- 0.8-1.0: 창의적이고 다양한 응답
- 브레인스토밍, 창작 글쓰기, 아이디어 생성에 적합
- 0.1-0.5: 가장 확률 높은 단어만 선택 (보수적)
- 0.6-0.9: 적절한 다양성 유지 (권장, 기본값 0.9)
- 0.95-1.0: 다양한 단어 선택 가능 (창의적)
최대 토큰 수는 얼마나 되나요?
최대 토큰 수는 얼마나 되나요?
모델별 컨텍스트 길이:
- HCX-GOV-Think: 128,000 tokens
- HCX-DASH-002: 32,000 tokens
- LLM42: 128,000 tokens
max_tokens 파라미터로 출력 길이 제한 가능:- 짧은 답변 (요약, 분류): 256-512 tokens
- 일반 대화: 1024-2048 tokens
- 긴 문서 생성: 2048-4096 tokens (기본값)
- 한글: 약 1자 = 1~2 토큰
- 영문: 약 1단어 = 1~2 토큰
시스템 프롬프트는 어떻게 사용하나요?
시스템 프롬프트는 어떻게 사용하나요?
role: "system" 메시지로 AI의 행동을 정의합니다:- 명확한 역할 정의
- 구체적인 행동 지침
- 응답 형식 지정
- 제약 사항 명시
RAG42
RAG42는 무엇인가요?
RAG42는 무엇인가요?
RAG42는 Retrieval-Augmented Generation을 위한 완전한 문서 관리 및 검색 시스템입니다.주요 기능:
- 컬렉션 관리
- 문서 업로드 및 자동 청킹
- 벡터 검색
- 하이브리드 검색 (키워드 + 의미)
어떤 파일 형식을 지원하나요?
어떤 파일 형식을 지원하나요?
RAG42가 지원하는 파일 형식:
- 문서: PDF, DOCX, HWP, HWPX, TXT, MD
- 스프레드시트: XLSX, CSV
- 프레젠테이션: PPTX
- 기타: HTML
문서는 자동으로 청킹되나요?
문서는 자동으로 청킹되나요?
네, 문서를 업로드하면 자동으로 처리됩니다:
- 파싱: 텍스트 추출
- 청킹: 의미 단위로 분할
- 임베딩: 벡터 생성
- 인덱싱: 검색 가능하게 저장
검색 정확도를 높이려면?
검색 정확도를 높이려면?
다음 방법들을 시도해보세요:
-
하이브리드 검색 사용
- 키워드 + 의미 검색 결합
search_type: "hybrid"옵션
-
재순위(Rerank) 적용
- 검색 결과를 재정렬
- 더 관련성 높은 문서 우선
-
적절한 청크 크기
- 너무 크면: 관련 없는 정보 포함
- 너무 작으면: 컨텍스트 부족
- 권장: 512~1024 토큰
-
메타데이터 활용
- 문서에 태그, 카테고리 추가
- 필터링으로 검색 범위 좁히기
컬렉션은 몇 개까지 만들 수 있나요?
컬렉션은 몇 개까지 만들 수 있나요?
시범 서비스 기간 동안 기본 제한이 적용됩니다.더 많은 컬렉션이 필요한 경우 문의해주세요.컬렉션 구성 권장사항:
- 주제별로 분리
- 문서 타입별로 분리
- 권한 관리를 위해 분리
문서를 수정하거나 삭제할 수 있나요?
문서를 수정하거나 삭제할 수 있나요?
네, RAG42 API를 통해 가능합니다:
- 문서 수정: PATCH /rag42/documents/
- 문서 삭제: DELETE /rag42/documents/
- 청크 수정: PATCH /rag42/chunks/
- 청크 삭제: DELETE /rag42/chunks/
Tools
PII 마스킹은 어떻게 작동하나요?
PII 마스킹은 어떻게 작동하나요?
텍스트 임베딩은 무엇인가요?
텍스트 임베딩은 무엇인가요?
텍스트를 숫자 벡터로 변환하는 기술입니다.용도:
- 의미 기반 검색
- 텍스트 유사도 계산
- 문서 클러스터링
- 추천 시스템
문서 파서는 어떤 경우에 사용하나요?
문서 파서는 어떤 경우에 사용하나요?
다양한 형식의 문서에서 텍스트를 추출할 때 사용합니다:사용 사례:
- PDF 보고서에서 텍스트 추출
- Word 문서 내용 파싱
- 스캔된 이미지에서 OCR
- 구조화된 데이터 추출
- RAG42 파서: RAG 시스템용 최적화
- Lomin 파서: 고급 레이아웃 분석
STT/TTS 음질은 어떤가요?
STT/TTS 음질은 어떤가요?
고품질 음성 처리를 제공합니다:STT (Speech-to-Text):
- 다양한 음성 환경 지원
- 한국어/영어 지원
- 타임스탬프 제공
- 자연스러운 음성 합성
- 다양한 보이스 옵션
- 속도/음높이 조절 가능
성능 및 최적화
응답 속도를 개선하려면?
응답 속도를 개선하려면?
다음 방법들을 시도해보세요:
-
스트리밍 사용
- 첫 토큰을 빠르게 받음
- 사용자 체감 속도 향상
-
적절한 max_tokens 설정
- 필요 이상으로 크게 설정하지 않기
-
병렬 처리
- 독립적인 요청은 동시 실행
-
캐싱
- 자주 사용되는 응답 캐싱
- 임베딩 결과 캐싱
-
배치 처리
- 여러 요청을 묶어서 처리
비용을 절감하려면?
비용을 절감하려면?
효율적인 API 사용 방법:
-
적절한 모델 선택
- 작업에 맞는 최소 모델 사용
-
토큰 사용 최적화
- 불필요한 컨텍스트 제거
- 간결한 프롬프트 작성
-
캐싱 활용
- 반복 요청 줄이기
-
에러 처리
- 재시도 전에 원인 파악
- 무한 재시도 방지
Rate Limit에 걸렸어요
Rate Limit에 걸렸어요
Rate Limit 대응 방법:
- 지수 백오프 구현
-
요청 속도 조절
- 큐 시스템 사용
- 배치 크기 조정
-
제한 확인
- 응답 헤더에서 제한 정보 확인
X-RateLimit-Remaining헤더