POST
/
v1
/
rag42
/
document
/
parse
RAG42 문서 파싱 (동기)
curl --request POST \
  --url https://api.clovastudio.go.kr/v1/rag42/document/parse \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'chunking_strategy=<string>' \
  --form chunk_size=123 \
  --form chunk_overlap=123 \
  --form file=@example-file
{
  "status": {
    "code": "20000",
    "message": "OK"
  },
  "result": {
    "chunks": [
      {
        "chunk_id": "chunk_001",
        "content": "행정 업무 처리 매뉴얼\n각 부서의 업무 처리 절차와 유의사항을 안내합니다.",
        "page": 1,
        "metadata": {
          "chunk_method": "title",
          "has_image": false,
          "has_table": true
        }
      }
    ],
    "total_chunks": 1,
    "total_pages": 8
  },
  "usage": {
    "pages": 8
  }
}

Authorizations

Authorization
string
header
required

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Body

multipart/form-data
file
file
required

파싱할 문서 파일 (.PDF, .DOC, .DOCX, .HWP, .HWPX, .XLS, .XLSX, .PPT, .PPTX, .TXT 지원)

chunking_strategy
string | null
default:by_title

청킹 전략 (by_title: 제목 기반, by_length: 길이 기반, 하위호환: title, length)

chunk_size
integer | null
default:1000

청크 크기 (기본값: 1000, 최소값: 100)

chunk_overlap
integer | null
default:0

청크 간 겹치는 문자 수 (기본값: 0, 최소값: 0, 청크 크기보다 작아야 함)

Response

Document parsed successfully

status
object
required

응답 상태

result
any

응답 결과 데이터

usage
object | null

API 사용량 정보 (파서, 검색, 업로드 API에서만 제공) API 사용량 정보 - 공통 베이스

Examples:
{
"embedding_tokens": 15,
"rerank_tokens": 130,
"total_tokens": 145
}
{
"embedding_tokens": 15,
"total_tokens": 15
}
{ "pages": 3 }