Qwen3-0.6B-FP8 기능 체험: 실시간 온도 및 생성 길이 조절로 AI 대화 스타일 맞춤화

Qwen3-0.6B-FP8 기능 체험: 실시간 온도 및 생성 길이 조절로 AI 대화 스타일 맞춤화

1. 소개: AI 대화를 오디오 믹서처럼 쉽게 조절하기

AI에게 시를 지어달라고 했더니 500자를 써서 끝나지 않거나, 개방형 질문에 대한 답변이 너무 딱딱하고 창의성이 없는 경우가 있었나요?

기존의 대형 모델 대화는 종종 블라인드 박스처럼 느껴집니다. 질문을 입력하면 답변이 나오고, 그 과정에서는 전혀 개입할 수 없습니다. 하지만 오늘 소개할 Qwen3-0.6B-FP8은 이러한 상황을 완전히 바꿨습니다. 이 경량 모델의 가장 매력적인 점은 대화의 통제권을 사용자에게 되돌려준다는 것입니다.

AI 어시스턴트와 채팅하는 상상해보세요. 언제든지 "더 창의적으로 답변해줘" 또는 "간결하게, 짧게"라고 말할 수 있습니다. 이것은 과학 소설 속 장면이 아니라 Qwen3-0.6B-FP8이 제공하는 실제 기능입니다.

6억 개의 파라미터만을 가진 이 "작은" 모델은 강력한 "오디오 믹서"를 내장하고 있습니다. 실시간으로 조절 가능한 온도, 생성 길이, Top-P 등의 파라미터입니다. 더 중요한 것은 독특한 "생각 모드"를 지원하여 모델이 최종 답변을 제시하기 전의 추론 과정을 볼 수 있다는 것입니다.

다음 내용에서는 이러한 기능을 직접 체험해보고, 간단한 슬라이더 조절을 통해 동일한 AI 모델이 완전히 다른 대화 스타일을 어떻게 보여주는지 살펴보겠습니다.

2. 빠른 시작: 3분 만에 나만의 대화 어시스턴트 배포하기

2.1 클릭 한 번으로 배포, 복잡한 설정 없이

AI 모델 배포가 복잡한 명령어 작업과 긴 환경 설정을 필요로 할 것이라고 걱정이라면, Qwen3-0.6B-FP8은 그 생각을 완전히 바꿔줄 것입니다. 배포 과정은 마우스 클릭 몇 번만으로 간단합니다.

CSDN 스타 그래픽 마켓에서 "Qwen3-0.6B-FP8 (내장 모델 버전) v1.0"이라는 이미지를 찾아 "배포 인스턴스" 버튼을 클릭하세요. 그다음 할 일은 1-2분 기다리는 것뿐입니다.

그렇습니다. 이렇게 간단합니다. 시스템이 모델 다운로드, 환경 구성, 서비스 시작 등 모든 준비를 자동으로 완료합니다. Python을 몰라도, CUDA를 설치할 필요도 없으며, Docker가 무엇인지 알 필요도 없습니다.

인스턴스 상태가 "실행 중"으로 변경되면 AI 대화 어시스턴트가 준비된 것입니다. "WEB 액세스 엔트리" 버튼을 클릭하면 깨끗하고 직관적인 채팅 인터페이스가 나타납니다.

2.2 첫 대화: "안녕"부터 시작하기

가장 간단한 테스트를 해보겠습니다. 채팅 상자에 "안녕"을 입력하고 전송 버튼을 클릭하세요.

오른쪽 대화 상자에 먼저 메시지 "안녕"이 표시되고, 그 다음 AI의 답변이 나타납니다. 모든 것이 정상이라면 다음과 유사한 답변을 볼 수 있을 것입니다:

안녕하세요! 저는 Qwen3입니다. 알리바바 클라우드에서 개발한 인공지능 어시스턴트입니다. 서비스하게 되어 기쁩니다!

첫 번째 요청은 모델이 하드 드라이브에서 VRAM으로 로드해야 하므로 약 3-5초 정도 걸릴 수 있습니다. 하지만 이후 대화는 매우 원활하며 응답 속도는 보통 1초 이내입니다.

이 초기 테스트는 배포가 성공했는지 확인하는 데 중요하며, 이후 기능 체험의 기초를 다집니다.

3. 핵심 기능 심층 체험: "생각 모드"부터 파라미터 조절까지

3.1 생각 모드 활성화: AI가 "생각"하는 과정 보기

Qwen3-0.6B-FP8의 가장 독특한 기능은 "생각 모드"입니다. 이 기능은 AI의 추론 과정을 투명하게 만들어, 최종 답변을 제시하기 전에 무엇을 생각하고 있는지 볼 수 있게 해줍니다.

채팅 인터페이스의 파라미터 설정 영역에서 "💭 생각 모드 활성화" 옵션을 찾아 체크하세요. 이제 약간의 머릿풀기가 필요한 질문을 해보겠습니다:

"어떤 경우에 1+1은 2가 아닐까요?"

전송 후 AI의 답변을 자세히 관찰해보세요. 답변이 두 부분으로 나뉘어 있는 것을 발견할 수 있습니다:

먼저 `` 태그로 감싸진 "생각 과정"입니다:


이것은 고전적인 머릿풀이 문제입니다. 수학적으로 1+1은 보통 2입니다. 하지만 특정 맥락에서는 2가 아닐 수 있습니다. 예를 들어 이진법에서는 1+1=10, 불리언 대수에서는 1+1=1(논리 OR 연산), 모듈러 2 연산에서는 1+1=0입니다. 또한 "1"이 다른 단위를 나타낼 때, 예를 들어 1개의 사과 + 1개의 오렌지는 여전히 2개의 과일이지만 종류가 다릅니다. 문제는 비수학적 맥락에서의 답변을 테스트하는 것일 수 있습니다.

그 다음에 나오는 "📝 답변"입니다:

1+1은 다음 경우에 2가 아닙니다: 1. 이진법에서: 1+1=10 2. 불리언 대수에서 (논리 OR 연산): 1+1=1 3. 모듈러 2 연산에서: 1+1=0 4. 단위가 다를 때: 1개의 사과 + 1개의 오렌지 = 2개의 과일, 하지만 종류가 다름 5. 계산 오류 시: 예를 들어 계산 실수

차이점을 보셨나요? 생각 모드에서 AI는 바로 답변을 제시하는 것이 아니라, 먼저 문제를 분석하고 가능성을 열거한 다음, 완전한 답변으로 정리합니다. 이것은 학생이 수학 문제를 풀 때 먼저 초안에 계산하고, 마지막에 깔끔한 답을 시험지에 쓰는 것과 같습니다.

이 기능은 논리적 추론, 수학 계산, 코드 디버깅 등 명확한 생각 과정이 필요한 작업에 특히 적합합니다. AI의 "문제 해결 방법"을 명확히 볼 수 있으며, 답변이 문제가 있다면 어느 부분에서 문제가 발생했는지 알 수 있습니다.

3.2 실시간 파라미터 조절: 나만의 대화 경험 맞춤화

이제 Qwen3-0.6B-FP8의 핵심 기능인 실시간 파라미터 조절을 체험해보겠습니다. 이러한 파라미터는 오디오 믹서의 노브처럼 느껴지며, 언제든지 조절하여 AI의 답변이 현재 요구 사항에 맞도록 만들 수 있습니다.

채팅 인터페이스의 오른쪽이나 아래쪽에서 몇 개의 슬라이더와 옵션을 볼 수 있습니다:

  • 온도 (Temperature): 범위 0.0 ~ 1.5, 기본값 0.6
  • 최대 생성 토큰 (Max New Tokens): 범위 64 ~ 2048, 기본값 512
  • Top-P: 범위 0.1 ~ 1.0, 기본값 0.9
  • 생각 모드 스위치: 언제든지 켜거나 끌 수 있음

비교 실험을 해보겠습니다. 기본 설정(온도 0.6, 최대 길이 512)을 유지하고 AI에게 봄에 대한 시를 한 편 써달라고 요청해 보겠습니다:

"봄에 대한 시 한 편을 써줘"

다음과 유사한 답변을 얻을 수 있을 것입니다:

봄바람이 가볍게 부드러운 길을 걷고, 복숭아꽃은 아침 햇살에 웃고 있습니다. 제비가 옛 둥지를 찾아 돌아오고, 부드러운 비가 조용히 만물을 적셔줍니다. 만물이 소생하여 생명력이 넘치고, 봄의 기운이 세상을 가득 채웁니다.

이제 파라미터를 조절해 보겠습니다. 온도 슬라이더를 0.6에서 0.9로, 최대 길이를 512에서 256으로 조정한 후 동일한 요청을 다시 입력하세요.

이번 결과는 명확하게 다를 것입니다. 온도를 높이면 AI의 답변이 더 무작위적이고 창의적이며, 최대 길이를 줄이면 답변이 더 간결해집니다. 다음과 같은 답변을 볼 수 있을 것입니다:

봄바람이 잠든 땅을 깨우고, 싹이 햇빛을 향해 고개를 들어 춤을 춥니다. 꽃향기와 새소리가 비단을 짜고, 생명의 노래가 다시 시작됩니다.

같은 요청이지만, 다른 파라미터 설정으로 완전히 다른 스타일의 답변을 얻었습니다. 온도가 낮을 때 AI는 확률이 가장 높은 단어를 선택하려 하여 보수적이고 정확한 답변을 제공합니다. 온도가 높을 때는 더 많은 가능성을 시도하여 더 활기차고 창의적인 답변을 제공합니다.

3.3 파라미터 조절의 실제 적용 시나리오

이러한 실시간 조절 가능한 파라미터는 실제 사용에서 많은 구체적인 문제를 해결하는 데 도움이 될 수 있습니다:

시나리오 1: 창의적 카피라이팅 시

  • 더 많은 아이디어가 필요하다면 온도를 0.8-1.0으로 설정
  • 분량을 조절해야 한다면 최대 길이를 적절한 값으로 조정
  • 더 집중된 어휘 선택이 필요하다면 Top-P를 낮춤

시나리오 2: 기술 질문 답변 시

  • 정확한 답변이 필요하다면 온도를 0.3-0.5로 설정
  • 상세한 설명이 필요하다면 최대 길이를 800-1000으로 조정
  • 생각 모드를 활성화하여 추론 과정 확인

시나리오 3: 수다스러운 대화 시

  • 대화가 더 자연스럽게 하려면 온도를 0.7 정도로 설정
  • AI가 너무 많이 말하지 않도록 최대 길이를 300 이내로 제한
  • 다양한 응답을 원한다면 Top-P를 0.95로 조정

한 번의 대화에서도 파라미터를 여러 번 조절할 수 있습니다. 예를 들어, AI에게 창의적 모드로 이야기의 시작 부분을 쓰게 한 다음, 온도를 낮춰 더 연속적인 줄거리를 이어 쓰게 하고, 마지막에 온도를 다시 높여 이야기에 예상치 못한 결말을 제공할 수 있습니다.

4. 연속 대화 및 문맥 이해 테스트

4.1 다중 턴 대화에서 문맥 유지

좋은 대화형 AI는 단일 질문에 답변하는 것뿐만 아니라, 이전 대화 내용을 기억하고 연속적인 소통에서 일관성을 유지할 수 있어야 합니다. Qwen3-0.6B-FP8의 문맥 이해 능력을 테스트해 보겠습니다.

동일한 채팅 세션에서(페이지를 새로 고치지 마세요) 다음 질문을 순서대로 입력하세요:

첫 번째: "안녕, 자기소개 좀 해줘"
두 번째: "어떤 기능을 지원해?"
세 번째: "파이썬으로 퀵 정렬 알고리즘을 작성해줘"

AI의 답변을 관찰하세요. 첫 번째 턴에서는 기본 정보를 소개하고, 두 번째 턴에서는 "너"가 자신을 가리키는 것을 이해하여 지원하는 기능을 나열하고, 세 번째 턴에서는 이 대화 문맥을 계속하여 새로 시작하는 것이 아니라 이어서 답변할 것입니다.

다음과 유사한 대화 흐름을 볼 수 있습니다:

당신: "안녕, 자기소개 좀 해줘"
AI: "저는 Qwen3-0.6B-FP8입니다. 경량화된 대형 언어 모델..."

당신: "어떤 기능을 지원해?"
AI: "저는 실시간 온도, 생성 길이 등 파라미터 조절과 생각 모드를 지원합니다..."

당신: "파이썬으로 퀵 정렬 알고리즘을 작성해줘"
AI: "네, 우리가 방금 이야기한 내용을 바탕으로 파이썬으로 퀵 정렬을 구현해 보겠습니다:"

그런 다음 올바른 파이썬 코드를 제공할 것입니다. 이는 모델이 대화 기록을 기억하고 문맥에 기반하여 일관된 답변을 제공할 수 있음을 보여줍니다.

4.2 문맥 길이의 실제 영향

Qwen3-0.6B-FP8은 기본적으로 512개 토큰의 문맥 길이를 지원하며, 최대 32K까지 확장할 수 있습니다. 이 "토큰"은 대략 "단어 조각"으로 이해할 수 있으며, 중국어에서는 약 1개의 토큰이 0.8-1.2개의 한자에 해당합니다.

실제 사용에서 512의 문맥 길이는 무엇을 의미할까요?

  • 약 10-15회의 대화 내용을 기억할 수 있음
  • 약 800-1000자의 텍스트를 처리할 수 있음
  • 대부분의 일상 대화와 간단한 작업에는 충분함

더 긴 문서를 처리하거나 더 깊은 대화를 하려면 API 호출 시 `max_position_embeddings` 파라미터를 조정할 수 있습니다. 하지만 문맥이 길수록 필요한 메모리와 계산 리소스도 더 많아진다는 점에 유의하세요.

5. 기술적 특성 및 성능

5.1 가볍지만 효율적인 설계

Qwen3-0.6B-FP8은 파라미터 수가 적음에도 불구하고, 리소스가 제한된 환경에서도 잘 작동하도록 많은 최적화를 진행했습니다:

메모리 사용량 극도로 낮음

  • FP8 양자화 후 모델 크기 약 600MB
  • 추론 시 VRAM 사용량 약 2GB
  • GPU가 FP8을 지원하지 않으면 자동으로 FP16으로 되돌아가 VRAM 사용량 약 3GB

이 메모리 사용량은 어떤 의미일까요? 현재 많은 소비자용 그래픽 카드는 8GB 이상의 VRAM을 가지고 있으므로, 동일한 카드에서 여러 개의 Qwen3-0.6B-FP8 인스턴스를 동시에 실행하거나 다른 애플리케이션과 함께 실행할 수 있습니다.

충분히 빠른 추론 속도

  • RTX 4090D에서는 초당 20-30 토큰을 달성할 수 있음
  • 대부분의 대화 시나리오에서 이 속도는 충분히 원활함
  • 최초 로드는 3-5초가 소요되지만, 이후 응답은 1초 이내

5.2 FP8 양자화의 장점 및 호환성

FP8(8비트 부동 소수점)은 Intel이 제안한 새로운 수치 형식으로, 정밀도를 거의 손실시키지 않으면서 모델의 메모리 사용량과 계산 오버헤드를 크게 줄일 수 있습니다.

하지만 모든 GPU가 FP8 계산을 지원하는 것은 아닙니다. Qwen3-0.6B-FP8은 이를 고려하여 자동으로 되돌아가는 메커니즘을 내장했습니다:

  • GPU가 FP8을 지원하는 경우(예: 최신 NVIDIA H100, Intel GPU), FP8 형식으로 실행하여 가장 빠르고 메모리를 적게 사용
  • 지원하지 않으면 자동으로 FP16 또는 BF16 형식으로 되돌아가며, 사용자는 아무런 조치를 취할 필요가 없음

이 설계 덕분에 모델은 뛰어난 호환성을 가지며, 어떤 하드웨어를 사용하든 정상적으로 실행할 수 있습니다.

5.3 API 호환성: 기존 시스템과 원활하게 연동

개발자라면 Qwen3-0.6B-FP8을 자신의 애플리케이션에 통합하고 싶을 것입니다. 기쁜 소식은 OpenAI 스타일의 API와 완벽하게 호환된다는 것입니다.

이것은 무엇을 의미할까요? 이전에 ChatGPT API를 사용했거나 다른 OpenAI 인터페이스와 호환되는 모델을 사용했다면, Qwen3-0.6B-FP8으로 전환하는 것은 거의 코드 수정이 필요 없다는 것입니다.

모델은 두 개의 서비스 포트를 제공합니다:

  • 7860 포트: Gradio 웹 인터페이스, 직접 상호 작용 테스트에 적합
  • 8000 포트: FastAPI 백엔드, 표준 `/chat` 엔드포인트 제공

다음과 같은 코드로 호출할 수 있습니다:

import requests
import json

api_endpoint = "http://localhost:8000/chat"
headers = {"Content-Type": "application/json"}

request_payload = {
    "messages": [
        {"role": "user", "content": "안녕"}
    ],
    "temperature": 0.7,
    "max_tokens": 256,
    "enable_thinking": True
}

response = requests.post(api_endpoint, headers=headers, data=json.dumps(request_payload))
result = response.json()
print(result["choices"][0]["message"]["content"])

LangChain과 같은 프레임워크를 사용하는 경우 통합이 더 간단하며, 기본적으로 API 주소만 변경하면 됩니다.

6. 실제 적용 시나리오 및 효과 보여주기

6.1 시나리오 1: 지능형 고객 서비스 어시스턴트

온라인 상점을 운영하고 고객에게 매일 비슷한 질문에 답해야 한다고 상상해보세요: "언제 발송되나요?", "어떻게 반품/교환하나요?", "이 상품 재고가 있나요?"

Qwen3-0.6B-FP8으로 고객 서비스 어시스턴트를 구축하면 다음과 같이 파라미터를 설정할 수 있습니다:

  • 온도: 0.3 (답변이 정확해야 하며 자의적이지 않아야 함)
  • 최대 길이: 200 (답변이 간결해야 하며 장황해서는 안 됨)
  • 생각 모드 비활성화 (고객 서비스 답변에는 추론 과정을 표시할 필요가 없음)

그런 다음 일반적인 질문에 대한 표준 답변을 AI에게 제공하면, 대부분의 반복적인 문제를 처리할 수 있습니다. 또한 모델이 작기 때문에 저렴한 클라우드 서버에서 여러 인스턴스를 동시에 배포하여 많은 고객을 동시에 서비스할 수도 있습니다.

6.2 시나리오 2: 프로그래밍 학습 파트너

프로그래밍을 배우고 있다면 Qwen3-0.6B-FP8은 좋은 연습 파트너가 될 수 있습니다. 생각 모드를 활성화하여 코드를 설명해달라고 요청하세요:

당신: "파이썬의 데코레이터가 무엇인지 설명해줘"

AI는 먼저 생각 과정을 보여줍니다:


사용자는 파이썬 데코레이터의 개념을 물어봤습니다. 데코레이터는 파이썬의 중요한 기능으로, 원래 함수 코드를 수정하지 않고도 새로운 기능을 추가할 수 있게 해줍니다. 간단한 예제를 사용하여 설명해야 하며, 너무 기술적으로 만들지 않도록 주의해야 합니다.

그런 다음 공식 답변을 제공합니다: "데코레이터는 함수에 '옷을 입히는' 것과 같습니다. 예를 들어 함수에 타이머 기능을 추가하고 싶어서, 이 함수가 얼마나 오래 실행되는지 알고 싶다면, 데코레이터를 작성하여 이 함수를 '장식'하면 타이머 기능이 추가되지만 원래 함수 코드는 전혀 변경되지 않습니다."

생각 과정을 보면 AI가 답변을 어떻게 구성하는지 이해할 수 있어 프로그래밍 개념을 배우는 데 도움이 됩니다.

6.3 시나리오 3: 창의적 글쓰기 어시스턴트

소설, 시, 카피라이팅을 쓸 때는 AI가 더 창의적이기를 원합니다. 이때는 온도를 0.9 또는 1.0으로 높여 AI가 다양한 표현을 시도하도록 장려할 수 있습니다.

예를 들어, 약간의 서스펜스를 담은 시간 여행자 이야기의 시작 부분을 쓰고 싶다고 상상해보세요:

온도를 0.9로 조정한 후 AI의 답변: "초침이 12시를 13번째로 스쳤을 때, 리웨이는 무언가 잘못되었다는 것을 알았습니다. 벽上的 시계는 2023년 5월 17일을 표시하고 있었지만, 그는 분명히 어제가 5월 18일이었던 것을 기억하고 있었습니다. 기억상실이 아니었습니다. 왜냐하면 그의 주머니에 있는 신문 날짜는 확실히 5월 18일이었기 때문입니다. 시간이 그에게 역행하고 있었고, 그는 유일하게 이 사실을 알아차린 사람이었습니다."

온도를 0.5로 조정한 후 AI의 답변: "리웨이는 자신의 시계가 모든 시계보다 하루 빠르다는 것을 발견했습니다. 처음에는 시계가 고장 났다고 생각했지만, 스마트폰, 컴퓨터, 심지어 거리의 전자 화면도 잘못된 날짜를 표시하고 있었습니다. 그는 이것이 기술적 오류가 아니라 시간 자체에 문제가 발생했다는 것을 깨달았습니다."

동일한 요청이지만 다른 온도 설정으로 완전히 다른 스타일의 시작 부분을 얻었습니다. 원하는 스타일에 따라 이러한 파라미터를 언제든지 조정할 수 있습니다.

7. 사용 팁 및 주의사항

7.1 파라미터 조절의 최적 실천법

광범위한 테스트를 통해 몇 가지 파라미터 조절 경험을 다음과 같이 정리했습니다:

온도 (Temperature)

  • 0.0-0.3: 높은 확실성, 사실 질문, 코드 생성에 적합
  • 0.4-0.7: 균형 모드, 대부분의 대화 시나리오에 적합
  • 0.8-1.0: 높은 창의성, 글쓰기, 브레인스토밍에 적합
  • 1.0 이상: 높은 무작위성, 비합리적인 출력 가능성

최대 생성 토큰 (Max New Tokens)

  • 64-128: 초단문 응답, 명령 응답에 적합
  • 129-256: 간단한 답변, 일상 대화에 적합
  • 257-512: 중간 길이, 설명 설명에 적합
  • 513-1024: 상세한 답변, 장문 생성에 적합

생각 모드 사용 제안

  • 논리적 추론, 수학 문제: 강력히 활성화 권장
  • 창의적 글쓰기, 수다스러운 대화: 비활성화 가능
  • 활성화 후 출력이 잘리면 max_tokens를 256 이상으로 늘려보세요

7.2 일반적인 문제 및 해결 방법

문제 1: 생각 모드 출력이 불완전함 때때로 생각 모드의 출력이 잘리고 `` 태그가 닫히지 않은 것을 발견할 수 있습니다. 이는 보통 max_tokens가 너무 작게 설정되었기 때문입니다.

해결 방법: 최대 생성 길이를 256 이상으로 조정하세요. 생각 모드는 추론 과정을 표시하는 데 추가 토큰이 필요하며, 길이 제한이 너무 엄격하면 잘릴 수 있습니다.

문제 2: 답변이 너무 장황하거나 너무 간결함 이것은 가장 쉽게 조절할 수 있는 문제입니다. AI가 너무 많이 말하면 최대 길이를 줄이고, 너무 적게 말하면 늘리세요. 답변이 창의성이 부족하면 온도를 높이고, 너무 난해하면 온도를 낮추세요.

문제 3: 연속 대화 시 문맥 손실 Qwen3-0.6B-FP8은 기본적으로 512개 토큰의 문맥을 기억할 수 있으며, 약 10-15회의 대화에 해당합니다. 이전 대화를 잊었다고 느끼면 대화 기록이 너무 길었을 수 있습니다.

해결 방법: 특히 긴 대화의 경우, 이전의 주요 내용을 요약하고 AI에게 "우리가 방금 논의한 내용을 바탕으로..."라고 말하여 알려주세요.

7.3 성능 최적화 제안

자신의 서버에 Qwen3-0.6B-FP8을 배포하는 경우, 다음과 같은 최적화 제안이 있습니다:

하드웨어 선택

  • 최소 요구 사항: 4GB 메모리, CUDA 지원 GPU
  • 권장 구성: 8GB 이상 메모리, RTX 3060 또는 동급 성능 GPU
  • CPU만 있는 경우에도 실행 가능하지만 속도가 훨씬 느림

배포 구성

  • 예상 동시 접속량이 높은 경우 여러 인스턴스 배포
  • Docker 컨테이너화 배포, 관리 및 이전 용이
  • 서비스 안정성을 위해 자동 재시작 메커니즘 설정

API 호출 최적화

  • 연속 대화의 경우 동일한 session_id를 사용하여 모델이 일부 계산을 재사용할 수 있도록 함
  • 생각 과정이 필요 없다면 enable_thinking을 비활성화하여 속도 향상
  • 실제 필요에 따라 적절한 max_tokens를 설정하여 불필요한 긴 텍스트 생성 방지

태그: Qwen3-0.6B-FP8 FP8 LLM temperature Thinking Mode

7월 1일 17:24에 게시됨