Qwen (通义千问) 是什么？

通义千问（Qwen）是阿里云开发的一个全面的大型语言模型（LLM）系列。其名称“通义千问”寓意“通过问一千个问题来寻求真理”。该系列包括参数规模从18亿到720亿不等的多种模型，以满足不同的计算需求。该家族还拥有用于视觉的专用模型（Qwen-VL）和用于编码的专用模型（CodeQwen），使其成为一个功能多样且强大的开源生态系统，供AI开发者使用。

主要特点

广泛的模型范围： 包括Qwen-1.8B、Qwen-7B、Qwen-14B以及旗舰级的Qwen-72B等模型，让开发者可以根据性能和资源限制选择最合适的模型。
卓越的多语言能力： Qwen在庞大的多语言语料库上进行了预训练，在中英文方面表现出卓越的性能。
超长上下文窗口： 这些模型，特别是较大版本，支持长达32k词元（token）的上下文窗口，使其能够处理和理解长篇文档或对话。
专用变体： Qwen家族不仅限于文本，还拥有用于多模态视觉语言任务的Qwen-VL和用于高级代码生成与理解的CodeQwen。
开放与可及： 这些模型在Hugging Face和ModelScope等平台上提供，并采用宽松的Apache 2.0许可证，可用于商业用途。

应用场景

对话式AI： 构建能够处理复杂对话的先进聊天机器人和虚拟助手。
内容创作： 生成高质量的文章、摘要、营销文案和其他书面内容。
软件开发： 使用CodeQwen辅助开发者进行代码生成、调试和解释。
多模态应用： 使用Qwen-VL分析和理解图像，以回答问题或生成描述。
翻译服务： 提供中文、英文及其他语言之间的高保真度翻译。

快速入门

以下是一个简单的“Hello World”风格示例，使用transformers库来运行Qwen聊天模型。

首先，请确保您已安装必要的库： ```bash pip install transformers torch accelerate

然后，您可以运行以下Python代码： ```python from transformers import AutoModelForCausalLM, AutoTokenizer from transformers.generation import GenerationConfig

建议使用最新的模型版本，例如 “Qwen/Qwen1.5-1.8B-Chat”

tokenizer = AutoTokenizer.from_pretrained(“Qwen/Qwen1.5-1.8B-Chat”, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( “Qwen/Qwen1.5-1.8B-Chat”, device_map=”auto”, trust_remote_code=True ).eval()

开始聊天

prompt = “你好，介绍一下你自己。” messages = [{“role”: “user”, “content”: prompt}] text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) model_inputs = tokenizer([text], return_tensors=”pt”).to(“cuda”) # 如果有GPU，请使用 “cuda”

generated_ids = model.generate( model_inputs.input_ids, max_new_tokens=512 ) generated_ids = [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(response)

预期输出可能为：

你好！我是通义千问，一个由阿里云研发的大语言模型。

定价

Qwen模型在Apache 2.0许可证下开源，可免费用于研究和商业用途。此外，阿里云也通过其平台提供对这些模型的付费API访问，为那些不愿自行托管模型的企业提供了一个可扩展的托管解决方案。

社区反响

Qwen系列在AI社区获得了高度积极的评价。它经常与Llama、Mixtral等其他领先的开源模型进行基准测试比较，并常常表现出具有竞争力或更优越的性能，尤其是在多语言任务上。该项目活跃的GitHub仓库和在Hugging Face上的存在，促进了一个不断壮大的开发者和研究者社区。

Qwen

Qwen (通义千问) 是什么？

主要特点

应用场景

快速入门

建议使用最新的模型版本，例如 “Qwen/Qwen1.5-1.8B-Chat”

开始聊天

预期输出可能为：

你好！我是通义千问，一个由阿里云研发的大语言模型。

定价

社区反响

System Specs

Classifications

Tags

Alternative Systems