语义模型 - 从 Transformer 到 Qwen
本文介绍了基于Transformer架构的现代语义模型,包括Encoder-Only和Decoder-Only两种主要类型。重点解析了BERT双向编码器的优势,以及GPT系列等生成式模型的特点,并对Qwen3等新兴模型进行了说明。同时概括了模型文件的不同保存格式和典型结构,如.safetensors和.ckpt等。最后讨论了激活函数的作用和Tokenizer分词算法,包括BPE、WordPiece等主流方法及其应用场景。文章为理解现代NLP模型提供了从架构原理到实践应用的全方位概述。



























