embedding模型是一种将数据映射到低维空间的模型,常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型:
Word2Vec:
CBOW(Continuous Bag-of-Words):通过上下文预测中心词。
Skip-Gram:通过中心词预测上下文。
GloVe(Global Vectors for Word Representation):结合了词频统计和Word2Vec的优点,通过全局词频信息学习词向量。
FastText:
利用子词信息,通过字符级别的n-gram来表示词。
BERT(Bidirectional Encoder Representations from Transformers):
利用Transformer的双向编码器,通过预训练来学习语言表示。
Transformer:通过自注意力机制来学习序列数据的深层次表示。
ELMO(Embeddings from Language Models):结合了浅层双向LSTM和预训练的词向量。
Sentence-BERT(SBERT):为句子生成embedding,可以用于计算句子之间的相似度。
Doc2Vec:扩展了Word2Vec,可以生成文档级别的向量。
Item2Vec:类似于Word2Vec,但是用于推荐系统中的项目(item)。
Node2Vec: