Yoshimaru's Blog

京都に住む院生が書いています

Word2vec型で格納されたデータの語彙一覧を見る

Gensim のword2vec型の語彙一覧を見る方法について

ベクトルを得る方法は色々あるが,そもそもキーがあるかどうかがわからないとエラーが出るので,語彙一覧は見たい所.

以前のバージョンでは以下で取得できたようだが,4.0.0で仕様が変更.

from gensim.models import word2vec

model = word2vec.Word2Vec.load("ファイルのパス")
print(model.wv.vocab.keys())

4.0.0では以下のようにする

print(model.wv.index_to_key)

公式の説明とサイト

説明の日本語文は以下(ベタ翻訳)

Gensim 4.0.0 で KeyedVector から vocab 属性が削除されました。代わりに KeyedVector の .key_to_index dict, .index_to_key list, .get_vecattr(key, attr) と .set_vecattr(key, attr, new_val) メソッドを使用してください。

そのサイト

github.com