fix bert instance that causes ram issues on coalb

capimx · capimx · commit 902abf9a3a08 · 2019-03-17T11:38:04.000Z
diff --git a/tutorials/03-advanced/image_captioning/model.py b/tutorials/03-advanced/image_captioning/model.py
@@ -30,24 +30,26 @@ def __init__(self, embed_size, hidden_size, vocab, num_layers, max_seq_length=20
         """Set the hyper-parameters and build the layers."""
         super(DecoderRNN, self).__init__()
         Bert_file = "bert-base-uncased.30522.768d.vec"
+        print("M1")
         Lookup = gensim.models.KeyedVectors.load_word2vec_format(Bert_file, binary=False)
-        
+        bert_embedding = BertEmbedding()
         Embed = np.zeros((len(vocab), embed_size))
+        print("M2")
         Embed[vocab('<pad>'),:] = np.random.normal(0, 1, embed_size)
         Embed[vocab('<start>'),:] = np.random.normal(0, 1, embed_size)
         Embed[vocab('<end>'),:] = np.random.normal(0, 1, embed_size)
         Embed[vocab('<unk>'),:] = np.random.normal(0, 1, embed_size)
-        
+        print("M3")
         for word in vocab.__keys__()[4:]:
             try:
                 Embed[vocab(word),:] = Lookup[word]
             except:
                 bert_word = word
-                token = bert_word.split('\n')
-                bert_embedding = BertEmbedding()
+                token = bert_word.split('\n')                
                 pred = bert_embedding(token)
                 Embed[vocab(word),:] = pred[0][1][0]
-               
+        
+        print("M4")
         self.embed = nn.Embedding(len(vocab), embed_size)
         self.embed.weight.data.copy_(torch.FloatTensor(Embed))
         self.lstm = nn.LSTM(embed_size, hidden_size, num_layers, batch_first=True)