attention is all u need

shixiaowen03 · shixiaowen03 · commit d93f2a52b96d · 2018-12-10T22:13:58.000+08:00
diff --git a/.idea/workspace.xml b/.idea/workspace.xml
diff --git a/basic/Basic-Transformer-Demo/data_load.py b/basic/Basic-Transformer-Demo/data_load.py
@@ -81,7 +81,8 @@ def get_batch_data():
 
     num_batch = len(X) // hp.batch_size
 
-    print(X[:10],Y[:10])
+    print(X[:10])
+    print(Y[:10])
     X = tf.convert_to_tensor(X,tf.int32)
     Y = tf.convert_to_tensor(Y,tf.int32)
 
diff --git a/basic/Basic-Transformer-Demo/modules.py b/basic/Basic-Transformer-Demo/modules.py
@@ -157,8 +157,8 @@ def multihead_attention(queries,keys,num_units=None,
 
         # Linear projection
         Q = tf.layers.dense(queries,num_units,activation=tf.nn.relu) #
-        K = tf.layers.dense(queries,num_units,activation=tf.nn.relu) #
-        V = tf.layers.dense(queries,num_units,activation=tf.nn.relu) #
+        K = tf.layers.dense(keys,num_units,activation=tf.nn.relu) #
+        V = tf.layers.dense(keys,num_units,activation=tf.nn.relu) #
 
         # Split and Concat
         Q_ = tf.concat(tf.split(Q,num_heads,axis=2),axis=0) #