fix 儂->わし bug

2021-08-14 23:13:04 +08:00 · 2021-08-14 23:13:04 +08:00 · bddf12b89c
commit bddf12b89c
parent 3eb0440b58
1 changed files with 32 additions and 2 deletions
--- a/pseudo-chinese.py
+++ b/pseudo-chinese.py
@ -1,3 +1,4 @@
+import functools
 import MeCab
 import sys
 import re
@ -28,6 +29,24 @@ def parse(sentence):
 	return result


+def is_hira(string):
+	if isinstance(string, str):
+		string = list(string)
+	if len(string) == 0:
+		return False
+	elif len(string) == 1:
+		return (("ぁ" <= string[0]) and (string[0] <= "ん"))
+	if len(string) > 1:
+		return functools.reduce((lambda x, y: (is_hira(x) and is_hira(y))) , string)
+
+def contain_kanji(str):
+	if len(str) == 0:
+		return False
+	elif len(str) == 1:
+		return re.match(r"[一-龯]", str)
+	if len(str) > 1:
+		return functools.reduce(lambda x, y: contain_kanji(x) or contain_kanji(y) , str)	
+

 # ひらがなを削除する関数
 # Function to delete hiragana.
@ -64,10 +83,18 @@ if __name__ == "__main__":
 				elif token['lemma'] == 'た':
 					prime = "了"
 				else:
-					prime = token["lemma"]
+					print(is_hira(token['lemma']))
+					if is_hira(token['lemma']):
+						
+						prime = token["form"]
+					else:
+						prime = token["lemma"]
 			else:
-				prime = token["lemma"]

+				if is_hira(token["lemma"]) and contain_kanji(token["form"]):
+					prime=token["form"]
+				else:
+					prime = token["lemma"]


 			if (token['lemma'] == '君' or token['lemma'] == '貴方' or token['lemma'] == 'お前'):
@ -90,6 +117,9 @@ if __name__ == "__main__":
 						prime = "無之"
 					else:
 						prime = prime + "之"
+			
+			
+

 			result_list.append(hira_to_blank(prime))