added processing

2023-08-10 18:09:19 +03:00
parent be4e16ed35
commit 01525451c7
1 changed files with 7 additions and 1 deletions
@@ -32,6 +32,12 @@ li{
 1. יצירת טבלאות להכנסת הנתונים. לשם כך נוצרו הטבלאות הבאות 
    - סוגה: טבלא בשם סוגה (genre) שמרה בתוכה את הסוגה של כול טקסט, לפי קוד הטקסט. [Genre](https://dh.saret.tk/dh/api/ggenre)
    - פרוייקט: טבלא בשם פרוייקט (project) שמרה בתוכה את כלל שמות הפרוייקטים ותתי הפרוייקטים. טבלא זו נדרש בעיקר בשלב גרידת הטקסטים.[Project](https://dh.saret.tk/dh/api/gprojects)
-    - 
+    - תעתיק: טבלא בשם new כללה את התעתיק המפוצל לאכדית, יחד עם המזהה של הטקסט, על מנת להצמיד ביניהם בהמשך. [New](https://dh.saret.tk/dh/api/gnew)
+    - תרגום: טבלא נוספת הייתה טבלא בשם raw_texts שמטרתה הייתה להחזיק את כלל התרגומים של הטקסטים. [Jsons](https://dh.saret.tk/dh/api/gjson)
+    - ניתן לראות את כלל הקישרוים ב[קישורים](https://dh.saret.tk/dh/api/links)
+1. כתיבת קוד פייתון אשר יוריד את כלל המידע, ויכניס אותו לנתונון.
+
+### עיבוד הנתונים
+השלב הבא, לאחר איסוף הנתונים, הוא שלב העיבוד. שלב זה היה יחסית מאתגר. לאחר חודשים שבהם ניסיתי להריץ מספר מודלים פשוטים כגון  Word2Vec, TF-IDF, Doc2Vec ועוד, התקבלו תוצאות מוזרות, של קשרים שהתאימו רק בין טקסט לבין עצמו, התאמה של 1, והשאר, היו על התאמה של 0.

 </div>