saret/DH

Fork 0

T

saret 8b8e15b082 auto rtl has been added

2023-10-21 15:37:32 +03:00

__pycache__

update

2023-06-26 23:12:28 +03:00

.ipynb_checkpoints

updates from server

2023-04-19 06:59:45 +03:00

.gitignore

no raw data

2023-08-08 17:06:12 +03:00

2023-05-15_21-45-30.log

update

2023-06-26 23:12:28 +03:00

datat.ipynb

summery

2023-08-12 18:19:37 +03:00

jsons_unzipped

update the progress

2023-04-17 02:51:50 +03:00

missing_list.txt

update the progress

2023-04-17 02:51:50 +03:00

project_list

finished scrapping all the data

2023-04-12 22:05:16 +03:00

project_notebook.ipynb

update

2023-06-26 23:12:28 +03:00

README.md

auto rtl has been added

2023-10-21 15:37:32 +03:00

report.html

starting the report

2023-08-08 16:08:55 +03:00

requirements.txt

updates from server

2023-04-19 06:59:45 +03:00

scrape.py

failed scraping

2023-06-27 11:53:56 +03:00

scrapping.py

update the progress

2023-04-17 02:51:50 +03:00

README.md

DH

This is the project for course 33503 of Dr. Renana Keidar

Project, By Benny Saret

דו"ח התקדמות

מטרות

מטרת הפרוייקט היא לייצר דרך למצוא קרבה או אינטראקסטואליות בין טקסטים שונים באכדית בין תקופות שונות, סוגות שונות ומרחקים גיאוגרפיים. אינטרטקסטואליות הוא מונח המתאר מערכת קרבה וקשר בין טקסט מסויים לטקסטים אחרים, המשתמשים כחומר מצע, התכתבות, או ויכוח לאותו טקסט. את אותה קרבה ניתן לראות בעזרת מינוחים דומים, דימויים דומים, שיבוצי כתובים ועוד.

נתוני מקור

נתוני המקור כולם נלקחו מפרוייקט ORACC The Open Richly Annotated Cuneiform Corpus. פרוייקט זה, הוא הפרוייקט הגדול והמקיף ביותר של טקסטים בכתב יתדות, פתוחים ונגישים לשימוש לקהל הרחב, ולחוקרים מכול הסוגים. הנתונים מגיעים בפורמטי JSON,TEI,XML ו־HTML, ומתעדכנים בכול עת. בפרוייקט ישנם לא רק טקסטים באכדית, אלא גם טקסטים באוררטית, שומרית וכן גם טקסטים בשפות משולבות של איזורי סְפָֿר.

אופן העבודה

איסוף הנתונים

השלב הראשון בפרוייקט היה איסוף הנתונים מאוראקק. תת השלבים של האיסוף היו:

הקמת נתונון לשמירה של המידע הנאסף. הנתונון שנבחר היה postgresql, נתונון יחסי המממש את שפת SQL.
יצירת טבלאות להכנסת הנתונים. לשם כך נוצרו הטבלאות הבאות
- סוגה: טבלא בשם סוגה (genre) שמרה בתוכה את הסוגה של כול טקסט, לפי קוד הטקסט. Genre
- פרוייקט: טבלא בשם פרוייקט (project) שמרה בתוכה את כלל שמות הפרוייקטים ותתי הפרוייקטים. טבלא זו נדרש בעיקר בשלב גרידת הטקסטים.Project
- תעתיק: טבלא בשם new כללה את התעתיק המפוצל לאכדית, יחד עם המזהה של הטקסט, על מנת להצמיד ביניהם בהמשך. New
- תרגום: טבלא נוספת הייתה טבלא בשם raw_texts שמטרתה הייתה להחזיק את כלל התרגומים של הטקסטים. Jsons
- ניתן לראות את כלל הקישרוים בקישורים
כתיבת קוד פייתון אשר יוריד את כלל המידע, ויכניס אותו לנתונון.

עיבוד הנתונים

השלב הבא, לאחר איסוף הנתונים, הוא שלב העיבוד. שלב זה היה יחסית מאתגר. לאחר חודשים שבהם ניסיתי להריץ מספר מודלים פשוטים כגון Word2Vec, TF-IDF, Doc2Vec ועוד, התקבלו תוצאות מוזרות, של קשרים שהתאימו רק בין טקסט לבין עצמו, התאמה של 1, והשאר, היו על התאמה של 0.

לאחר מספר חודשים של ניסיונות, ונטישות, פניתי לעזרת פורום פייסבוק בקבוצת MDLI, שם הציעו לי מחדש ללכת על מודלים פשוטים, ואף שלחו לי מספר קישורים מתוך medium (TF-IDF Vectorizer scikit-learn ו־Understanding TF-IDF and Cosine Similarity for Recommendation Engine ), והייתה לי התקדמות במודל. ואולם, על אף שהצליחו לצאת לי תוצאות, לא הצלחתי לייצר גרף מהווקטורים הללו.

הדגמת תוצאות

שני טקסטים שנמצאו בעלי קרבה של כ־87% הם למשל, P394767 ו־P395011. לאחר בדיקה קצרה של הטקסטים הללו, גם לעיניים שלי, הם נראו דומים. ובאמת, שני הטקסטים הללו מגיעים מאותה רשימה קאנונית המכונה "House most high". באוראקק אין כול אזכור ש־P394767 הוא מתוך הרשימה ההיא, אך המודל מצא את הדמיון, והעלה זאת לבדו.

סיכום

בסופו של דבר, המודל הצליח להציג תוצאות טובות, אך עדיין לא מספקות. על כן, יש צורך בעבודה נוספת על המודל, ובפרט על הנתונים שהוכנסו למודל. כמו כן, יש צורך בעבודה על הגרף עצמו, ובפרט על הצגתו למשתמש באופן נוח וידידותי. המודל, והשיטה יכולים להוות התקדמות למחקר עתידי, לפיתוחו ולשימוש להבנת האכדית בצורה טובה יותר.