1
0

modify headers, added the pre and processing

This commit is contained in:
2023-11-05 01:03:29 +02:00
parent 81b7d5a24c
commit 79a1da7893

View File

@@ -1,10 +1,28 @@
# מדעי הרוח הדיגיטליים
## קורס 33001, סמסטר ב' תשפ"ג, ד"ר יעל נצר
קורס 33001, סמסטר ב' תשפ"ג, ד"ר יעל נצר
### מטרות הפרוייקט
## מטרות הפרוייקט
פרוייקט זה, מטרתו לבחון את התפתחות השימוש בכתיבה בכתב יתדות לאורך תקופת קיומה, החל מהאלף הרביעי לפני הספירה, עד סוף השימוש בכתב יתדות. על מנת לבחון זאת, יש לאסוף מידע, לאגור אותו, לעבד אותו ולהציגו.
#### המידע
המידע נלקח מ
### המידע
המידע נלקח מפורטל [ORACC](http://oracc.museum.upenn.edu), המאגד בתוכו מספר גדול של פרוייקטים וקרופוסים של טקסטים בכתב יתדות. המידע נלקח מקרופוסים של טקסטים מתקופות שונות. המידע שנאסף, כולל את מקום גילוי הטקסט, קורדינטות האתר (במידה וישנן) תאריך, וכן מזהה הטקסט. שאר הפרטים, הושמטו, מחמת היקף הפרוייקט.
### עיבוד המידע
טרם ניקוי המידע, במהלך עיבוד מקדים, נאספו כלל הפרטים לנתונון postgresql. שם סודרו הקטגוריות, ונבדקו חוסרים במידע, כגון קורדינטות לאתרים, חוסרים בתקופות, ואי ידיעת מקום הימצאות.
המידע סודר ונוקה בשלב ראשון בעזרת שאילתות sql, כדי לזהות דפוסים במידע (למשל, חוסר אחידות בין פרוייקטים שונים, שינויי כתיב, אחידות של מקומות ועוד). לאחר מכן, יוצא מרבית המידע לקבצי csv, והוכנס ל־openrefine.
בעזרת openrefine, אוחדו כתיבים, יוצאו רשימת אתרים וקורדינטות, וכן הוגדרו קטגוריות של מידע. בין כלל חוסר האחידות של ORACC, היו חוסרי אחידות רציניים בתקופות, כמו טקסט מן המאות ה־9 עד ה־7, טקסט מהתקופה האשורית החדשה, טקסט מן השושלת הסרגונית [התקופה האשורית החדשה, והאימפריה הנאו־אשורית](https://cdli.ox.ac.uk/wiki/doku.php?id=neo-assyrian_empire), טקסט מן האלף הראשון לפנה"ס. בעוד שאפשר אולי לשים על ציר זמן את הטקסטים ואת התקופות חוסר הבהירות של התקופות, הכריחה אותי לקבוע קטגוריות מאוחדות. את רשימת התקופות, וחלוקתן, ניתן לראות [בקובץ `period.csv`](https://git.saret.dev/saret/DHGeography/src/branch/master/period.csv)
התקופות חולקו, באופן לא שווה, ל־5 קטגוריות:
1. עתיק (עד סוף האלף השלישי לפנה"ס)
1. קדום (תחילת האלף שני לפנה"ס עד אמצעיתו)
1. תיכון (אמצע האלף השני לפנה"ס עד תחילת האלף הראשון לפנה"ס)
1. חדש (תחילת האלף הראשון לפנה"ס עד אמצעיתו)
1. מאוחר (אמצע האלף הראשון לפנה"ס עד המאות הראשונות לספירה)
קטגוריות אלו