1
0
Files
DHGeography/README.md

3.5 KiB
Raw Blame History

מדעי הרוח הדיגיטליים

קורס 33001, סמסטר ב' תשפ"ג, ד"ר יעל נצר

מטרות הפרוייקט

פרוייקט זה, מטרתו לבחון את התפתחות השימוש בכתיבה בכתב יתדות לאורך תקופת קיומה, החל מהאלף הרביעי לפני הספירה, עד סוף השימוש בכתב יתדות. על מנת לבחון זאת, יש לאסוף מידע, לאגור אותו, לעבד אותו ולהציגו.

המידע

המידע נלקח מפורטל ORACC, המאגד בתוכו מספר גדול של פרוייקטים וקרופוסים של טקסטים בכתב יתדות. המידע נלקח מקרופוסים של טקסטים מתקופות שונות. המידע שנאסף, כולל את מקום גילוי הטקסט, קורדינטות האתר (במידה וישנן) תאריך, וכן מזהה הטקסט. שאר הפרטים, הושמטו, מחמת היקף הפרוייקט.

עיבוד המידע

טרם ניקוי המידע, במהלך עיבוד מקדים, נאספו כלל הפרטים לנתונון postgresql. שם סודרו הקטגוריות, ונבדקו חוסרים במידע, כגון קורדינטות לאתרים, חוסרים בתקופות, ואי ידיעת מקום הימצאות.

המידע סודר ונוקה בשלב ראשון בעזרת שאילתות sql, כדי לזהות דפוסים במידע (למשל, חוסר אחידות בין פרוייקטים שונים, שינויי כתיב, אחידות של מקומות ועוד). לאחר מכן, יוצא מרבית המידע לקבצי csv, והוכנס ל־openrefine.

בעזרת openrefine, אוחדו כתיבים, יוצאו רשימת אתרים וקורדינטות, וכן הוגדרו קטגוריות של מידע. בין כלל חוסר האחידות של ORACC, היו חוסרי אחידות רציניים בתקופות, כמו טקסט מן המאות ה־9 עד ה־7, טקסט מהתקופה האשורית החדשה, טקסט מן השושלת הסרגונית התקופה האשורית החדשה, והאימפריה הנאו־אשורית, טקסט מן האלף הראשון לפנה"ס. בעוד שאפשר אולי לשים על ציר זמן את הטקסטים ואת התקופות חוסר הבהירות של התקופות, הכריחה אותי לקבוע קטגוריות מאוחדות. את רשימת התקופות, וחלוקתן, ניתן לראות בקובץ period.csv

התקופות חולקו, באופן לא שווה, ל־5 קטגוריות:

  1. עתיק (עד סוף האלף השלישי לפנה"ס)
  2. קדום (תחילת האלף שני לפנה"ס עד אמצעיתו)
  3. תיכון (אמצע האלף השני לפנה"ס עד תחילת האלף הראשון לפנה"ס)
  4. חדש (תחילת האלף הראשון לפנה"ס עד אמצעיתו)
  5. מאוחר (אמצע האלף הראשון לפנה"ס עד המאות הראשונות לספירה)

קטגוריות אלו מתבססות על תקופות לשוניות (כרונולקטים) של האכדית (שושלות קדומות, שומרית, אכדית עתיקה; בבלית ואשורית עתיקה; בבלית ואשורית תיכונה; בבלית ואשורית חדשה; בבלית מאוחרת) 1


  1. Huehnergard, J., 2011. A grammar of Akkadian (Vol. 45). Brill. ↩︎