2023-06-26 23:12:28 +03:00
2023-04-19 06:59:45 +03:00
2023-08-08 17:06:12 +03:00
2023-06-26 23:12:28 +03:00
2023-06-26 23:21:34 +03:00
2023-04-17 02:51:50 +03:00
2023-04-17 02:51:50 +03:00
2023-04-12 22:05:16 +03:00
2023-06-26 23:12:28 +03:00
2023-08-08 16:08:55 +03:00
2023-04-19 06:59:45 +03:00
2023-06-27 11:53:56 +03:00
2023-04-17 02:51:50 +03:00

DH

This is the project for course 33503 of Dr. Renana Keidar

Project, By Benny Saret

דו"ח התקדמות

מטרות

מטרת הפרוייקט היא לייצר דרך למצוא קרבה או אינטראקסטואליות בין טקסטים שונים באכדית בין תקופות שונות, סוגות שונות ומרחקים גיאוגרפיים. אינטרטקסטואליות הוא מונח המתאר מערכת קרבה וקשר בין טקסט מסויים לטקסטים אחרים, המשתמשים כחומר מצע, התכתבות, או ויכוח לאותו טקסט. את אותה קרבה ניתן לראות בעזרת מינוחים דומים, דימויים דומים, שיבוצי כתובים ועוד.

נתוני מקור

נתוני המקור כולם נלקחו מפרוייקט ORACC The Open Richly Annotated Cuneiform Corpus. פרוייקט זה, הוא הפרוייקט הגדול והמקיף ביותר של טקסטים בכתב יתדות, פתוחים ונגישים לשימוש לקהל הרחב, ולחוקרים מכול הסוגים. הנתונים מגיעים בפורמטי JSON,TEI,XML ו־HTML, ומתעדכנים בכול עת. בפרוייקט ישנם לא רק טקסטים באכדית, אלא גם טקסטים באוררטית, שומרית וכן גם טקסטים בשפות משולבות של איזורי סְפָֿר.

אופן העבודה

איסוף הנתונים

<style> ul{ align: right; direction: rtl; } li{ align: right; direction: rtl; } </style>

השלב הראשון בפרוייקט היה איסוף הנתונים מאוראקק. תת השלבים של האיסוף היו:

  1. הקמת נתונון לשמירה של המידע הנאסף. הנתונון שנבחר היה postgresql, נתונון יחסי המממש את שפת SQL.
  2. יצירת טבלאות להכנסת הנתונים. לשם כך נוצרו הטבלאות הבאות
    • סוגה: טבלא בשם סוגה (genre) שמרה בתוכה את הסוגה של כול טקסט, לפי קוד הטקסט. Genre
    • פרוייקט: טבלא בשם פרוייקט (project) שמרה בתוכה את כלל שמות הפרוייקטים ותתי הפרוייקטים. טבלא זו נדרש בעיקר בשלב גרידת הטקסטים.Project
Description
This is the project for course 33503 of Dr. Renana Keidar
Readme 9.4 MiB
Languages
Jupyter Notebook 99.9%