saret/DH

Fork 0

T

saret be4e16ed35 update the project data collecting and the steps for it

2023-08-09 18:54:42 +03:00

__pycache__

update

2023-06-26 23:12:28 +03:00

.ipynb_checkpoints

updates from server

2023-04-19 06:59:45 +03:00

.gitignore

no raw data

2023-08-08 17:06:12 +03:00

2023-05-15_21-45-30.log

update

2023-06-26 23:12:28 +03:00

datat.ipynb

boolean similarity

2023-06-26 23:21:34 +03:00

jsons_unzipped

update the progress

2023-04-17 02:51:50 +03:00

missing_list.txt

update the progress

2023-04-17 02:51:50 +03:00

project_list

finished scrapping all the data

2023-04-12 22:05:16 +03:00

project_notebook.ipynb

update

2023-06-26 23:12:28 +03:00

README.md

update the project data collecting and the steps for it

2023-08-09 18:54:42 +03:00

report.html

starting the report

2023-08-08 16:08:55 +03:00

requirements.txt

updates from server

2023-04-19 06:59:45 +03:00

scrape.py

failed scraping

2023-06-27 11:53:56 +03:00

scrapping.py

update the progress

2023-04-17 02:51:50 +03:00

README.md

DH

This is the project for course 33503 of Dr. Renana Keidar

Project, By Benny Saret

דו"ח התקדמות

מטרות

מטרת הפרוייקט היא לייצר דרך למצוא קרבה או אינטראקסטואליות בין טקסטים שונים באכדית בין תקופות שונות, סוגות שונות ומרחקים גיאוגרפיים. אינטרטקסטואליות הוא מונח המתאר מערכת קרבה וקשר בין טקסט מסויים לטקסטים אחרים, המשתמשים כחומר מצע, התכתבות, או ויכוח לאותו טקסט. את אותה קרבה ניתן לראות בעזרת מינוחים דומים, דימויים דומים, שיבוצי כתובים ועוד.

נתוני מקור

נתוני המקור כולם נלקחו מפרוייקט ORACC The Open Richly Annotated Cuneiform Corpus. פרוייקט זה, הוא הפרוייקט הגדול והמקיף ביותר של טקסטים בכתב יתדות, פתוחים ונגישים לשימוש לקהל הרחב, ולחוקרים מכול הסוגים. הנתונים מגיעים בפורמטי JSON,TEI,XML ו־HTML, ומתעדכנים בכול עת. בפרוייקט ישנם לא רק טקסטים באכדית, אלא גם טקסטים באוררטית, שומרית וכן גם טקסטים בשפות משולבות של איזורי סְפָֿר.

אופן העבודה

איסוף הנתונים

השלב הראשון בפרוייקט היה איסוף הנתונים מאוראקק. תת השלבים של האיסוף היו:

הקמת נתונון לשמירה של המידע הנאסף. הנתונון שנבחר היה postgresql, נתונון יחסי המממש את שפת SQL.
יצירת טבלאות להכנסת הנתונים. לשם כך נוצרו הטבלאות הבאות
- סוגה: טבלא בשם סוגה (genre) שמרה בתוכה את הסוגה של כול טקסט, לפי קוד הטקסט. Genre
- פרוייקט: טבלא בשם פרוייקט (project) שמרה בתוכה את כלל שמות הפרוייקטים ותתי הפרוייקטים. טבלא זו נדרש בעיקר בשלב גרידת הטקסטים.Project