auto rtl has been added

summery
remove problems
2023-10-21 15:37:32 +03:00 · 2023-08-12 18:19:37 +03:00 · 2023-08-12 18:13:10 +03:00 · 2023-08-12 17:46:38 +03:00 · 2023-08-12 15:41:13 +03:00 · 2023-08-10 18:09:19 +03:00
8 changed files with 210 additions and 14 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -3,3 +3,4 @@ logs/*
 .vscode/*
 .ipynb_checkpoints/*
 __pycache__/*
+*.csv
--- a/2023-05-15_21-45-30.log
+++ b/2023-05-15_21-45-30.log
--- a/README.md
+++ b/README.md
@@ -1,5 +1,48 @@
 # DH

-This is the project for course {ENTERCOUSENUMBER} of Dr. Renana Keidar
+This is the project for course 33503 of Dr. Renana Keidar

 Project, By Benny Saret
+
+# דו"ח התקדמות
+
+## מטרות
+מטרת הפרוייקט היא לייצר דרך למצוא קרבה או אינטראקסטואליות בין טקסטים שונים באכדית בין תקופות שונות, סוגות שונות ומרחקים גיאוגרפיים. [אינטרטקסטואליות](https://www.merriam-webster.com/dictionary/intertextually) הוא מונח המתאר מערכת קרבה וקשר בין טקסט מסויים לטקסטים אחרים, המשתמשים כחומר מצע, התכתבות, או ויכוח לאותו טקסט. את אותה קרבה ניתן לראות בעזרת מינוחים דומים, דימויים דומים, שיבוצי כתובים ועוד.
+
+## נתוני מקור
+נתוני המקור כולם נלקחו מפרוייקט ORACC [The Open Richly Annotated Cuneiform Corpus](http://oracc.museum.upenn.edu/ "ORACC, (לקמן, אוראקק)"). פרוייקט זה, הוא הפרוייקט הגדול והמקיף ביותר של טקסטים בכתב יתדות, פתוחים ונגישים לשימוש לקהל הרחב, ולחוקרים מכול הסוגים. הנתונים מגיעים בפורמטי JSON,TEI,XML ו־HTML, ומתעדכנים בכול עת.
+בפרוייקט ישנם לא רק טקסטים באכדית, אלא גם טקסטים באוררטית, שומרית וכן גם טקסטים בשפות משולבות של איזורי סְפָֿר.
+
+## אופן העבודה
+
+### איסוף הנתונים
+<style>
+ul{
+    align: right;
+    direction: rtl;
+}
+li{
+    align: right;
+    direction: rtl;
+}
+</style>
+השלב הראשון בפרוייקט היה איסוף הנתונים מאוראקק. תת השלבים של האיסוף היו: 
+1. הקמת נתונון לשמירה של המידע הנאסף. הנתונון שנבחר היה postgresql, נתונון יחסי המממש את שפת SQL.
+1. יצירת טבלאות להכנסת הנתונים. לשם כך נוצרו הטבלאות הבאות 
+    - סוגה: טבלא בשם סוגה (genre) שמרה בתוכה את הסוגה של כול טקסט, לפי קוד הטקסט. [Genre](https://dh.saret.tk/dh/api/ggenre)
+    - פרוייקט: טבלא בשם פרוייקט (project) שמרה בתוכה את כלל שמות הפרוייקטים ותתי הפרוייקטים. טבלא זו נדרש בעיקר בשלב גרידת הטקסטים.[Project](https://dh.saret.tk/dh/api/gprojects)
+    - תעתיק: טבלא בשם new כללה את התעתיק המפוצל לאכדית, יחד עם המזהה של הטקסט, על מנת להצמיד ביניהם בהמשך. [New](https://dh.saret.tk/dh/api/gnew)
+    - תרגום: טבלא נוספת הייתה טבלא בשם raw_texts שמטרתה הייתה להחזיק את כלל התרגומים של הטקסטים. [Jsons](https://dh.saret.tk/dh/api/gjson)
+    - ניתן לראות את כלל הקישרוים ב[קישורים](https://dh.saret.tk/dh/api/links)
+1. כתיבת קוד פייתון אשר יוריד את כלל המידע, ויכניס אותו לנתונון.
+
+### עיבוד הנתונים
+השלב הבא, לאחר איסוף הנתונים, הוא שלב העיבוד. שלב זה היה יחסית מאתגר. לאחר חודשים שבהם ניסיתי להריץ מספר מודלים פשוטים כגון  Word2Vec, TF-IDF, Doc2Vec ועוד, התקבלו תוצאות מוזרות, של קשרים שהתאימו רק בין טקסט לבין עצמו, התאמה של 1, והשאר, היו על התאמה של 0.
+
+לאחר מספר חודשים של ניסיונות, ונטישות, פניתי לעזרת פורום פייסבוק בקבוצת MDLI, שם הציעו לי מחדש ללכת על מודלים פשוטים, ואף שלחו לי מספר קישורים מתוך medium ([TF-IDF Vectorizer scikit-learn](https://medium.com/@cmukesh8688/tf-idf-vectorizer-scikit-learn-dbc0244a911a) ו־[Understanding TF-IDF and Cosine Similarity for Recommendation Engine](https://medium.com/geekculture/understanding-tf-idf-and-cosine-similarity-for-recommendation-engine-64d8b51aa9f9) ), והייתה לי התקדמות במודל. ואולם, על אף שהצליחו לצאת לי תוצאות, לא הצלחתי לייצר גרף מהווקטורים הללו.
+
+### הדגמת תוצאות
+שני טקסטים שנמצאו בעלי קרבה של כ־87% הם למשל, [P394767](http://oracc.iaas.upenn.edu/btto/P394767/html) ו־[P395011](http://oracc.iaas.upenn.edu/btto/P395011/html). לאחר בדיקה קצרה של הטקסטים הללו, גם לעיניים שלי, הם נראו דומים. ובאמת, שני הטקסטים הללו מגיעים מאותה רשימה קאנונית המכונה "House most high". באוראקק אין כול אזכור ש־P394767 הוא מתוך הרשימה ההיא, אך המודל מצא את הדמיון, והעלה זאת לבדו.
+
+# סיכום
+בסופו של דבר, המודל הצליח להציג תוצאות טובות, אך עדיין לא מספקות. על כן, יש צורך בעבודה נוספת על המודל, ובפרט על הנתונים שהוכנסו למודל. כמו כן, יש צורך בעבודה על הגרף עצמו, ובפרט על הצגתו למשתמש באופן נוח וידידותי. המודל, והשיטה יכולים להוות התקדמות למחקר עתידי, לפיתוחו ולשימוש להבנת האכדית בצורה טובה יותר.
--- a/pycache/scrapping.cpython-39.pyc
+++ b/pycache/scrapping.cpython-39.pyc
--- a/datat.ipynb
+++ b/datat.ipynb
@@ -0,0 +1,147 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import sklearn\n",
+    "import sklearn.model_selection\n",
+    "from sklearn.metrics.pairwise import cosine_similarity\n",
+    "from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer\n",
+    "import pandas as pd\n",
+    "import scipy\n",
+    "import numpy as np\n",
+    "\n",
+    "df_eng = pd.read_csv('raw_texts.csv')\n",
+    "df_akk = pd.read_csv('new.csv')\n",
+    "# akk_raw_train, akk_raw_test = sklearn.model_selection.train_test_split(df_akk, test_size=0.2, random_state=0)\n",
+    "# eng_raw_train, eng_raw_test = sklearn.model_selection.train_test_split(df_eng, test_size=0.2, random_state=0)\n",
+    "tf_vectorizer = TfidfVectorizer(analyzer='word')\n",
+    "# tf_vectorizer.fit(akk_raw_train['Text'].to_list())"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tf_vectorizer = TfidfVectorizer(analyzer='word')\n",
+    "save_vect = tf_vectorizer.fit_transform(df_akk['Text'].dropna().to_list())\n",
+    "# save_vect = tf_vectorizer.fit_transform(['The sun in the sky is bright', 'We can see the shining sun, the bright sun.'])\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "tfidf_tokens = tf_vectorizer.get_feature_names_out()\n",
+    "df_tfidfvect = pd.DataFrame(data=save_vect.toarray(), columns=tfidf_tokens)\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "test_mat = tf_vectorizer.transform(df_akk['Text'].dropna().to_list())\n",
+    "cc = cosine_similarity(save_vect,save_vect)\n",
+    "bool_similarity = cc > 0.5\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "abcd = np.where((cc > 0.5)&( cc< 1))\n",
+    "abcd[0].tofile(\"data.csv\", sep = \",\", format = \"%d\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Using matplotlib backend: <object object at 0x00000212CB626CA0>\n"
+     ]
+    }
+   ],
+   "source": [
+    "%matplotlib\n",
+    "import matplotlib.pyplot as plt\n",
+    "import seaborn as sns"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "f = sns.scatterplot(bool_similarity)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "Project                                              P394767\n",
+       "Text       x x x BAD₃-ku-ri-gal-zi x E₂ 44 ša₂ BAD₃-{d}su...\n",
+       "Genre                                                lexical\n",
+       "Name: 4, dtype: object"
+      ]
+     },
+     "execution_count": 15,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "df_akk.iloc[4,:]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.9.13"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
--- a/project_notebook.ipynb
+++ b/project_notebook.ipynb
@@ -1,15 +1,5 @@
 {
 "cells": [
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "```\n",
-    "installations\n",
-    "\n",
-    "```"
-   ]
-  },
  {
   "cell_type": "code",
   "execution_count": 2,
@@ -763,7 +753,7 @@
   "metadata": {},
   "outputs": [],
   "source": [
-    "def "
+    "#def "
   ]
  },
  {
@@ -86883,7 +86873,7 @@
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
-   "version": "3.9.2"
+   "version": "3.9.13"
  }
 },
 "nbformat": 4,
--- a/report.html
+++ b/report.html
@@ -0,0 +1,15 @@
+<html>
+<head>
+    <title>דו"ח התקדמות</title>
+    <style>
+        
+    </style>
+</head>
+<body dir="rtl">
+    <h1>דו"ח התקדמות
+        <h2>מטרות
+            <p>מטרת הפרוייקט היא לייצר דרך למצוא קרבה או אינטראקסטואליות בין טקסטים שונים באכדית על מנת </p>
+        </h2>
+    </h1>
+</body>
+</html>
--- a/scrape.py
+++ b/scrape.py
@@ -6,4 +6,4 @@ import psycopg2
 #     conn = psycopg2.connect("dbname='dh' user='dh' host='dh.saret.tk' password='qwerty'")
 #     return conn

-def 
+# def
Author	SHA1	Message	Date
Benny Saret	8b8e15b082	auto rtl has been added	2023-10-21 15:37:32 +03:00
1kamma	8352a0a097	summery	2023-08-12 18:19:37 +03:00
Benny Saret	0e26118247	remove problems	2023-08-12 18:13:10 +03:00
1kamma	f8e1c4d062	demostration	2023-08-12 17:46:38 +03:00
Benny Saret	46152eadbf	update of processing	2023-08-12 15:41:13 +03:00
Benny Saret	01525451c7	added processing	2023-08-10 18:09:19 +03:00
Benny Saret	be4e16ed35	update the project data collecting and the steps for it	2023-08-09 18:54:42 +03:00
Benny Saret	5f91215acd	update the project data collecting and the steps for it	2023-08-09 17:20:43 +03:00
server	1e4f87368e	update the report progress	2023-08-09 00:37:42 +03:00
server	aad15a2a5a	readme	2023-08-08 18:53:05 +03:00
server	ee5983a7c5	updated source data, data grab	2023-08-08 18:36:53 +03:00
server	acc006df1b	Merge branch 'master' of https://git.saret.tk/saret/DH	2023-08-08 17:11:29 +03:00
server	31d2007bcb	no raw data	2023-08-08 17:06:12 +03:00
server	0b66f6cf1d	no raw data	2023-08-08 17:06:12 +03:00
server	e7e18c3300	updated goals	2023-08-08 16:59:57 +03:00
server	cc8dfeea0d	updated goals	2023-08-08 16:59:57 +03:00
server	8f0dd858e2	readme update	2023-08-08 16:28:08 +03:00
server	0448b6c447	readme update	2023-08-08 16:28:08 +03:00
server	1b6d0d2129	readme update	2023-08-08 16:27:47 +03:00
server	78e9e7502a	readme update	2023-08-08 16:27:47 +03:00
server	afe0eaf41d	readme update	2023-08-08 16:26:18 +03:00
server	adad325c44	readme update	2023-08-08 16:26:18 +03:00
server	0118af822c	readme update	2023-08-08 16:26:01 +03:00
server	f784ad9999	readme update	2023-08-08 16:26:01 +03:00
server	bab0735bf7	readme up	2023-08-08 16:25:04 +03:00
server	5af637c650	readme up	2023-08-08 16:25:04 +03:00
server	1545cdac8d	starting the report	2023-08-08 16:08:55 +03:00
server	fcdbfe86fa	starting the report	2023-08-08 16:08:55 +03:00
server	201626c66a	update report	2023-08-08 15:57:25 +03:00
server	5233079481	update report	2023-08-08 15:57:25 +03:00
1kamma	2735fb9ea2	failed scraping	2023-06-27 11:53:56 +03:00
1kamma	09aa16dcc8	failed scraping	2023-06-27 11:53:56 +03:00
1kamma	98d3d5994f	boolean similarity	2023-06-26 23:21:34 +03:00
1kamma	03f1d663d0	boolean similarity	2023-06-26 23:21:34 +03:00
1kamma	826a100f24	update	2023-06-26 23:12:28 +03:00
1kamma	db8244d902	update	2023-06-26 23:12:28 +03:00