ארגון מידע אנושי\אוטמט Flashcards

1
Q

מהו גיוון לשוני?

A

אותה משמעות ניתנת לביטוי על ידי מילים שונות אך דומות לדוגמא :חברות-רעות, שמחה-חדווה, גילה-רינה.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

מהי רב משמעות

A

רב משמעות - תופעה בלשנית כאשר למילה מסוימת יש יותר ממשמעות אחת בהקשרים שונים. לדוגמא חברה במובן של ארגון מסחרי או קבוצת אנשים.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

דיוק precision מהו

A

מדד מקובל לבדיקת יעילות אחזור. מוגדר כאחוז המסמכים הרלוונטיים מתוך כל המסמכים שנדלו.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

מהו שיעור הזכירה Recall

A

מדד מקובל למדידת יעילות האחזור, מוגדר כיחס המסמכים הרלוונטיים שנדלו מתוך מסמכים רלוונטיים הקיימים במאגר הנתונים.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

מהו אחזור Retrieval

A

נקרא גם שליפה דלייה - איתור פריט נותנים מסוים בקובץ והעברתו למקום הרצוי, כגון הצגתו על צג מחשב לפי בקשה.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

מהו רלוונטיות Relevance

A

מידה בה המסמך שאוחזר עונה על צורכי המשתמש בהתאם לשאילתה שתורגמה לאסטרטגיית חיפוש.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

מהו מיצוי Exhaustivity -

A

מיצוי מתייחס להיבט הכמותי - מיצוי גבוה משמעותו הכללת כל מילות המפתח המבטאת את תוכן המסמך.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

מדוע מנועי החיפוש מתקשים לספק תשובות מדויקות לשאלות מורכבות למרות שהתשובות כנראה כבר נמצאות ברשת?

A

הקושי נעוץ בשני המאפיינים העיקריים של שפה טבעית גיוון לשוני וריבוי משמעיות.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

מהו אחד הפתרונות לבעיית האחזור הלא נכון של מנועי החיפוש?

A

אחד הפתרונות שמוצע כיום הוא יצרת לקסיקון פורמלי של תחום הידע - בניית אונטולוגיות לתחומי ידע שונים.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

מהי אנטולוגיה?

A

מפרט מפורש ופורמלי של מושגים משותפים. אוצר מילים, מודל של ידע משותף לחוקרים ולסוכנים (מחשבים, תוכנות, אלגוריתמים) שמכיל אוסף מושגים, הגדרותיהם, מאפייניהם וקשרים סמנטיים ביניהם.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

האם אנטולוגיה אחת יכולה להתאים לכל תחום?

A

אין אונטולוגיה אחת שמתאימה לכל תחום.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

מהי רשת סמנטית (linked data)

A

בסיס נותנים רשתי שמכיל את הקשרים הסמנטיים בין מרכיביו. כתוצאה מכך הסוכנים האוטומטיים הופכים לחכמים. לתקשר ביניהם, לעבד מידע במהירות, להשיג תשובות לשאלות מורכבות, ללא התערבות אנושית
web 3.0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

מהי אבן הבניין של הרשת הסמנטית?

A

בRDP(Resource Description Framework) אבן היסוד של הווב הסמנטי

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

כיצד עובד RDF

A

שומרים נתונים כשלשות RDF ישומי

ומקשרים נותנים שונים על בסיס מושגים משותפים

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

דרכים להשיג וווב סימנטי

A

שומרים נתונים כשלשות RDF ומקשרים נותנים שונים על בסיס מושגים משותפים. כל דף צריך כתובת ייחודית URL (Uniform Resource Identifier). יש להעלות אותם לפי פרוטוקול .HTTP

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

מדוע מנועי חיפוש אינם מסוגלים לספק תשובות
מדוייקות וישירות לשאלות מורכבות?
∘ בגלל מחסור בגיוון לשוני ובריבוי משמעות
∘ כי רק אנשים מסוגלים לענות לשאלות מורכבות
∘ כי המידע באינטרנט נמצא בשפה חופשית
∘ כי אין אפשרות לעשות חיפושים מדוייקים באינטרנט

A

כי המידע באינטרנט נמצא בשפה חופשית

17
Q
מה מבין הבאים אינו מגבלה של ארגון מידע אוטומטי?
∘ גיוון לשוני
∘ רמת מיצוי גבוהה
∘ רב משמעות 
∘ כמות אחזור נמוכה
A

∘ כמות אחזור נמוכה

18
Q

ישנם דוגמאות רבות לדרכים ושיטות לארגון מידע אנושי המרכזיים שבהם הם:

A
  1. רשימות ביבליוגרפיות
  2. קטלוגים
  3. מפתחות
  4. אוצר מילים מבוקר
  5. עזרי איתור(ארכיונים)
  6. פנקס register (מוזאונים)
  7. מדריכים באינטרנט
  8. מאגרי מידע
    המשותף הוא שבכולם יש
    metadata
19
Q

smart data מהו

A

הוא לא מונח מבוסס בעל הגדרה חד משמעית.smart data הוא מידע מובנה\חצי מובנה מפורש ומעושר מכיוון שבנוסף לנותנים הגולמיים הוא מכיל סימונים, הערות, ומטה-דטה. יצירתו כרוכה בארגון אנושי ולכן הוא נוטה להיות “נקי” יחסית מטעויות וקטן בנפח שלו מפאת הזמן שנדרש להכינו.

20
Q

מהו big data

A

בימנו כולם רוצים ביג דטה בתחומים מגוונים כמו מכירות אונליין, שוק ההון, מוסדות בריאות וקמפיינים פוליטיים מונעים על ידי ביג דטה. המונח נוצר ומוגדר על ידי התעשייה, המדיה והאקדמיה ולכן יש חוסר הבנה משותפת לגבי הגדרתו. הניסיון שלהם להגדיר בסיס משותף מביא להגדרה הבאה ביג-דטה: מתאר אחסון וניתוח של כמויות מידע גדולות או מורכבות על ידי שימוש בטכניקות כמו NoSQL, MapReduce and machine learning. ההגדרה של המונח היא רחבה ותלויה בפרספקטיבה. בספר big data revolution הסופר מציע הגדרה לא טכנית ביג דטה: מתייחס לדברים שאדם יכול לעשות בכנה מידה גדול ולא יכולים להיעשות בכנה מידה קטן במטרה להגיע לתובנות חדשות או ליצור צורות מידע חדשות.

21
Q

קיימות שתי אפשרויות לחיפוש מידע מה הן:

A
  1. חיפוש ביבליוגרפי (פריט ידוע) (חיפוש אחר מה שאנו יודעים שקיים) לדוגמא חיפוש אחר הספר “הארי פוטר ואבן החכמים”.
  2. חיפוש נושאי (פריט לא ידוע) (חיפוש אחר מה שנראה לנו שקיים אבל עוד לא מצאנו) לדוגמא חיפוש “חומר על ארגון מידע”.
22
Q

מי יבין מידע שמאוחסן בהפניה של ציטוט ביבליוגרפי יותר בקלות?

A

מידע שמאוחסן בהפניה של ציטוט ביבליוגרפי יהיה קל להבנה על ידי אדם אבל קשה למחשב

23
Q

בספרנות המונח ייצוג מידע מתייחס גם לשני שלבים של תיאור מידע שהם:

A

תיאור של פריט - הכולל תיאור פיזי של הפריט, אפיונים של פריט (יוצר, כותר, תאריך יצירת הפריט ועוד) ומידע לאיתור הפריט השלם.
ניתוח תוכן של הפריט - תיאור של התוכן האינטלקטואלי של הפריט.

24
Q

מהו ארגון מידע אוטומטי?

A

ללא תשומה אינטלקטואלית, כלומר אין אנשים שעושים את עבדות הארגון באופן שוטף ועיקר המאמץ נעשה על ידי מחשב.
תחילה נעשה שימוש במילים מתוך כותר לאחר מכן במילים מתוך תקציר ועד לשימוש במילים מתוך טקסט מלא.

25
Q

מה הם היתרונות של מפתוח כותרים?

A
  • מהירות
  • עדכנות
  • זול
26
Q

מה הם החסרונות של מפתוח כותרים?

A
  • כותרים לא אינפורמטיביים
  • אין בקרה
  • אין אחידות
  • בפורמט מודפס- קשה לקריאה.
27
Q

מה הן המגבלות של ארגון מידע אוטומטי?

A
גיוון לשוני
רב משמעות
שפות שונות 
RECALL יתר
RELEVANCE  חוסר
EXHAUSTIVTY. יתר
28
Q

חיפוש מורפולוגי

A

משפר את האיכות והדיוק של תוצאות החיפוש. ניתוח כל מילה בטקסט ובכך מאפשר להציג תוצאות רלוונטיות לכוונה של המשתמש בהתאם להקשר של המילים בטקסט.

29
Q

מהי שיטת מפתוח כותרים ?

A

בשיטה המילים בעלות משמעות הוצאו מהכותר ומופיעות לצד כל כותר כך כל כותר מופיע בצורה המקורית שלו
Kwic = keyword in context.
Kwoc = keyword out of context

30
Q
בשיטותKWIC וKWOC-.
∘ התקצירים הם בסיס המפתוח
∘ מילות המפתח שסיפק המחבר הן בסיס המפתוח
∘ כל מילה משמעותית במאמר הופכת למילת מפתח
∘ הכותרים הם בסיס המפתוח
A

∘ הכותרים הם בסיס המפתוח

31
Q
ארגון מידע אנושי:
∘ נוצר על ידי האנושות כולה
∘ נוצר באופן אוטומטי
∘ נוצר בעזרת תשומה אינטלקטואלית
∘ נוצר על ידי מחשבים
A

∘ נוצר בעזרת תשומה אינטלקטואלית