Skip Ribbon Commands
Skip to main content
سایت دایره المعارف کتابداری و اطلاع رسانی
    آ         الف       ب       پ       ت       ث       ج       چ       ح       خ       د       ذ       ر       ز       ژ       س       ش       ص       ض       ط       ظ       ع       غ       ف       ق       ک       گ       ل       م       ن       و       ه       ی    

بازگشت به فهرست مقالات ذ

 

ذخيره و بازيابي اطلاعات. فعاليت‌هايي كه براي تحليل و سازماندهي مدارك و منابع صورت مي‌گيرد ذخيره اطلاعات، و تلاش‌هايي كه براي يافتن يك يا چند مدرك از ميان انبوه مدارك ذخيره شده انجام مي‌شود بازيابي اطلاعات نام دارد. نظام‌هايي كه اين جريان‌ها در آنها روي مي‌دهد نظام‌هاي ذخيره و بازيابي اطلاعات خوانده مي‌شود (661:5). نظام‌هاي ذخيره و بازيابي اطلاعات معمولاً به منظور دسترس‌پذير كردن مجموعه‌اي از منابع اطلاعاتي براي استفاده‌كننده‌اي كه مايل به كسب اين اطلاعات است طراحي مي‌گردد. اطلاعاتي كه در نظام‌هاي ذخيره و بازيابي اطلاعات ذخيره مي‌شود يا صرفاً شامل داده‌هاي كتابشناختي است، مانند مشخصات كتاب‌ها، اسناد و مدارك، و مقاله‌هاي مجلات؛ يا اصل مدرك است كه همراه مشخصات آن عرضه مي‌شود. حالت اخير پايگاه داده‌هاي تمام متن نام دارد. نظام‌هاي بازيابي اطلاعات را در معناي وسيع مي‌توان براي دستيابي به مجموعه‌هاي تصويري، فيلم، پروانه‌هاي ثبت اختراع، و جز آن نيز مورد استفاده قرار داد. در هر حال، هدف هر نظام ذخيره و بازيابي اطلاعات آن است كه در اسرع وقت بيشترين اطلاعات مرتبط با نياز استفاده‌كننده را ـ آن‌طور كه در درخواست وي ذكر شده ـ در اختيار بگذارد.

تاريخچه. تاريخچه ايجاد و گسترش نظام‌هاي بازيابي اطلاعات را مي‌توان به چندين دوره نسبتاً روشن تقسيم كرد. قبل از سال‌هاي 1940 تهيه مي‌شد، نظام‌هاي بازيابي اطلاعات تنها از نوع دستي محض بود، يعني نمايه‌ها و فهرست‌ها به شكل چاپي و كارتي تهيه مي‌شد. اين وسايل بازيابي، پيش‌همارا و غيرقابل دستكاري است و متكي بر سازماندهي خطي (تك بعدي) بوده و قابليت‌هاي بسيار محدودي براي جست‌وجو و بازيابي دارند. در سال‌هاي 1940، مهم‌ترين پيشرفت در تاريخچه بازيابي اطلاعات يعني ابداع نظام‌هاي بازيابي كه پس‌همارا و قابل دستكاري هستند روي داد. اين نظام‌ها كه هنوز عمدتاً دستي بودند توسط باتن و كوردونير[1] (پيكابو، يا تطابق نوري)، موئرز[2]  (برگه‌هاي منگنه‌اي)، و نيز توسط مورتيمر تاب[3]  (نظام تك واژه‌اي) عرضه شد. اين نظام‌هاي پس‌هماراي اوليه مزاياي قابل توجهي نسبت به پيشينيان خود عرضه كردند. آنها نياي مسلّم نظام‌هاي رايانه‌اي نوين به حساب مي‌آيند.

در سال‌هاي 1950 اشكال اوليه خودكارسازي نمايه‌سازي پس‌همارا توسط نظام‌هاي داده‌پردازي برگه منگنه پديد آمد. نظام‌هاي برگه منگنه در دهه 1950، در واقع، اسلاف بلافصل نظام‌هاي رايانه‌اي سال‌هاي 1960 بودند. سال‌هاي 1960 دوران بازيابي رايانه‌اي به شيوه گسسته، پردازش دسته‌اي و نواري را تشكيل مي‌داد. در سال‌هاي 1970، با توسعه سخت‌افزارها و نرم‌افزارهاي رايانه‌اي، امكان انجام جست‌وجوهاي پيوسته يا تعاملي فراهم آمد. نظام‌هاي پيوسته بازيابي، علاوه بر افزايش سرعت، امكان دريافت بازخورد جست‌وجو در روند جست‌وجو و، در صورت لزوم، تغيير و اصلاح آن را به استفاده كننده مي‌دادند. مهم‌ترين مزيت بازيابي پيوسته امكان دسترسي از راه دور بود. در اين مورد شركت‌هاي بزرگي چون ديالوگ و بي.آر.اس. در بخش خصوصي و كتابخانه ملي پزشكي در بخش دولتي، با عرضه نظام بازيابي مدلاين، فعاليت‌هاي فراواني داشته‌اند. از ابتداي سال‌هاي 1980، توسعه و گسترش ذخيره و بازيابي اطلاعات به شكل متن كامل از جمله تحولات و رويدادهاي مهمي است كه شكل گرفته است. هر چند انديشه‌ها و تلاش‌هاي مربوط به اين شكل از ذخيره و بازيابي به سال‌هاي ،1970 زمان اولين تلاش‌ها براي واردكردن متون حقوقي در رايانه و جست‌وجوي آزاد بر روي آن متون، باز مي‌گردد با ازدياد رايانه‌هاي شخصي و پيدايش رسانه‌هاي ذخيره‌سازي نوري مانند ديسك فشرده و نيز رواج نشر روميزي (دي.تي.پي.) بود كه ايجاد پايگاه‌هاي تمام متن و نيز فنون بازيابي از متن عموميت بيشتري يافت و در دسترس استفاده‌كنندگان قرار گرفت. بازيابي در اين نوع نظام‌ها كه عمدتاً مبتني بر استفاده از زبان طبيعي است و از اين لحاظ در مقابل نظام‌هاي مبتني بر واژگان مهار شده قرار مي‌گيرند داراي جذابيت‌هاي زيادي براي استفاده‌كنندگان از آنهاست، لكن براي بازدهي بيشتر از مزاياي هر دو نظام به طور همزمان استفاده مي‌شود.

در سال‌هاي اخير، استفاده از فنون بصري جايگاه خاصي يافته و چالش‌هاي جديد و بحث‌هاي گسترده‌اي را به دنبال داشته است. استفاده از اين فنون، به ويژه براي طراحي واسط‌هاي كاربر، باعث سهولت بيشتر در استفاده از نظام‌هاي بازيابي و فراگيرتر شدن دامنه استفاده از اين نظام‌ها گرديده است.

تحليل و جست‌وجوي اطلاعات. بازيابي اطلاعات ممكن است به دلايل زير باشد: 1) حجم زياد اطلاعاتي كه مي‌بايست دسترس‌پذير گردد؛ 2) مشكلات فراهم آوردن ذخاير عظيم مواد و منابع به صورتي كه بتوان به راحتي به آنها دست يافت؛ 3) افزايش مشكلات فني ناشي از اشاعه گزينشي حجم زياد منابع براي استفاده‌كنندگان ناهمگن (661:5).

در روند ذخيره و بازيابي اطلاعات دو مرحله متمايز تحليل اطلاعات و جست‌وجوي اطلاعات را مي‌توان مشخص ساخت.

تحليل اطلاعات. فرايند تعيين محتواي موضوعي مدارك و تبديل آن به زبان نظام (يا مجموعه‌اي از اصطلاحات نمايه‌اي) را تحليل اطلاعات گويند. در اين مرحله، نمايه‌ساز يا كسي كه كار تحليل اطلاعات را انجام مي‌دهد ابتدا بايد، پس از پويش و تحليل مفهومي مدرك، مشخص كند كه مدرك درباره چيست و چه جنبه‌هايي را دربرمي‌گيرد. در نظر گرفتن نيازهاي استفاده‌كننده نظام در اين مرحله مسئله‌اي اساسي است. به عبارت ديگر، نمايه‌ساز نه تنها بايد در مورد موضوع مدرك تصميم‌گيري كند، بلكه بايد متوجه باشد كه چه جنبه‌هايي از مدرك مي‌تواند براي استفاده‌كننده‌اي خاص حائز اهميت باشد. گام بعدي، تبديل نتيجه تحليل مفهومي مدرك به مجموعه‌اي از اصطلاحات نمايه‌اي است. اصطلاحات نمايه‌اي ممكن است برگرفته از سياهه‌اي مجاز از واژه‌ها (واژگان مهار شده) يا از متن مدرك و واژه‌هاي مؤلف باشد. شيوه دوم نمايه‌سازي با استفاده از زبان طبيعي است. در هر حال، حاصل كار، تعدادي اصطلاح است كه، در مجموع، تصويري از موضوع مدرك را به دست مي‌دهند و با نام‌هاي كليد واژه، سرعنوان موضوعي، توصيفگر، و نيز خوانده مي‌شوند. تلاش‌ها و فعاليت‌هاي زيادي صورت گرفته تا كار تخصيص اصطلاحات نمايه‌اي به صورت ماشيني و بدون دخالت انسان انجام گيرد. بحث نمايه‌سازي خودكار برخاسته از اين تلاش است. اصطلاحات نمايه‌اي يا توصيفگرهاي هر مدرك به اضافه مشخصات كتابشناختي آن مدرك (نويسنده، عنوان، منبع، و چكيده)، مجموعاً يك ركورد كتابشناختي را تشكيل مي‌دهند. اتخاذ روشي مناسب براي سازمان‌دادن اين ركوردها در كنار يكديگر باعث خواهد شد تا نظام بازيابي، عملكرد بهتري داشته باشد.

واژگان مهار شده. به منظور ايجاد يكدستي و هماهنگي و نيز سهولت در بازيابي مدارك، معمولاً واژه‌ها يا اصطلاحاتي را كه مبيّن موضوع مدرك هستند از سياهه‌اي مستند به نام واژگان مهار شده انتخاب مي‌كنند. فهرست‌هاي سرعنوان موضوعي، طرح‌هاي رده‌بندي، و اصطلاحنامه‌ها سه نوع واژگان مهار شده مهم هستند. زيرا در اين منابع تلاش شده است تا اصطلاحات به صورت الفبايي و نيز به شكل نظام يافته ارائه شود (14:2).

نقطه مقابل استفاده از واژگان مهار شده، نمايه‌سازي با استفاده از زبان طبيعي است. منظور از زبان طبيعي واژه‌ها و كلماتي است كه در متن به كار رفته و بنابراين اصطلاح "متن آزاد" را مي‌توان مترادف آن در نظر گرفت. متن آزاد مي‌تواند شامل عنوان، چكيده، برگزيده، يا متن كامل مدرك باشد. هنگام تحليل اطلاعات مي‌توان به جاي انتخاب اصطلاحات نمايه‌اي از واژگان مهار شده، هر كدام از عناصر بالا را ذخيره كرد و در مرحله جست‌وجو مستقيماً مورد استفاده قرار داد. اين روش كه تاريخچه آن به كار مورتيمر تاب و نظام تكواژه‌اي او باز مي‌گردد نخست به طور گسترده‌اي براي ذخيره و بازيابي متون رشته حقوق مورد استفاده قرار گرفت و با رواج و گسترش رايانه نضج گرفت. اما استفاده از زبان طبيعي داراي مزايا و معايب خاص خويش است.

سازماندهي فايل‌ها. در نظام‌هاي رايانه‌اي ذخيره و بازيابي اطلاعات، داده‌ها معمولاً در قالب ركورد ذخيره مي‌شوند و مجموعه‌اي از ركوردها يك فايل را تشكيل مي‌دهند. شيوه ذخيره ركوردها در داخل فايل و شيوه ارتباط آنها با يكديگر مطلبي است كه تحت عنوان ساختار فايل يا سازماندهي فايل مورد بحث قرار مي‌گيرد. براي سازماندهي فايل به طور معمول چندين روش وجود دارد كه ساده‌ترين آنها فايل ترتيبي است. در اين نوع فايل هيچ‌گونه راهنما يا اشاره‌گر ربط دهنده‌اي ايجاد نمي‌شود و معمولاً ركوردها بدون نظم خاصي در كنار يكديگر قرار مي‌گيرند. يافتن ركوردهاي خاص در اين گونه فايل‌ها منوط به آن است كه يكايك ركوردها از ابتداي فايل بررسي شود. چنانچه با حجم زيادي از اطلاعات روبه‌رو باشيم استفاده از اين نوع فايل بسيار وقت‌گير است. در عوض، اين ساختار حداقل فضاي ذخيره‌سازي را به خود اختصاص مي‌دهد و اجراي آن نيز نسبتاً آسان است. نوع ديگر، فايل شاخص‌دار يا فايل مقلوب است. در اين نوع ساختار، كه در نظام‌هاي معروف ذخيره و بازيابي اطلاعات به وفور مورد استفاده قرار گرفته، به ازاي فيلدهاي شاخص يا فيلدهايي كه در نظر است بر روي آنها جست‌وجو صورت گيرد، فايل يا فايل‌هاي جداگانه‌اي به نام فايل شاخص يا فايل مقلوب ايجاد مي‌شود. محتواي اين فايل را مقادير فيلد شاخص و نشاني متناظر به آن در فايل اصلي تشكيل مي‌دهد. هنگام بازيابي، ابتدا عبارت مورد نظر در فايل مقلوب جست‌وجو مي‌شود و سپس براساس شماره مدرك يا نشاني كه در مقابل آن عبارت وجود دارد، ركورد كامل از فايل اصلي بازيابي مي‌گردد. در اين ساختار، به جهت آنكه حداقل دو فايل ايجاد مي‌شود فضاي بيشتري اشغال مي‌گردد، ولي در مقابل، سرعت جست‌وجو و بازيابي به خصوص در پايگاه‌هاي حجيم تا حد زيادي بالا مي‌رود. سومين نوع را فايل با دستيابي مستقيم مي‌نامند دارد. در اين ساختار، امكان نوشتن يا خواندن ركورد بدون در نظر گرفتن محل آن وجود دارد. در اين فايل‌ها لازم است كه فيلدي به عنوان فيلد كليد مشخص گردد. در اين نوع ساختار براي يافتن محل آزاد در حافظه جهت درج ركورد يا پيدا كردن ركوردي خاص، از فن آدرس‌دهيِ درهم استفاده مي‌شود. مهم‌ترين ويژگي و مزيّت اين ساختار، صرفه‌جويي در فضاي حافظه و نيز سرعت زياد در دستيابي به ركوردهاست. متقابلاً نقطه ضعف آن در سختي پياده‌سازي و اجراي آن است. ساختار ديگر، ساختار زنجيره‌اي است و ويژگي آن در اين است كه همه اقلامي كه نشان‌دهنده شناساگر فرضي مشتركي هستند با رابط‌ها يا اشاره‌گرهايي مناسب، به هم زنجير مي‌شوند. طبيعتاً يك راهنما دسترسي به اولين فقره را در هر زنجيره فراهم مي‌آورد و فايل را مي‌توان با تعقيب اشاره‌گرهاي دروني هر زنجيره جست‌وجو كرد. فايل‌هاي زنجيره‌اي نسبت به فايل‌هاي ترتيبي سرعت بيشتري را فراهم مي‌آورند، اما به فضاي ذخيره‌سازي قابل توجهي براي ذخيره اشاره‌گرها و راهنماها نياز دارند (622:5).

جست‌وجوي اطلاعات. در اين مرحله، وظيفه نظام ذخيره و بازيابي، بررسي و شناخت درخواست استفاده‌كننده، پويش يا جست‌وجو در بانك اطلاعاتي، و يافتن و نمايش ركوردهايي است كه با درخواست ارائه شده انطباق دارد. دستيابي به اين هدف، يعني يافتن اطلاعاتي كه نياز استفاده‌كننده را به طور قطع برطرف كند عملاً كار آساني نيست، زيرا از يك سو استفاده‌كننده به طور دقيق نياز اطلاعاتي خود را نمي‌داند و در برخي اوقات نيز علي‌رغم آگاهي به نياز اطلاعاتي خود، ممكن است نتواند آن را با عبارت‌هاي مناسب بيان كند. از سوي ديگر، ممكن است اصطلاحات يا عباراتي كه به عنوان موضوع مدارك در نظر گرفته شده چندان دقيق نباشند و نتوانند تصوير كاملي از محتواي مدرك بدست دهند. بدين سبب گفته مي‌شود كه وجه خروجي نظام بازيابي اطلاعات (پاسخگويي به درخواست استفاده كننده) همواره پيچيده‌تر از وجه ورودي آن است و بدين لحاظ بايد بخش خروجي مورد توجه بيشتري قرار گيرد (14:3).

شيوه‌هاي بازيابي اطلاعات را مي‌توان در نگاه كلي به دو دسته، نظام‌هاي مبتني بر انطباق مطلق و نظام‌هاي مبتني بر انطباق نسبي، تقسيم كرد (153:3).

فنون انطباق مطلق در حال حاضر در بسياري از نظام‌هاي سنتي بازيابي اطلاعات مورد استفاده قرار مي‌گيرد. پرس‌وجوها در اين روش معمولاً با استفاده از عملگرهاي بولي تدوين مي‌شوند و، براي بازيابي، تنها انطباق واژه‌هاي پرسش با عبارت‌هاي موجود در مدرك كفايت مي‌كند.

در انطباق نسبي يا انطباق برتر[4]  اين امكان وجود دارد كه نظام بازيابي را بتوان با ورود رشته‌اي از اصطلاحات كه بيانگر نياز اطلاعاتي هستند، بدون استفاده از عملگرهاي بولي، جست‌وجو كرد. در اين نوع، نظام دنبال قطعاتي از متن مي‌گردد كه بهترين انطباق را با رشته ورودي داشته باشد. بنابراين، اگر رشته اصلي شامل پنج كلمه باشد و مدركي در بانك اطلاعاتي نيز كلّ پنج واژه را دربرگيرد اين مدرك حداكثر وزن ممكن را گرفته و در رأس سياهه موارد بازيابي رشته قرار مي‌گيرد (153:3). بر اين اساس، الگوها و فنون مختلفي براي بازيابي شكل گرفته است كه به عنوان مدل‌هاي كلاسيك و مدل‌هاي پيشرفته از آنها ياد مي‌شود. مدل‌هاي كلاسيك بازيابي شامل مدل بولي، فضاي برداري[5] ، و مدل‌هاي احتمالي[6]  است. مدل‌هاي پيشرفته، علاوه بر مدل‌هاي فوق، شامل بازيابي براساس منطق مشكك (فازي)[7] ، نمايه‌سازي معنايي نهفته[8] ، شبكه‌هاي استنتاجي[9] ، و نيز الگوهاي مبتني بر مرور شامل نظام‌هاي بازيابي فرامتن است (1: 24-60).

مدل بولي. اولين روش بازيابي كه در نظام‌هاي اطلاعاتي اجرا شد مدل بولي بود كه در آن اصطلاحات پرس‌وجو با عملگرهاي بولي بيان شده و با نمايه مقلوب مقايسه مي‌گرديد. توانايي عملگرهاي بولي براي تركيب مفاهيم اجزا (AND) و مترادف (OR) و نيز زمان پاسخ سريع، اين مدل را مدلي عام براي نظام‌هاي بازيابي ساخت.

با فراگيرتر شدن نظام‌هاي بازيابي بولي، تدوين پرس‌وجوهاي مؤثر براي عموم افرادي كه با منطق آشنا نبودند دشوار گرديد. علاوه بر آن، نظام بولي اغلب تعداد مدارك را با توجه به ماهيت حساس منطق خود كه پاسخي انعطاف‌ناپذير در برابر بود يا نبود اصطلاحي واحد نشان مي‌داد بازيابي مي‌كرد.

براي غلبه بر مسئله بازيابي مدارك زياد بدون توجه به ميزان اهميت كاربردي بالقوه آنها ـ اصلاحاتي در نظام صورت گرفت تا با اختصاص وزن‌هايي به اصطلاحات، براساس اهميت "متصوّر" آنها، خروجي‌هاي ترتيبي توليد شود. روش‌هاي اصلاحي ديگر مانند كنترل فرايند تدوين پرسش براي كاهش مشكل ساخت پرس‌وجوهاي بولي پيچيده نيز مورد تحقيق قرار گرفته است.

مدل فضاي بُرداري. در حالي كه برخي تلاش كردند تا با انجام اصلاحاتي در مدل بولي بر نقاط ضعف آن غلبه كنند، ديگران با راهبرد متفاوتي به نام مدل فضاي برداري به بازيابي اطلاعات پرداختند. در اين مدل، مدارك و پرس‌وجوها به صورت بردارهايي در فضايي سه بعدي در نظر گرفته مي‌شود كه هر بعد با مدخلي در نمايه مقلوب متناظر است. مثلاً مدرك D و پرس و جوي Q در شكل برداري به صورت  D= (d1, d2, d3, .... dn)و Q= (q1, q2, q3, .... qn) بيان مي‌شود كه n مجموع اصطلاحات نمايه‌اي و هر كدام از مقادير داخل پرانتز وزن هر اصطلاح بوده كه بيانگر اهميت اصطلاح است.

شناخته شده‌ترين وزن اصطلاحي، بسامد مقلوب مدرك ناميده مي‌شود كه با بسامد مجموعه (تعداد مدارك مجموعه‌اي كه در آن يك اصطلاح خاص وجود دارد) تغيير مي‌كند. بسامد مقلوب مدرك نوعاً از طريقdkN Log محاسبه مي‌شود كه در آن N تعداد مدارك مجموعه و dk تعداد مداركي است كه اصطلاح k در آن ظاهر مي‌شود. فرمول‌هاي مختلفي براي محاسبه اوزان اصطلاح وجود دارد كه برخي از آنها گونه‌هايي از وزن  IDFبوده و از بسامد مدرك (تعداد دفعاتي كه اصطلاحي در مدركي ظاهر مي‌شود) و عادي‌سازي بهره مي‌گيرند. مثلاً مي‌توان IDF را در بسامد مدرك ضرب كرد (تا اصطلاحاتي كه مكرراً در مدركي ظاهر مي‌شوند اهميت بيشتري پيدا كنند) و بر عامل عادي‌سازي طول بردارها تقسيم كرد تا طول متغير بردارهاي مدرك مجموعه تنظيم شود. اين عمل تابع فرمول زير است:

 

idf)2ס Svector i (tf i idf k×tf ki Wki=

 

كه در آن Wki وزن اصطلاح K موجود در مدرك d، tfki بسامد اصطلاح k در مدرك d، idfk بسامد مقلوب مدرك، و مخرج كسر عامل عادي‌سازي، و idfk بسامد مقلوب مدرك است.

مدل‌برداري، سياهه‌اي ترتيبي از مدارك براساس مشابهت آنها با پرسش، با در نظر گرفتن زاويه ميان بردار مدرك و بردار پرسش، به عنوان مقياس مشابهت ارائه مي‌دهد. علاوه بر فرمول‌هاي توزين اصطلاح، فرمول‌هاي ديگري نيز براي محاسبه مشابهت "پرسش ـ مدرك" پيشنهاد شده است. آزمايش‌ها نشان داده است كه انتخاب مقياس جديد مشابهت مي‌تواند بر عملكرد بازيابي تأثير قابل ملاحظه‌اي داشته باشد. يكي از مقياس‌هاي مشابهت كه به طور گسترده مورد استفاده قرار گرفته مشابهت كسينوسي است كه حاصل ضرب دروني ميان عناصر عادي سازي شده بردار در طول بردارهاست.

گونه ديگري از مدل‌برداري مدل خوشه‌اي است كه در آن با محاسبه مشابهت برداري مدرك به مدرك و با استفاده از معيارهاي خوشه‌بندي گروهي از مدارك شكل مي‌گيرد. معيارهاي خوشه‌بندي مشخص مي‌كند چه چيز خوشه‌اي از مدارك را تشكيل مي‌دهد. برخلاف مدل فضاي برداري كه در آن بردار هر پرسش با بردار هر مدرك مقايسه مي‌شود، در اينجا، بردار هر پرسش با بردار مركز خوشه، يعني برداري كه خوشه را به صورت كلي ارائه مي‌كند، مقايسه مي‌گردد.

مزيت رويكرد خوشه‌اي زماني جلوه‌گر مي‌شود كه با مجموعه مداركي به كار رود كه بتواند خوشه‌هاي فشرده تشكيل دهد. همچنين، اين مدل در محيطي مؤثر شناخته مي‌شود كه خوشه‌ها تمايل به ارائه مشترك مدارك مرتبط داشته باشند. با اين حال، هيچ تضميني وجود ندارد كه مجموعه مدارك مفروض ضرورتاً به ساختار خوشه‌بندي مفيدي بينجامد، و حتي در موارد مفيد، هزينه محاسبه ساخت، نگهداشت، و جست‌وجو در خوشه‌هاي كوچك و همبسته ممكن است به طور سرسام آوري بالا باشد.

مدل احتمالي. اين مدل نخستين بار توسط استيو رابرتسن و كارن اسپارك جونز در سال‌هاي 1970 معرفي شد. اين مدل به لحاظ اينكه مدارك و پرسش‌ها را به صورت بردار عرضه مي‌كند شبيه مدل‌برداري است، اما به جاي بازيابي مدارك براساس ميزان مشابهت با پرسش، مدارك را براساس احتمال ارتباطشان با پرسش بازيابي مي‌كند. احتمال ربط مدركي خاص به پرسش را مي‌توان با جمع اوزان ربط اصطلاحات آن مدرك، يعني برآورد احتمال ظهور اصطلاحات موجود در پرسش و در مدرك مرتبط، و نه در مدرك غيرمرتبط، محاسبه كرد.

در مدل بازيابي كلاسيك احتمالي، اين احتمالات اصطلاح از طريق مجموعه‌اي نمونه از مدارك و پرسش‌ها همراه با قضاوت مرتبط مربوط به آن تخمين زده مي‌شود. با وجود اين، اجراي فرايند تخمين به صورت عملياتي مشكل است، زيرا جمع‌آوري داده‌هاي ربط لازم قبل از جست‌وجوي واقعي عملاً غيرممكن است. در نتيجه، براي تخمين احتمال اصطلاح، معمولاً، در اين مدل از بازخورد ربط استفاده مي‌كنند (3:7-5).

فرامتن. شكل ديگري كه براي جست‌وجو و بازيابي اطلاعات ارائه شده، و به خصوص در سال‌هاي اخير با رشد شبكه وب گسترش يافته است، بازيابي فرامتني است. روش‌هايي كه تاكنون ذكر شد عمدتاً بر اين محور استوار است كه كاربر پرسش خود را در قالب واژه‌ها و عباراتي به نظام ارائه كند تا نظام، پس از جست‌وجو، تعدادي مدرك را به عنوان نتيجه جست‌وجو بازگرداند. در مقابل اين نظام‌ها كه مي‌توان آنها را نظام‌هاي پرسش مدار ناميد، نظام‌هاي فرامتن تلاش مي‌كنند با ايجاد پيوندهاي مفهومي ميان مدارك و فراهم‌آوردن امكان مرور و راهبري، كاربر را در رسيدن به مدرك مورد نظر ياري دهند. از اين دو نوع رويكرد، به ترتيب، به حركت از كجا به چه (كاربر مي‌داند در كجاي بانك اطلاعاتي است و مي‌خواهد بداند در آنجا چه چيز وجود دارد) و حركت از چه به كجا (كاربر مي‌داند چه چيزي مي‌خواهد و مي‌خواهد بداند آن چيز را در كجا مي‌تواند بيابد) تعبير شده است (300:4). در نظام‌هاي فرامتن، هر كدام از مدارك يا الام اطلاعاتي، يك گره و رابطه ميان گره‌ها، پيوند ناميده مي‌شود. در هر گره يك يا چند واژه يا عبارت برجسته وجود دارد كه آن را لنگر[10]  مي‌نامند و زماني كه از سوي كاربر انتخاب يا فعال مي‌شوند، با استفاده از پيوندها، كاربر را به گره مرتبط ديگري هدايت مي‌كنند. گره‌ها علاوه بر متن مي‌توانند شامل قطعات صوتي و تصويري مانند موسيقي، فيلم، عكس، و جز آن نيز باشند.

ارزيابي نظام بازيابي. در بحث از ارزيابي نظام بايد به سه پرسش پاسخ گفت: 1) دليل ارزيابي نظام چيست؟ 2) چه عنصري از نظام ارزيابي مي‌شود؟ 3) ارزيابي نظام چگونه يا به چه شيوه‌اي صورت مي‌گيرد؟

ارزيابي نظام به منظور سنجش منافع يا زيان‌هايي كه از نظام بازيابي حاصل مي‌شود و نيز براي سنجش هزينه و سودمندي نظام صورت مي‌گيرد. در ارزيابي معمولاً عناصر زير كه گوياي توانايي نظام در رفع نياز استفاده‌كننده است مورد توجه قرار مي‌گيرد: 1) پوشش مجموعه، يا تعداد مدرك مرتبطي كه در هر مجموعه وجود دارد؛ 2) زمان پاسخگويي، يعني فاصله متوسط ميان زمان درخواست جست‌وجو و به‌دست‌آوردن پاسخ؛ 3) شكل خروجي، يعني شكل مدارك بازيابي شده، شماره مدرك، مآخذ كتابشناختي، مآخذ همراه با چكيده‌ها، متن كامل، و جز آن؛ 4) تلاش استفاده كننده، يعني كوششي كه استفاده‌كننده در مرحله خروجي (جدا كردن مدارك مرتبط از نامرتبط)، در مرحله درخواست (بيان هر چه دقيق‌تر پرسش يا نياز اطلاعاتي)، و در مرحله تدوين راهبرد جست‌وجو (بررسي راهبرد تدوين شده و اصلاح آن) انجام مي‌دهد؛ 5) جامعيت، يعني توانايي نظام در بازيابي متون مرتبط؛ و 6) مانعيت، يعني توانايي نظام در بازيابي نكردن متون نامرتبط.

گفته مي‌شود كه موارد 1 تا 4 به راحتي قابل ارزيابي است ليكن اين جامعيت و مانعيت است كه در كنار يكديگر سودمندي نظام را نشان مي‌دهند. در واقع اين دو معيار در كنار هم توانايي فيلتري نظام را بيان مي‌كنند و استفاده از هر كدام از آنها به تنهايي چندان كارساز نيست (55:3-61؛ 204:6). در هر نظام بازيابي، مطلوب آن است كه نسبت جامعيت و مانعيت هر دو 100 درصد باشند، يعني نظام بتواند كليه مدارك مرتبط موجود را بازيابي كند و در عين حال هيچ يك از مدارك غيرمرتبط را را نيز ارائه ندهد. اما رسيدن به چنين آرماني عملاً غيرممكن است، و در واقع اين مسئله يكي از مهم‌ترين تفاوت‌هاي ميان نظام‌هاي ذخيره و بازيابي اطلاعات و نظام‌هاي مديريت پايگاه داده‌ها را تشكيل مي‌دهد. جامعيت و مانعيت با يكديگر رابطه‌اي معكوس دارند، يعني هر گونه تلاشي براي افزايش مانعيت منجر به كاهش جامعيت و هرگونه كوششي براي افزودن جامعيت باعث كاهش مانعيت مي‌شود. بنابراين، در عمل بايد به نسبتي معقول ميان اين دو رسيد. نياز استفاده‌كننده يكي از عوامل مؤثر در تعيين اين نسبت است.

 

مآخذ :

1)      Baeza - Yates, Ricarde; Ribeiro - Neto, Berthier. Modern Information Retrieval. New York: ACM Press, 1999; 2) Lancaster, F.W. Indexing and Abstracting in Theory and Practice. London: Library Association, 1991; 3) Idem; Warner, Amy J. Information Retrieval Today. Arlington: Information Resources Press, 1993; 4) Lucarella, D.; Zanzi, A. "Information Retrieval from Hypertext: an Approach Using Plausible Inference". Information Processing and Management. Vol.29. No.3 (1993): 299-312; 5) Salton, Gerarld. "Information Retrieval". Encyclopedia of Computer Science, PP. 661-662; 6) Van R.Jsbergen, C.J. Information Retrieval. 2nd ed. London: Butterworth, 1979; 7)Yang, Kiduk. Combining Multiple Document Representations and Multiple Relevance Feedback Methods to Improve Retrieval Performance. A Master Paper Submitted to the Faculty of the School of Information and Library Science of the Universtiy of North Carolina at Chapel Hill, 1997.

 عليرضا بهمن‌آبادي

 

 .[1] Cordonnier

.[2] Mooers

.[3] Mortimer Tob

.[4] Best match

.[5] Vector space

.[6] Probablistic

.[7] Fuzzy set

.[8] Latent semantic indexing

.[9] Inference Network

.[10] Anchor

 

 

بازگشت به فهرست مقالات ذ