Skip Ribbon Commands
Skip to main content
سایت دایره المعارف کتابداری و اطلاع رسانی
    آ         الف       ب       پ       ت       ث       ج       چ       ح       خ       د       ذ       ر       ز       ژ       س       ش       ص       ض       ط       ظ       ع       غ       ف       ق       ک       گ       ل       م       ن       و       ه       ی    

بازگشت به فهرست مقالات آ

                                                       

آرشیو وب. انباره‌ای پویا[1] از رونوشت‌های صفحات  وب‌ است که بر اساس اهداف و سیاست‌های معین، و با کمک ابزارها و تکنیک‌های خاص گردآوری می‌شود. منابع در آرشیو وب به­گونه‌ای‌‌ ذخیره، سازماندهی،‌ و حفاظت می‌شوند كه هنگام بازیابی به صورت اولیه قابل دیدن و خواندن باشند (1؛2). اصطلاحات آرشیو اینترنت[2] و حفاظت اینترنت[3] نیز به همین مفهوم به كار رفته‌اند؛ اما اصطلاح آرشیو وب رایج‌تر است زیرا در  آرشیو وب بیشتر محتوای اطلاعاتی وب  مورد نظر است. اجزای  این محتوا  با ابرپیوندها به هم متصل می­شوند و شبكة جهانی اطلاعات را تشكیل می­دهند. اما آرشیو اینترنت علاوه بر حفظ محتوای اطلاعاتی، حفظ ابزارها، فناوری­ها، روش­ها و استانداردهای موجود در فضای اینترنت و وب را هم شامل می شود (3؛4)  و به همین لحاظ آرشیو اینترنت اعم از آرشیو وب است.

منابع دیجیتالی با  قالب (فرمت)های خاص در اینترنت منتشر می‌شوند و صفحه وب نام دارند. صفحات وب در قالب HTML نوشته می­شوند. این قالب علاوه بر اینكه  تایپ، صفحه­بندی و درج انواع نمودار را در صفحة وب میسر می­كند، با یك ویژگی كه «ارجاع ابرمتن»[4] نامیده می­شود،  امکان ایجاد ابرپیوند را فراهم می­کند و از محتواها «ابررسانه»[5] می­سازد. بدین ترتیب، با یک كلیك می‌توان از یک صفحه به صفحه دیگر رفت. وقتی روی قطعة پیوند داده شده كلیك می‌شود، ابرپیوند به مرورگر[6]‌ دستور می‌دهد صفحة مورد نظر را بارگیری[7] كند. پیوندها در‌‌ قالب  اچ تی ام ال با استفاده از تگ <a> تعریف می‌شوند. هر پیوند دو پایانه[8]‌  دارد: پایانة منبعِ آغاز- كه همان تكه از متن است كه روی آن كلیك می­شود-  و پایانة منبعِ مقصد؛ یعنی صفحه­ای كه پیوند به آن باز می­شود. این دو با مسیری به هم متصل می­شوند. مسیر همان نشانی‌ منبع است كه مكان‌ یاب یكسان منبع ( یوآرال[9]‌) نامیده می‌شود. برای ساختن ابرپیوند این نشانی در تگ‌‌ قرار می‌گیرد؛ به­طور مثال: ‌‌=" http://www.w3schools.com">Visit W3Schools</a> <a.‌‌‌ این‌ ویژگی از‌ وب محتوایی می‌سازد كه می‌توان آن را به صورت خطی، عرضی، یا عمقی خواند. در آرشیوسازی محتوای وب  همین ویژگی ابرپیوند ابزار اصلی برای گردآوری است كه عاملی به نام خزشگر[10]  آن را انجام می‌دهد.

 

چرا آرشیو وب ؟ آرشیو وب ابتکاری برای حفاظت از محتوای ناپایدار وب برای استفادۀ نسل حاضر و آینده است. وب فضای اطلاعاتی‌ای است كه بر اساس برخی پژوهش­ها (5) ساختار پاپیونی[11] دارد. فضای وب در عین سهولت دسترسی، پویا و ناپایدار است (6؛7، ص1). پویایی وب بدین معناست که صفحه‌ها، سایت‌ها و حتی دامنه‌های کامل تغییر می­كنند یا ناپدید می‌شوند. اطلاعات موجود در وب نامحدود نیست. اما در صفحات پویا، مانند تقویم­ها، با كلیك روی هر تاریخ می­توان تا سال­ها پیش رفت و برای هر روز در آینده صفحه­ای  ایجاد كرد. در این صورت تعداد صفحات بالقوه وب را می‌توان بی­نهایت تلقی کرد (8). به­علاوه، اطلاعات در وب در معرض اختلال[12]‌ است؛ اختلالِ ناشی از نبودِ کنترل کیفیت‌ و مفید نبودنِ بخش‌هایی از اطلاعات آن، چه از لحاظ درستی و چه از لحاظ قالب (9). ناپایداری به معنای متغیر بودن‌، و ناماندگاری به معنای پاک شدن یا از دسترس خارج شدن است. فرّّّّّّّّار بودن از ویژگی‌های بارز منابع وب است(10،ص21). برای پابرجا و قابل استفاده بودن اطلاعات موجود در وب در آیندة دور، ضمانتی نیست. ناپایداری محتوا می‌تواند به خاطر تغییر و ویرایش، یا تصادفی باشد، مثلا هنگام تبدیل فرمت رخ دهد (11، ص44). حتی نشانی‌ها و نام‌های دامنه[13]  نیز دچار تغییر‌ و حذف می‌شوند؛ همچنانکه برنرز لی می­گوید «در نظر، هیچ دلیلی برای تغییر یو آر ال‌ها (یا توقف انتشار یک صفحۀ وب) وجود ندارد؛ ولی در عمل، میلیون‌ها علت برای آن وجود دارد» (12).

نظر مخالفان.  مخالفت با ایجاد آرشیو منابع وب در سه سطح مطرح شده است:

  • محتوای وب دارای چنان کیفیتی نیست که ارزش حفاظت بلندمدت داشته باشد؛
  • وب خود- محافظ[14]‌ است و نیازی به تهیۀ آرشیو از منابع آن نیست؛
  • آرشیو کردن وب ممکن نیست.

    در پاسخ به ایراد نخست باید گفت كه پایین بودن كیفیت در دو سطح كیفیت فنی و محتوایی قابل بررسی است. از حیث فنی، معمولاً كدگذاری­های به­هم ریخته در اچ تی ام ال، وجود فایل­های كم وضوح و ایجاد شده با فناوری‌های از دور خارج شده منشأ آن است. این مشكلات با رواج برنامه­های جدیدتر و كامل­تر و لزوم رعایت استانداردهای فنی تولید محتوا حل شدنی است. در مورد كیفیت محتوایی و ارزش آن برای حفاظت بلندمدت باید استراتژی گردآوری دقیقی تهیه شود كه نحوة  شناسایی صفحات با كیفیت و مهم  را نیز پوشش دهد. مثلاً گردآوری صفحات مجلات معتبر علمی از طریق نام دامنه دوم  .ac و یا .edu با ابزار فنی و به­صورت خودكار قابل تشخیص­اند. قدر مسلم رویكرد دستی و  به­كار گماردن انتخاب­گران مسلط و آموزش دیده، می­تواند به عنوان مكملی برای  رویكرد فنی در نظر گرفته شود و  به  كاهش نقص مجموعه در این حوزه یاری رساند.

    در موردِ خود- محافظ بودن نیز تحقیقات نشان داده‌است که نیم عمر (=دوره‌ای که در آن نیمی از صفحات وب ناپدید می‌شوند) صفحه‌های وب فقط دو سال است. محدودیت اجارۀ نام دامنه، مشکلات پهنای باند، نحوۀ سازماندهی و طراحی اطلاعات در صفحات، تغییر در کارکنان و سازوکار اداری، و بی­علاقگی صاحبان صفحه به ادامۀ نگه­داری، سبب کوتاهی عمر صفحه‌های وب است. علاوه بر این، هنوز در فناوری‌های مربوط به اینترنت و وب زیرساخت همه جانبه و عام برای حفاظت از صفحات و پیشگیری از پاک­شدن و ناپدیدشدن آنها وجود ندارد.

    ایراد سوم، یعنی ناممکن بودن آرشیو وب (چه آن را ضروری بدانیم چه نه)، ریشه در حجم عظیم وب، و مسائلی نظیر حریم خصوصی پدیدآورندگان، حق مؤلف و مالکیت معنوی دارد. پاسخ به این ایراد آن است که مشکل حجم عظیم با افزایش ظرفیت حافظه‌ها و کاهش قیمت آنها محل نگرانی نیست. مثال آن اینترنت آرکایو[15] است كه با همكاری با شركت الكسا  از نتایج خزش آن استفاده می­كند و فقط هزینۀ ذخیره­سازی را متحمل می‌شود (7).

    كاربردها. سازمان‌ها و اشخاص به انگیزه‌های مختلف منابع وب را آرشیو می­کنند. اما دو انگیزه عمدۀ آنها یکی حفظ میراث فكری و دیگری برآوردن نیاز محققان‌ و جامعۀ استفاده کننده است (13،ص 31). برخی مؤسسات‌، مانند بنیاد حافظة اینترنت[16]، هانزوآرکایوز[17]، و كتابخانه دیجیتالی كالیفرنیا[18] به­صورت تجاری، بر بستر امکانات فنی خود، برای سازمان‌ها آرشیو وب می‌سازند.  اینترنت آركایو  نیز علاوه بر خدمات عمومی و معمول، با سامانة Archive-It همین کار را می‌کند. WebCite‌ نیز سامانة آرشیو سفارشی[19] ارجاعات در وب است. نویسندگان، ناشران و ویراستاران یوآر ال منابع مورد استفاده خودشان را به این سامانه می‌فرستند. محتوای یوآر ال پس از اطمینان از مكرر نبودن،‌ آرشیو می‌شود و به آن یو آر ال دائمی در قالب DOI اختصاص می‌یابد،  بدین گونه منبع وبی مورد استناد آنها هرگز دچار شكست پیوند و خطای 404 نشده  و از دسترس خارج نمی­شود (14). PageFreezer‌‌ نیز سرویس نرم­افزاری مركزی[20] تجاری مستقر در ونكوور كاناداست و خدمات درخواستی آرشیو محتوای وب، از جمله آرشیو شبكه­‌های اجتماعی (در چارچوب قوانین حقوقی مربوط به این شبكه‌ها) ارائه می‌كند (15).‌ خدمات آرشیوسازی خصوصی و سفارشی‌ نوعی از‌ رایانش ابری[21] به­شمار می‌روند.

    از‌ كاربرد‌های مهم آرشیو وب استفاده از آن در پژوهش است. وب از زمان پیدایش به هاب اطلاعات مبدل شده و در سایر فعالیتها نظیر پژوهش، استناددهی و نقل قول درآمیخته است(16). آرشیو وب خود نیز موضوع پژوهش شده است (17). پیكره­های منابع  وبی كه به­صورت نظام­مند در آرشیوی گرد آمده باشند، می­توانند منبعی غنی برای پژوهش­های رسانه­های اجتماعی باشد (18). آرشیو وب در همة  شاخه‌های علوم،  از جمله در شاخه­‌های مختلف علوم تجربی می‌تواند یكی از منابع تكمیل­كننده كار كتابخانه‌ها و مراكز اطلاع­­­­رسانی باشد (19).

    در مورد وب­سایت‌های‌ دولتی و حاكمیتی نیز می­توان گفت كه آرشیو این وب­سایت­ها می­تواند جایگزین سندهای كاغذی شود. هنگامی كه كاربران به محتوای نسخه­های قدیمی وب­سایت­های دولتی نیاز دارند و این محتوا به­صورت كاغذی موجود نیست و وب­سایت مورد نظر نیز محتوای درخواستی را از صفحه خارج كرده است، نسخه­های آرشیو شده این وب­سایت­ها ابزاری برای شفافیت در پاسخگویی به­شمار می‌آیند (20).

    تاریخچه. به جز اینترنت آرکایو، بیشتر برنامه‌های بزرگ مقیاس آرشیو وب را کتابخانه‌ها و آرشیو‌های ملی شکل داده‌اند (21).‌ این برنامه‌ها دو دسته‌اند: 1) تحقیق و توسعه برای حفاظت، و‌ 2) پیاده­سازی عملیاتی.

     برنامه‌های تحقیق و توسعه‌ بر بسترسازی، امكان‌سنجی حفاظت از وب، سیاست­گذاری، تدوین استانداردها، و ایجاد زیرساخت‌‌های فنی و تخصصی تمرکز دارند. این برنامه‌ها در موفقیت برنامه‌‌های عملیاتی حفاظت اطلاعات، اهمیت بسیار دارند و دستاورد‌های آنها كلید موفقیت حفاظت است (22).

    تا سال 2011 دست‌کم 42 مؤسسة آرشیو وب وجود داشته است (23) و در ماه مه 2015 دست‌کم 75 مؤسسه گزارش شده است (24). همة این برنامه­ها از لحاظ پیشرفت و پیچیدگی در یك سطح قرار ندارند. برنامه‌هایی هستند كه در آغاز كار یا بعداً از پیشرفت بازمانده‌اند یا هنوز در آغاز راهند.

    قدیم‌ترین و مهم‌ترین ابتكار آرشیو وب اینترنت آركایو است كه با همكاری بروس گیلیت و بروستر كال[22] در آوریل 1996 آغاز به كار كرد. این دو بعد از چند سال فعالیت، به موفقیت‌هایی در ابعاد فناورانه، مانند تولید خزشگرو قالب فایل Arc و Petabox برای ذخیره­سازی اطلاعات و رابط جستجوی Wayback دست یافتند. به­علاوه، كتابخانه جهانی منابع وب را هم ایجاد کردند (25:ج1، ص62-73). در همین سال دو آرشیو به نام  وب استرالیا  و آرشیو وب تاسمانی[23] در استرالیا، و آرشیو وب Kulturarw در سوئد ایجاد شدند. طی شش سال بعد 5 آرشیو و از سال 2003، 31 آرشیو به­وجود آمد.  حجم اطلاعات، دامنه‌ و گرایش موضوعی آرشیو‌های وب متنوع است. اما حدود 70 درصد آنها فقط محتواهای دامنه كشور، یا تولید شده در منطقه یا مؤسسة خود را گرد می‌آورند (23).

     کمیسیون اروپائی در برنامه‌های NEDLIB‌‌(1998- 2001)، SCAPE project (2011-2014)، LAWA‌‌(2010- 2013)، ARCOMEM (2011-2014) و BlogForever (2011-2013 سرمایه­گذاری کرده است (21). در امریکا برنامه آرشیو وب در کتابخانه کنگره بخشی از برنامه NDIIPP‌ است که از سال 2000 آغاز شده و صدها سازمان خصوصی و دولتی را در این مقوله سهیم کرده است (26).

    از میان ابتکارات فوق تنها «وب سایت‌» و «اینترنت آركایو»، به احتمال قوی به سبب توانایی بیشتر آنها در حفاظت از كل منابع وبی گسترة جهانی دارند. البته اهداف تعریف­شدة حفاظتِ هر سازمان نیز بر میزان پوشش آرشیو وب آن تأثیر دارد. دلیل دیگر به سرشت خود برنامه‌ها بازمی‌گردد. به­طور مثال، پوشش بین­المللی در برنامه «وب­سایت» به آن دلیل است كه همه ‌پدیدآوران از سراسر جهان محتوا می­پذیرد. در این پروژه، نویسندگان نسخه‌ای از صفحات وب و نشانی آن را در وب­سایت آرشیو می‌کنند (22).

     آرشیو وب مبحثی مهم در اکثر هم اندیشی‌ها و انجمن‌ها در موضوع‌ محتوا و حفاظت دیجیتالی است.کنسرسیوم بین­المللی حفاظت اینترنت[24] در جولای سال 2003 متشکل از 12 کتابخانه ملی و مؤسسه (استرالیا، کانادا، دانمارک، فنلاند، فرانسه، ایسلند، ایتالیا، نروژ، سوئد، انگلستان، کنگره امریکا، اینترنت آرکایو) تأسیس شد. اهداف آن از این قرار است: 1) توانمندسازی جهانی مؤسسات مرتبط با گردآوری، حفاظت و دسترسی بلند مدت به محتوای اینترنت؛ 2) تشویق تدوین و استفاده از ابزارها، فناوری­ها و استاندارد‌های مشترک برای ایجاد آرشیو‌های‌ بین المللی وب؛ 3) حمایت از ابتکارات و قانونگذاری  برای گردآوری، حفاظت و دسترسی بلندمدت به محتوای اینترنت ؛ و 4) تشویق و حمایت از کتابخانه‌ها، آرشیوها و مؤسسات میراث فرهنگی که به گردآوری‌ و حفاظت بلندمدت محتوای اینترنت می‌پردازند.

     کنسرسیوم در حال حاضر حدود 45 عضو دارد. اعضا حق عضویت سالانه می‌پردازند و باید از حیث فنی و نیروی انسانیِ متخصص کنسرسیوم را حمایت کنند و در ازای آن از امکانات و دانش فنی کنسرسیوم استفاده کنند. اعضا موظف­اند ابزار‌های انتخاب، گردآوری و برداشت، حفاظت و دسترسی مورد تأیید کنسرسیوم را در آرشیوهای خود به­کار گیرند یا آنها را بومی­ کنند و توسعه دهند. از جمله این ابزارها خزشگر Heritrix، ابزار جستجوی DeepArc، WCT، سیستم آرشیو وب Netarchive Suite، ابزار‌های جستجو و دسترسی Wayback، Nutchwax، WERA،  Ximi  XML InQuire)) هستند‌ (27).‌‌

    کارگاه‌های بین المللی آرشیوکردن وب [25]‌ از 2001 تا 2010 با همکاری کنسرسیوم اروپایی کتابخانه‌های دیجیتالی[26] در موضوع حفاظت دراز مدتِ دیجیتالی به منظور‌ تبادل نظر کتابداران، آرشیویست‌ها و پژوهشگران دانشگاهی و صنعتی برای یافتن روش‌های مؤثر در فرایند‌های آرشیو وب برگزار شده است (28).

    در ایران‌ سازمان اسناد و كتابخانه ملی از سال 1389 مطالعات و اقدامات خود را‌ برای ایجاد آرشیو ملی وب آغاز كرده است  (1) اما این مطالعات و اقدامات هنوز به ایجاد آرشیو ملی وب منجر نشده است. ولی‌‌ دست کم به جلب توجه دست اندركاران و متخصصان‌ برای بررسی ابعاد آن منجر شده است. تخستین كنفرانس مدیریت منابع اطلاعاتی وب (تهران: اسفند 1391) را سازمان اسناد و كتابخانه ملی ایران با همین هدف برگزار کرد[27].

    آرشیو وب چگونه ایجاد می‌شود؟ سازوکار آرشیو منابع وب از جهات بسیار مشابه سازوکار موتور‌های جستجو است. در آرشیو وب نیز انباره‌ای از منابع وب گرد می‌آید و نمایه سازی می‌شود؛ با این تفاوت که در انبارۀ موتور‌های جستجو، مانند گوگل و یاهو، معمولاً آخرین ویرایش یک منبع گردآوری می‌شود؛ حال آنکه در انبارۀ آرشیو‌های وب ویرایش‌های مختلف یک صفحه با منبع همراه با برچسب تاریخ[28] و یو آر ال آن نگه داری می‌شود.

    ایجاد آرشیو وب این مراحل را دارد:

    1) سیاست­گذاری: برخلاف تصور، در گردآوری محتوا در آرشیو وب، گردآوری خودكار بر گردآوری انتخابی پیشی نمی­گیرد: «آرشیوسازی وب همواره مستلزم  نوعی انتخاب است؛ حتی هنگامی كه در مقیاس وسیع  و با استفاده از ابزار‌های خودكار انجام شود» (29، ص76).

     دو رویكرد‌ در گردآوری‌ و مجموعه­سازی آرشیو وب، یکی گردآوری خودكار و فراگیر با استفاده از خزشگرها و دیگری گردآوری دستی یا انتخابی است. گردآوری دستی را مالک وب­سایت یا خود انجام می دهد (در این صورت او سایت خود را در آرشیو واسپاری می‌کند) و یا به ابتکار خود آرشیو انجام می­شود.

    حجم زیاد داده‌‌های وب و سرعت انتشار اطلاعات، اما، شناسایی و انتخاب منابع جدید را به­صورت دستی– به­ویژه در مورد رویدادها- دشوار می‌سازد (21). از سوی دیگر، سازمان‌های مسئول حفظ میراث ملی معمولاً گردآوری منابع وب كشورشان را در دستور كار خود قرار می‌دهند. اینها وب­سایت‌هایی هستند كه دامنة ملی دارند یا در درون مرز‌های كشور میزبانی می‌شوند. هر دو شیوة خودکار و دستی اهمیت و كاربرد خود را دارند، اما دارای عناصر و فرایند‌های مشابه فنی هم هستند (29، ص89).

    2) بارگذاری و ایجاد انباره: مهم‌ترین مرحله در فراهم­آوری در نرم‌افزار آرشیو وب، بارگذاری‌ یا همان تهیۀ کپی از منابع وب است. این کار را خزشگرها انجام می‌دهند. حجم داده­ها برای گردآوری و مدیریت در انباره تعیین­كنندة رویكرد (های) فنی در آرشیوسازی است. با در نظر داشتن این واقعیت كه «هیچ رویكرد فنی به­تنهایی برای آرشیوسازی محتوا‌های متنوع وب­- كه با فناوری‌های مختلف تولید می‌شوند- كافی نیست» (29، ص 21). سه رویکرد فنی برای آرشیوسازی عبارتند از:

    الف. آرشیوسازی كاربر- سو[29]، از سایر موارد رایج‌تر است؛ مقیاس­پذیر و از حیث هزینه سودمندی بسیار كارآمد است. در این رویكرد خزشگر به عنوان كاربر (=مرورگر) عمل می‌کند و محتوا را از سِروِر مربوط می‌گیرد.

    ب. آرشیوسازی تراكنشی[30]، كه در آن تقاضا/ پاسخ‌های هر كاربر ضبط و ذخیره می‌شود و محتوا‌هایی كه كاربران آنها را نبینند ذخیره نخواهد شد. ولی وب پنهان تا جایی كه كاربران بدان دسترسی پیدا ‌كنند کپی و ذخیره می‌شود. اجازة صاحب سِروِر در این رویكرد ضروری است.

    ج. آرشیوسازی از سِروِر [31] ، در این روش محتوا مستقیماً و بدون استفاده از پروتكل HTTP کپی می‌شود و با همكاری صاحبان سرورها میسر است؛ به­ویژه در جایی كه خزشگر اجازه‌ دستیابی به محتوا را ندارد (7، ص27). در سال‌های اخیر از فید[32]‌های آر اس اس[33] برای‌ تشخیص روزآمدسازی وب­سایت­ها و کپی­برداری از نسخة روزآمدسازی شده‌ استفاده شده است (30).

    3. سازماندهی: سیستم آرشیو وب همانند یک موتور کاوش باید طوری منابع انباره را سازمان دهد که به کاربر امکان جستجو، مکان‌یابی و بازیابی منابع را بدهد. در واقع سازماندهی­- نمایه­سازی و فهرست­نویسی-‌ و بازیابی اطلاعات با کیفیت از چالش‌های مهم در انباره‌های اطلاعات دیجیتالی است. سازماندهی منابع گردآمده در انباره، مستلزم تعیین‌ میزان دقت در بازیابی و تعریف سطوح جزیی یا همان‌ واحد اطلاعاتی است تا بتوان در مورد انتخاب سیستم سازماندهی تصمیم گرفت. اهداف سازمان و منابع مالی و انسانی نیز در این‌ تصمیم نقش دارند.

    4. دسترسی: دسترسی به کمک موتور جستجوی مناسب امکان دارد. موتور جستجو بسته به نوع سازماندهی و طرح فراداده­ای آن (مثل متس، مودس و غیره)، عمق نمایه،‌ و پیکربندی فایل نمایه، عمل می‌کند. نرم‌افزار‌های جستجو به کمک واسط گرافیكی كاربر[34]‌ ارتباط میان كلیدواژه‌‌های جست‌وجو، اطلاعات نمایه‌شده در پایگاه، و سرانجام نمایش نتایج جست‌وجو بر روی صفحه رایانه را برقرار می‌کنند. جستجو‌ با بهره­گیری از ابزارهایی مانند اصطلاحنامه‌ها و آنتولوژی‌ها، مکانیزم‌های داده­کاوی، و دانش زبان­شناسی در حال بهبود است.

     

    ابزارها و نرم‌افزارها. گسترة آرشیو در نوع نرم­افزار مورد استفاده مؤثر است. مراحل آرشیوكردن محتوای وب بسیار شبیه به مراحل تشكیل‌ و نگهداری هر مجموعة اطلاعاتی دیگر است. نرم­افزار‌هایی وجود دارند كه‌ همه یا بخش‌هایی از این مراحل را پشتیبانی می‌کنند و بیشتر آنها به صورت كد منبع باز در دسترس همگان هستند:

    الف. نرم‌افزار‌های یكپارچة مدیریت آرشیو وب: این نرم‌افزارها كه تعدادشان اندك است تمام یا بیشتر‌ مراحل آرشیوسازی وب را، شامل شناسایی و انتخاب، مدیریت مجوزها، گردآوری با خزش و رونوشت‌برداری، كنترل كیفیت و دسترسی، پشتیبانی می­كنند. بعضی از این نرم‌افزار‌ها از این قرارند:
  • PANDAS [35]: در سال 2001 توسط كتابخانه ملی استرالیا و در زبان جاوا و پرل تدوین شده است. مراحل انتخاب، مجوزها، برنامه‌ریزی و زمان­بندی‌ها، گردآوری داده، كنترل كیفیت، آرشیوسازی و دسترسی را پوشش می‌دهد. این نرم‌افزار تجاری است و هم اكنون ویرایش 2007,v3‌ استفاده می­شود. این سامانه از خزشگر HTTrack‌ استفاده می­كند و زابط كاربر عمومی آن PANDORA نام دارد كه فهرست عناوین و موضوعات منابع آرشیو شده را ایجاد می‌کند. آرشیو وب در این سامانه انتخابی است‌ و وب­سایت‌های دامنة استرالیا را اینترنت آركایو در اختیار آرشیو وب استرالیا قرار می‌دهد (31).
  • WEB Curator Tool : سامانة مدیریت آرشیو محتوای انتخابی وب با كد منبع باز است كه در 2006 با همكاری كتابخانه ملی نیوزیلند و بریتیش لایبرری‌ و حمایت‌ كنسرسیوم بین­المللی حفاظت اینترنت[36] تدوین شده و به جز دسترسی، همة مراحل گردش كار آرشیو وب در آن انجام می‌شود. آخرین ویرایش آن 1.6.1 در ماه مه 2014 در دسترس عموم قرار گرفته است. این سامانه برای کپی برداری محتوا از خزشگر Heritrix استفاده می‌کند (32؛33).
  •  NetarchiveSuite : برای مدیریت آرشیو انتخابی و نیز فراگیر  وب هر دو به­کار می‌رود. آن را دو كتابخانه Det Kongelige Bibliotek‌ و Statsbiblioteket در سال 2004 در دانمارك طراحی و در 2007 به صورت كد منبع باز در اختیار عموم قرار داده‌اند. آرشیو ملی وب دانمارك از این سامانه استفاده می‌کند. این سامانه همة مراحل گردش كار آرشیو را انجام می‌دهد. در آن برای دسترسی از نرم‌افزار Wayback Machine‌‌ و برای رونوشت­برداری از خزشگر Heritrix استفاده می‌شود (34).
  •  CINCH‌: همة مراحل رونوشت­برداری محتوای وب‌ و فراداده­‌های آنها و انتقال آنها را‌ به انبارة آرشیو وب با استفاده از فناوری‌های حفاظت دیجیتالی انجام می‌دهد. كنترل كیفیت، تخصیص شناسگر شئ دیجیتال، و ردگیری منابع مكرر از جمله قابلیت‌های این ابزار است (35).
  • ب.  نرم‌افزار‌های كاربردی: این نرم‌افزارها یك یا چند مرحله از آرشیو وب را انجام می‌دهند:

‌ 1. شناسایی و دریافت مجوز از صاحبان سایت­ها: هر چند خزشگرها برای یافتن انواع فایل و نام‌های‌ دامنه قابل تنظیم هستند، اما لازمة آغاز به كار آنها در دسترس داشتن فهرست هسته است، یعنی فهرست اولیه از نشانی صفحاتی كه قرار است خزشگر آنها را رونوشت‌برداری كند. اغلب پس از آغاز خزش منابع غیرمرتبط را نیز کپی می‌کنند. نمونه‌های نرم‌افزارهای کاربردی اینها هستند:

  • WebAnalyzer  ابزاری است كه كتابخانه ملی جمهوری چك برای تشحیص خودكار محتوا‌های وب به زبان چكی،  كه خارج از نام دامنه ملی این كشور هستند، طراحی كرده است، به­گونه‌ای كه هنگام خزش در وب، محتواها را از حیث ویژگی‌های صفحات، نظیر نوع فایل (فیلم، صدا، متن) و زبان بررسی می‌کند (2).
  • Digiboard‌، ابزاری است با كد منبع باز كه كتابخانه كنگره آمریكا آن را تهیه کرده است. مدیریت مجوز‌های قانونی برای رونوشت‌برداری از وب­سایت­ها، مدیریت ارتباط با مالكان محتوا، بررسی كیفیت محتوا پیش و پس از خزش از امكانات این ابزار است (36: ج 2 ، ص 168-183).‌‌
  • [37]BCWeb ‌ را كتابخانه ملی فرانسه برای انتخاب و مدیریت فهرست وب­سایت‌ها و ارسال به خزشگرها برای کپی­برداری تهیه کرده است (16).‌
  • Warrick‌ ابزاری است برای بازسازی وب­سایت­های موجود در آرشیو وب با استفاده از سرویس Memento (16).‌ كتابخانه بریتیش لایبرری نیز بر مبنای استفاده از «خرد جمعی» ابزاری به نام Twittervane‌ برای تجزیه و تحلیل فید‌های توییتر و شناسایی پراشتراك‌ترین تویت‌ها و‌ گردآوری صفحه‌های مربوط به آنها تهیه كرده است اما در زمان نوشته شدن این مقاله هنوز در دست آزمون است (37).

2. گردآوری محتوا. خزشگرها محتوا را از وب‌ گردآوری می‌کنند، گردآوری مهم‌ترین و پیچیده‌ترین مراحل ایجاد و توسعة آرشیو وب است.‌ خزشگرها وب را به­صورت مستمر .و منظم می پیماند و منابع آن را بارگذاری و ذخیره می­کنند (38؛39 ؛40). آن دست از منابع وبی که خزشگرها گرد می­آورند در انباره‌ای در محل [38] ذخیره می‌شوند و سپس تجزیه و تحلیل، داده کاوی، نمایه­سازی و جستجو می‌شوند (41؛42).‌ هر خزشگر می‌تواند ظرف چند دقیقه هزاران صفحۀ وب را بگردد و بارگذاری کند.

  • به خاطر حجم عظیم و پویایی وب، روزآمد کردن و بهبود مداوم نرم‌افزار‌های بازیابی اطلاعات ضروری است.‌ خزشگر‌ها این کار را‌ با تعقیب ابرپیوندهای[39] صفحات وب، دانلود بخش‌هایی از وب، و سپردن آن به اجزای نمایه­ساز‌ و ابزار‌های جستجوی موتور‌های جستجو انجام می‌دهند. خزشگرها در هر دور از کارشان فقط می‌توانند بخش‌هایی از موجودی عظیم وب را دانلود کنند. بنابراین، باید طوری طراحی شوند که‌ با اولویت‌بندی به تعقیب صفحه‌ها بپردازند. نیز‌ باید از تغییراتی که از دور قبلی خزش آنها در وب، تغییر کرده‌اند، باخبر شوند و ویرایش‌های جدید صفحه‌ها را در فاصله‌های زمانی مناسب دانلود کنند.
  • مسئلۀ مهم دیگر در طراحی‌ وبرنامه­نویسی خزشگرها پیشگیری از دانلود صفحات مکرر با یوآر ال‌های مختلف است. با توجه به هزینه‌ها و محدودیت پهنای باند، ضروری است خزشگرها طوری طراحی شوند که با کمترین هزینه بهترین صفحه‌ها را دانلود کنند. تعریف بهترین صفحه‌ها را باید سیاست‌های از پیش تعیین شده برای خزشگر تعیین کرده باشد. سیاست‌های مالی، علمی، سازمانی و خدماتی‌ و جز آن در تنظیم و طراحی نحوۀ عملکرد خزشگر و اولویت‌بندی در دانلود صفحات، و به تَبَع آن در انباره تأثیر می‌گذارند (43، ص10).
  • نمودار 1 به ساده‌ترین و كلی‌ترین شکل عملکرد یک خزشگر را نشان می‌دهد ولی همانگونه که برین و پیج[40]، بنیان­گذاران گوگل، می‌نویسند «خزشگر‌های وب پیچیده‌ترین و در عین حال شکننده‌ترین جزء یک موتور کاوشند» (41). البته، طرز عمل خزشگرها در آرشیو منابع وب با خزشگر‌های موتور‌های کاوش تفاوتهایی دارد. به­طور مثال، خزشگر یک سامانه آرشیو وب باید بتواند انواع منابع را - صرف نظر از قالب-‌ واكشد[41] تا نسخۀ کاملی از سایت در آرشیو حفظ شود. کار خزشگر فقط آوردن نشانی‌ها و مسیرها نیست؛ حال آنکه خزشگر‌های موتور‌های کاوش اغلب به فایل­هایی بسنده می‌کنند که می‌توانند واکَشند یا نمایه کنند. مثلاً اغلب فایل‌های ویدیویی را به خاطر صرفه­جویی در زمان و محدودیت پهنای باند واکَشی نمی­کنند.

 

 

 Untitled.png

شکل1. ساده‌ترین نمودار عملکرد یک خزشگر (برگرفته از منبع 41)

 

بعضی ابزار‌ها كه برای گردآوری محتوا به­كار می‌روند اینها هستند:

  • HTTrack‌ كه در زبان C‌ و++‌ نوشته شده‌ و فایل­ها را به­گونه‌ای بر دیسك ضبط می‌کند كه یو آر ال سایت واكشی شده را نیز در فایل كپی و‌ چنان بازنویسی می‌کند كه با رونوشت فایل در نرم‌افزار محلی HTTrack باز شوند و نه با وب­سایت اصلی در وب‌ (44). طی این فرایند اسامی بسیاری از فایل­ها از دست می‌رود و به همین علت بسیاری از مؤسسات ‌ را ترجیح می‌دهند.
  • Heritirx‌ خزشگز كد منبع باز در زبان جاواست كه توسط اینترنت آركایو تهیه شده و می‌توان آن را طوری پیكربندی كرد كه فایل‌های واكشی شده را در حامل‌های‌ یا ذخیره كند. این خزشگر خزش انتخابی و فراگیر در نام دامنه را پشتیبانی می‌­كند و می‌تواند محتوا‌های در جریان مانند فیلم‌های ویدئویی سایت  YouTubeرا نیز گردآوری كند. نیز می‌تواند داده‌های گردآوری شده در خزش‌های قبلی را خزش نكند و از واكشی منابع تكراری خودداری كند (45).
  • WGet‌ ادامة برنامة Geturl‌‌ بوده است كه در 1996 در زبان C‌ نوشته شده‌ و غیر تعاملی[42] است (46). خزشگر Miyamoto‌ را مؤسسة Hanzo Archive‌ تدوین کرده است و مؤسسة حافظة اینترنت[43] نیز از Memorybot‌ استفاده می‌كند. هر دو خزشگر در واکَشی صفحات، پرقدرت هستند (21).
  • SiteStory‌‌ ابزار آرشیوسازی تراكنشی است كه تنها آن بخش از محتوای سرور را كه كاربر تقاضا می­كند ذخیره می­كند (13)
  • ‌ WARCreateافزونه‌ای ازGoogle Chrome برای آرشیوسازی صفحات وب شخصی در قالب فابل‌های WARC است.
  • Warrick ابزاری است برای بازسازی وب­سایت‌های آرشیو شده با استفاده از Memento‌.
  • ArchiveFacebook افزونه‌ای در مرورگر فایرفاكس است كه به كاربران امكان آرشیوكردن حساب‌های كاربری خود را در فیس­بوك می‌دهد (16).
  1. ذخیره سازی. قالب­ها و ابزار‌هایی كه برای ذخیره و نگهداری تهیه شده‌اند:
  • WARC‌‌ بسط یافتة قالب فایل ARC [44]‌‌ است. با ‌ انواع منابع حاصل از خزش وب در بلوك‌ها پی در پی ذخیره می‌شود. در WARC‌‌ ذخیرة‌ منابع دیجیتالی حاصل از خزش وب را در یك فایل مجتمع همراه با اطلاعات مربوط، از قبیل فراداده‌ها، خلاصه­‌هایی در بارة كشف نسخه­‌های مكرر و آخرین تغییرات ذخیزه می‌كند (47).
  • Petabox سخت افزار ذخیره­سازی كم مصرف، فشرده و كم­ هزینه‌ای است برای ذخیرة یك پتابایت‌ (یك میلیون گیگابایت) داده. اینترنت آركایو طراحی و تولید آن را به شركت كاپریكورن[45]‌ سفارش داد (48).
  • Bagit‌‌ قالبی برای بسته­بندی و ذخیرة فایل‌های دانلود شده در آرشیو وب برای انتقال و حفاظت دیجیتالی در محیط شبكه است وكنابخانه كنگره آن را تهیه کرده است (49).‌
  • HTTrack2ARC ابزاری است برای تبدیل خروجی‌های HTTrack‌ به قالب‌های فایل ARC.
  • JWAT[46] ابزاری است برای خواندن و اعتبارسنجی فایل‌های ARC‌ و WARC
  •  JHOVE2‌‌ ابزاری است برای تشخیص قالب‌های فایل ؛‌‌Web Archive
  • Transformation (WAT) Format و Web Archive Transformation (WAT) Utilities چارچوب‌ها و‌‌ ابزارهایی هستند برای برداشت فراداده از فایل‌های WARC به منظور‌ تجزیه و تحلیل؛
  • WarcManager ابزاری است برای بهره­برداری از محتوای قایل‌های WARC؛
  •  WARC Tools  ابزاری  است برای خواندن و ویرایش فایل‌های WARC و تبدیل فایل‌های ARC‌ به WARC‌ (16).

4.      دسترسی. برخی ابزار‌های دسترسی به محتوای آرشیو وب:

  • · Wayback Machine اینترنت آركایو آن را تهیه کرده است. این ابزار وب­سایت‌های آرشیو شده را از طریق یو آر ال و تاریخ نمایش می‌دهد. ویرایش فعلی در زبان پِرل نوشته شده و تجاری است. نسخة جاوای این ابزار سه راه دسترسی از طریق یو آر ال، پراكسی یو آر ال‌ و نام دامنه را پشتیبانی می‌كند‌ (50).
  • · WERA[47]  ابزار دسترسی با كد منبع باز‌ مبتنی بر و جانشین آن برای جستجو نیازمند به NutchWax‌ است. این ابزار علاوه بر جستجوی تمام متن كاركردی همانند Wayback Machine‌ دارد و از ARCRetriever‌ برای واكشی فایل‌های آرشیو از فایل فرمت‌های ARC استفاده می‌كند.‌ (14).
  • · DeepArc (تهیه شده در كتابخانه ملی فرانسه) و Xinq[48]‌ (تهیه شده در كتابخانه ملی استرالیا)، ویرایشگرهای گرافیكی مبتنی بر‌هستند‌ كه محتوای وب پنهان یا همان پایگاه‌های داده ساختاریافتة واسپاری شده را در قالب فایل در XML ذخیره و ارائه می‌كنند (51). البته شكل‌ و چینش اولیة پایگاه داده را حفظ نمی­کنند.
  • ·  NutchWax [49]‌  نیز از ابزار‌های نمایه­سازی، جستجو و دسترسی‌ در آرشیو‌های وب با نمایه­ساز Hadoop‌ است. این ابزار سازگارشدة موتور جستجوی Nutch با كد منبع باز است كه در تغییراتی كه اخیراً روی آن انجام داده‌اند از خزشگر به ابزار جستجو گرایش یافته است (52). olr [50]  نیز ابزاری با كد منبع باز در زبان جاواست كه برای نمایه­سازی و جستجوی تمام متن در انباره منابع وبی به­كار می‌رود (53).
  • ·NGram Viewer ابزاری است كه در آرشیو وب انگلستان از آن استفاده می‌شود و بسامد تكرار‌ واژه‌­‌های جستجو شده توسط كاربر را در آرشیو، بر حسب زمان با‌ نمودار نشان می‌دهد. با كلیك بر هر نقطه در نمودار نتایج جستجو نشان داده می‌شود (54).
  • · Mementos ابزاری‌ است كه پروتكل Time Travel for the Web‌‌ (RFC 7089)‌ را در رابط كاربری وب-پایه به كار می­گیرد و ویرایش‌های گذشتة منابع وبی را در هر آرشیو كه باشد، نشان می‌دهد (55).
  • · Web Continuity Service‌ دسترسی وب­سایت‌های دولتی انگلستان را به محتوای آرشیو شده شان تأمین می‌كند.‌ وقتی محتوایی از وب­سایت‌های دولتی برداشته می‌شود با استفاده از فناوری بازهدایت[51]، محتوای قدیمی به كاربر نمایش داده می‌شود (56).

 

استانداردها در آرشیو وب. به خاطر تغییر مداوم وب­سایت‌ها، هم از حیث محتوا و به­روز رسانی و هم از حیث فناوری‌های مورد استفاده، لازم است ابزارها و استاندارد‌هایی در آرشیو وب به­كار گرفته شود تا محتوای آرشیو در گذر زمان قابل خواندن و در دسترس بماند. استاندارد‌های آرشیو وب بسیارند؛ زیرا برای تولید محتوا در محیط وب، شبكه، و انبارة منابع وبی‌ استاندارد لازم است. مهم‌ترین آنها را در اینجا معرفی می‌کنیم:

 استاندارد هسته در آرشیو وب HTML   و XML فناوری­های مربوط به آنهاست،  از جمله XSLT [52] كه زبانی است برای تبدیل منابع XML به قالب­های دیگر. HTML5  در 2004 ارائه شده كه امكان برداشت آسان منابع چند رسانه‌ای را در خود دارد (57).CSS [53]. شیوة آبشاری است كه در ساخت صفحه­های وب به­كار می رود و روشی ساده برای نمایش چیدمان و جلوه­های تصویری (قلم، رنگ و فاصله‌ها) در این صفحه‌هاست (58). الگوی مرجع OAIS [54]‌ كه در 2012 با عنوان ایزو 14721 معرفی شده است، به منزلة چارچوب كلی برای حفاظت در انباره­‌های دیجیتالی­_ از جمله آرشیو‌های وب  به­كار می‌رود (21).

استاندارد منع خزش (/robot.txt)‌ فایلی متنی است كه در صفحات وب قرار می‌دهند تا خزشگر از ورود به همه یا بخش‌هایی از وب­سایت‌ منع شود (43، ص 95-99). WARC  نیز به عنوان استاندارد ایزو 28500‌ سال 2009‌ در حوزة آرشیو وب معرفی شده است. ایزو 14873، 2013 نیز یک راهنما برای ارائة آمار‌ها ومسائل مربوط به كیفیت در آرشیو وب است.

لازمۀ‌ دسترسی به منابع گردآوری شده در انبارۀ یک آرشیو وب، سازماندهی مناسب است. سازماندهی منابع وبی علیرغم تفاوت‌های این منابع با انتشارات چاپی،‌ تابع اصول و مفاهیم مشترک است.‌ ابردادۀ توصیفی در منابع وب نیز به کشف اطلاعات مرتبط، به سازماندهی منابع اطلاعاتی الکترونیکی، به درهمکردِ منابع انتشاراتی و میانکنش­پذیری[55] کمک می‌کند. همچنین، ابردادۀ توصیفی، هویت دیجیتالی پدید می‌آورد و آرشیو را حفاظت و پشتیبانی می­کند. (59)؛ و بهترین و مؤثرترین راه مرئی کردن منابع وب پنهان برای ابزار‌های نمایه ساز وب است (60، ص12-17).

 در عین حال‌ لازم است استفاده از روش‌های کتابشناختی‌ در ایجاد ابر دادۀ مناسب (ابردادۀ توصیفی) برای آرشیو وب بررسی و ارزیابی شود (61). با این وجود، استفاده از استاندارد‌های فراداده‌ای در آرشیو وب، بستگی به نیازها، الزامات و تصمیم­گیری سازمان متولی آرشیو دارد.‌ به هر حال، مارك 21، ISAD (G)، دابلین كور، MODS [56]، METS [57]، PREMIS [58] نیز برای سازماندهی منابع آرشیوی وب قابل استفاده‌اند (21). XMP [59] كه بسط یافتة RDF‌‌ [60] است و برای نمایه­سازی منابع وبی به­كار می‌رود، نیز می‌تواند به عنوان فراداده در فهرستنویسی منابع آرشیو وب به­كار رود. این فراداده به خاطرِ داشتنِ عناصر اصلی‌ دوبلین كُور، با بسیاری از فراداده‌های دیگر قابلیت نقشه­نمایی و میانكنش­پذیری دارد (62).

در وب اغلب، تغییراتی در یو آر ال، یا همان نشانی اینترنتی منابع و صفحات، رخ می‌دهد که جستجو را به «پیوند شکسته»[61]منتهی می‌سازد. در واقع وقتی‌ مکان شیء تغییر می‌بابد،‌ یوآرال و‌ ابرداده غیر معتبر می‌شوند. بنابر این در طرح‌های ابرداده‌ای، عناصری نظیر شماره‌های استاندارد برای شناسایی انحصاری اثر یا شیء به­کار می‌رود. اینها در واقع مکان و نشانی دائمی منبعی است که‌ ابرداده به آن ارجاع می‌دهد. این عناصر که شناسگر دائمی[62]‌‌ نامیده می‌شوند، شكل تغییریافته و دائمی نشانی اشیائ دیجیتالی هستند  [63]‌ و PURL‌ [64]‌  از آن جمله‌اند.

پروتكل ORE [65]  نیز، استانداردی برای توصیف و تبادل آن دسته منابع وبی است كه در صفحات مختلف حضور دارند (63).

چالش­ها. این چالش­ها را می توان از شش جنبه مطرح كرد:

1. حقوقی. اینكه آیا می‌توان بدون گرفتن مجوز رسمی از صاحب وب­سایت، حتی اگر دسترسی به محتوای آن آزاد گذاشته شده باشد، محتوای آن را رونوشت‌برداری و ذخیره كرد، به مسألة حق مؤلف و واسپاری قانونی آثار مربوط می‌شود و در مجموع بستگی به مقررات كشور مورد بحث و مأموریت‌ها و وظایف قانونی سازمان آرشیوکننده دارد. كشورها با‌ قانون واسپاری آثار به سازمان‌های مسئول گردآوری و حفظ میراث مکتوب، اجازه حفظ نسخه­‌هایی از این میراث را داده‌اند؛ اما‌ در مورد منابع اینترنتی با وضعیت خاص و متفاوت دسترسی به این منابع، كشورها شیوه­های مختلفی  برای حفظ آنها پیشه كرده‌اند.

 اتریش، كانادا، كروواسی، دانمارك، استونی، فنلاند، فرانسه، آلمان، ایسلند، ژاپن، نیوزیلند، نروژ، اسلونیا، سوئد و انگلستان در قانون واسپاری آثار‌ و حق مؤلف خود، به واسپاری منابع وبی اشاره و یا قانون موجود را به این منابع نیز تسری داده‌اند. در این کشورها، موافق همین قانون‌ها به گردآوری محتوای وب می‌پردازند.

استرالیا، كبك، كاتالونیا، چین، جمهوری چك، مصر، هلند، لهستان، سنگاپور، كره جنوبی، اسپانیا، سوئیس و امریكا پس از گرفتن مجوز از صاحبان سایت و در چارچوب استفاده منصفانه به گردآوری محتوای وب می‌پردازند (64).

در ایران‌‌ براساس مصوبه واسپاری آثار غیر مکتوب (مورخ ۱۳۷۸/۲/۲۱ مصوب جلسه ۴۴۱ شورای عالی انقلاب فرهنگی)، همة تولیدکنندگان دولتی و غیردولتی آثار غیرمکتوب موظفند دو نسخه از تولیدات خود را به کتابخانه ملی تحویل دهند و شماره واسپاری دریافت کنند. در بند الف ماده یك این مصوبه از «انتشارات الكترونیك: کتاب‌های متنی، کتاب‌های تصویری ساکن و متحرک، کتاب‌های گویا و ... »یاد شده است. هر چند به اعتبار وجود واژة "الکترونیک"، انتشارات وبی را نیز می‌توان مشمول این ماده دانست، اما به صراحت از منابع وبی در آن یاد نشده است. در صورت ایجاد آرشیو ملی وب در ایران به­نظر می‌رسد لازم باشد به گونه‌ای مناسب‌ لزوم واسپاری‌‌ «انتشارات الکترونیک آنلاین» تصریح شود (1، ص 123).

2. شناسایی و گردآوری. شناسایی وب­سایت­‌های مرتبط‌ و باكیفیت، چالش دیگری است. زیرا داده‌ها در وب عظیم و خزشگرها ناتوان از غربال کردن سایت­های مربوط از نامربوط‌اند. انتقال داده‌ها به صورت خودکار، خطر گردآوری منابع غیرمرتبط و کم/یا بی­كیفیت را افزایش می­دهد. شناسایی و گردآوری دستی نیز به خاطر رشد سریع داده‌ها پاسخگو نخواهد بود. به علاوه، می‌تواند آرشیو را دچار سوگیری‌های ناشی از گرایش‌های گزینشگر كند (21).‌ شناسایی و گردآوری از وب پنهان نیز بر دشواری کار می‌افزاید. گردآوری صفحاتی كه استفاده از آنها با نام كاربری و گذرواژه ممكن است، نیز چالش دیگری است.

3. منابع مكرر. یک مشکل در مرحلة گردآوری و مجموعه­سازی منابع وب، تشخیص منابع مكرر است.‌ فرض بر این است كه هر یو آر ال نشانی یك صفحه وب در وب جهانی است، ولی اغلب‌ دیده می­شود چند یوآرال به یك صفحۀ وب منتهی می­شوند. اینها را یو آر ال‌های معادل[66]‌ می­نامند. یو آر ال‌های با نحو (syntax = تركیب كاراكترهای) یكسان و مشابه، معادل­اند؛ یعنی به یك صفحۀ وب منتهی می­شوند. ولی در مواردی یو آر ال‌های با نحو متفاوت نیز به صفحۀ واحد منتهی می­شوند. در واقع آنها نیز یو آر ال‌های معادل­اند. این واقعیت برعملكرد خزشگرها كه واكَشی منابع وبی را از طریق یوآرال آنها برعهده دارند، تأثیر می­گذارد و منجر به دانلود شدن صفحات مكرر و هرز رفتن منابع شبكه می­شود.‌ هر چند در استاندارد‌های وب روش‌هایی برای پیشگیری از این معضلات وجود دارد (43، ص 109-112)، مطالعات و آزمون‌ها یرای پیشگیری خودكار از رونوشت‌برداری از منابع مكرر ادامه دارد.

4.کشف تغییر[67]. طبیعت وب پویاست. محتوا در آن به طور مداوم در حال افزوده شدن، حذف و تغییر است. همین خصلت وب، روزآمد نگاه داشتن صفحات گردآوری شده‌ را برای خزشگرها دشوار می‌سازد؛ به­ویژه که همیشه تغییرات ظاهری به معنای تغییرات معنادار‌ و محتوایی‌ نیست. درك الگو‌های پویایی صفحات وب، به این معنی که محتوای وب با چه سرعتی در حال تغییر است و ماهیت این تغییرات چیست، و تأثیر این همه بر ساختار وب‌ و میزان همبستگی این تغییرات با مضامین صفحات وب کدامند، از موضوع‌های پژوهشی روز است.

کشف تغییر در آرشیوسازی وب‌ و نیز در مباحثی مانند خدمات‌ و سامانه‌های بزرگ مقیاس پایش‌ و تحویل اطلاعات اهمیت دارد. حزشگرها باید بتوانند آخرین تغییرات صفحات وب را رصد و آخرین ویرایش آنها را واکَشند‌ و به انباره منتقل کنند. این به روزرسانی برای حفظ انسجام خزش‌ و تازگی منابع موجود در انباره اهمیت دارد و بازیابی تازه‌ترین داده‌ها را ممکن می‌سازد. تغییرات را در سطوح مختلف قابل کشف­اند و‌ معلوم است که تابع گونه‌های مختلف ایجاد تغییر در صفحات وب­اند.

به کشف تغییر، اغلب با رویکرد سندمحور[68] در مقابل شیءمحور پرداخته‌اند. منظور از شیء یا موجودیت در اینجا محتوای وب است و ممکن است بخشی از یک صفحۀ وب باشد که خود حامل اطلاعات قابل استفاده نظیر تصویر، مقالات خبری، محتوای وبلاگ، نظرات و جز آن باشد. در این زمینه میان تغییرات مهم و تغییراتی که در اثر پویایی قالب[69] صفحۀ وب ایجاد می‌شوند (مانند آگهی‌ها، صفحه­بندی‌های پویا و غیره) چندان فرقی گذاشته نمی­شود. مکانیزم‌های کشف تغییر ممکن است ایستا (مانند برآورد تاریخ آخرین تغییر از خود صفحۀ وب، مثلاً با مشاهدة تغییر كد صفحه ، تغییر برچسب  زمان در صفحات همجوار  که به صفحه مورد نظر پیوند می‌دهند یا از آن پیوند می‌گیرند، یا ویژگی‌های معنایی) یا پویا و از طریق مقایسۀ ویرایش‌های پیاپی صفحه باشد (43، ص 131-132).

5. تله‌های خزش[70].‌ نرم‌افزار خزشگر باید طوری نوشته شود که خزشگر در تله­‌های خزش درگیر نشود. تله­‌های خزش وب­سایت­‌هایی هستند كه در آنها در پیِ مرور کاربر، یوآرال­هایی‌ به صورت پویا ایجاد می­شوند. تله­‌های خزش ممكن است برای گیرانداختن spambot‌ها یا سایر خزشگرها كه پهنای باند وب­سایت­ها را اشغال می­كنند، به­كار ­روند. بعضی از آنها غیرعامدانه از طریق صفحات پویا،كه بعد از ارسال تقاضا ایجاد می­شوند، پدید می­آیند، مانند تقویم­ها كه پیوسته به روز یا سال بعد پیوند می­دهند.‌ بعضی از سایت­‌های تجارت الكترونیكی نظیر Amazon.com از یوآرال­ها برای رمزگذاری رشته تولیداتی استفاده می­كنند كه هر كاربر می­بیند؛ بدین­ترتیب كه هر زمان كه یك كاربر بر یك پیوند كلیك می­كند سرور، ریز اطلاعات مربوط به رفتار خرید كاربر را برای تجزیه و تحلیل بعدی ثبت می­كند. به­طور مثال، صفحه پویایی را برای محصول x در نظر بیاورید كه مسیر یوآرال­ آن x/‌، و شامل یك پیوند به محصول y‌است. جزء مسیر[71] در یوآرال مربوط به این پیوند /x/y‌ خواهد بود كه نشان می­دهد كاربر در آستانة رفتن از صفحۀ x به صفحه y است. حالا فرض كنید صفحۀ y‌ پیوندی به محصول x دارد. مسیر یو آر الی كه به صورت پویا برای این پیوند ایجاد شده /x/y/m خواهد بود؛ به این ترتیب خزشگر فكر می­كند این صفحۀ جدیدی است، در حالی كه آن را قبلاً‌بازدید کرده است، منتها با یك یوآرال جدید است. همچنین سرور ممكن است با هر بار كلیكِ یك كاربر (یا یك خزشگر) بر پیوند‌های پویا، یك مدخل در یك پایگاه اطلاعاتی ایجاد كند. مثال آن وبلاگ یا Massage Board‌  است كه كاربران می­توانند در آنها نظر[72] بگذارند.

به این ترتیب، سایت­‌هایی ایجاد می­شوند كه برای خزشگر به نظر بی‌انتها می­رسند، آنهم به علت اینكه هر چه خزشگر پیوندها را تعقیب و شكار كند، یو آر ال‌ها (و در نتیجه لینك­ها)ی بیشتری‌ ایجاد می­شوند كه خزشگر فكر می­كند باید خزش كند. ولی این پیوند‌های «پوچ»[73]‌ به هیچ محتوای جدیدی رهنمون نمی­شوند، بلكه فقط صفحه­‌هایی هستند كه به صورت پویا ایجاد می­شوند، یا صفحه­‌هایی كه قبلاً‌دیده شده­اند. بنابراین خزشگر ممكن است برای خزش درون تلۀ خزش بیفتد و در واقع‌ هیچ محتوای جدیدی را واكشی نكند.‌ در واقع خزشگرها در یو آر ال ‌هایی كه با مكانیزم‌های پویا در این صفحات تولید می‌شوند، گیر می‌افتند و به نظر می‌رسد، هرگز نمی­تواند از آن خارج شود (43، ص 90-93).

6. وب 2. صفحات وب 2‌ كه‌ شبكه‌های اجتماعی وجه غالب آن را تشكیل می‌دهد، اغلب با‌‌ زبان‌ جاوااسكریپت‌ نوشته شده‌اند كه به آنها امكان عملكرد‌های تعاملی با كاربران‌ و پویایی و تكثیر خودكار صفحات‌ یا یو آر ال‌ها را می‌دهد. شبكه‌های اجتماعی به دلیل تعاملی و مكالمه‌ای بودنشان، و نحوة آرشیو شدن تمام و كامل، از مشكلات آرشیو وب هستند. مسئلة مجوز برداشت اطلاعات از صفحاتی كه گاه تعداد صاحبانشان بسیار است‌ و آرشیو مكالمات و نظرات كه اشخاص مختلف در صفحه درج می‌کنند، و گرفتن مجوز از آنها خود چالشی عظیم است. بسامد بالای تغییرات در صفحات به علت روزآمدسازی و بارگذاری مكرر نظرات كاربران در ذیل مطالب بارگذاری شده، و صفحات تاریخ كه به طور خودكار و مرتب محتوایشان تجدید می‌شود، از مشكلات آرشیو كردن در محیط وب 2‌ است. صفحاتی كه به شیوة پویا ایجاد می‌شوند، تله‌های خزش محسوب می­گردند. بسیاری معتقدند كه‌ فناوری بالاخره این مسائل را حل می‌کند و تا آن زمان باید محتوای وب 2 را نیز تا آنجا که می‌توان، آرشیو کرد تا اطلاعات از دست نرود (65).‌

 

مآخذ: 1) شادان پور، فرزانه، و دیگران. "آرشیو وب ایران (فاز اول): امکان سنجی ایجاد آرشیو وب در سازمان اسناد و کتابخانه ملی ج ا ا". طرح پژوهشی، سازمان اسناد و كتابخانه ملی جمهوری اسلامی ایران،  1389؛

2) Niu, Jinfang. "An Overview of Web Archiving". D-Lib Magazine. Vol. 18, No. 3/4 (March/April 2012).[ online].Available: http://dlib.org/dlib/march12/niu/03niu1.html [12 may 2015]; 3)  International Internet Preservation Consortium (IIPC). "Mission and Goals".[online].Available: http://www.netpreserve.org/about-us/mission-goals. [25 Apr. 2015]; 4) International Internet Preservation Consortium (IIPC). "Why archiving the Web" .[online].Available: http://www.netpreserve.org/web-archiving/videos/why-archive-web. [12 Apr. 2015]; 5) Broder, Andrei, and et.al. "Graph structure in the Web". Computer Networks, No.33 (2000): 309-320. [online].Available: http://hsd.soc.cornell.edu/curricular/WebStructure.pdf. [2 Oct. 2009]; 6) Brügger, Niels." Archiving Websites: General Considerations and Strategies". Denmark : The Centre for Internet Research, 2005.[online]. Available: www.cfi.au.dk/fileadmin/www.cfi.au.dk/.../archiving_underside/archiving.pdf [25 March 2015]; 7)  Masanès, Julien. "Web archiving: issues and methods". In Julien masanes (ed.). Web archiving. Berlin  Heidelberg: Springer, 2006, pp.1-54; 8)  Baeza- Yates, R; Castillo, C. "Crawling the infinite web: five levels are enough",2004.[online].Available: http://www.chato.cl/papers/baeza04_crawling_infinite_web.pdf. [20 Apr. 2011]; 9)  Liu, Bing. Web data mining: Hyperlinks, contents and usage data. Berlin Heidelberg: Springer, 2007; 10)  Pitschman, Louis A. Building sustainable collections of free third-party Web resources. Washington: Digital Library Federation, Council on library and information resources,2001 .[online]. Available:‌www.clir.org/pubs/reports/pub98/pub98pdf. [12 Feb. 2015];

11) الکساندر، ژانت ای؛ تیت، مارشا آن. شناخت وب: چگونه کیفیت اطلاعات موجود بر روی وب را ارزیابی نمود.تهران: دبیزش، 1383؛

12) Berners-Lee, Tim."Weaving the web: The original design and ultimate destiny of the world wide web, by its inventor". New York: Harper SanFrancisco,1999; 13)  Stirling, Peter; Chevallier, Philippe;and Illien, Gildas. "Web archives for researchers: representations, expectations and potential uses". D-Lib Magazine.Vol.18, No.3/4 )2012).[online].Available: http://www.dlib.org/dlib/march12/stirling/03stirling.html.   [3 Feb. 2015]; 14)  Bang, Sverre. "WERA manual". Royal Library in Stockholm, Royal Library in Copenhagen, Helsinki University Library in Finland, National Library of Norway, National and University Library of Iceland, 2004.  [online].Available: http://archive-access.sourceforge.net/projects/wera/articles/manual.html . [11 Feb. 2015];

15) PageFreezer . "How to archive a website?" [online]. Available: https://www.pagefreezer.com.  [25 Jan. 2015]; 16)  National Archives of UK. "Web archiving guidance". 2011.  .[online]. Available: https://nationalarchives.gov.uk/documents/information-management/web-archiving-guidance.pdf.   [23 Jan. 2015]; 17)  Jankowski, Nicholas W. (ed.). Routledge Advances in Research Methods.NewYork: Routledge,2009; 18)  Lomborg, Stine. "Researching communicative practice: Web archiving in qualitative social media research". Journal of Technology in Human Services. Vol. 30 (2012): 3-4,.[online].Available: http://dx.doi.org/10.1080/15228835.2012.744719. [28 Jan. 2015]; 19)  Kugler, Anna; Beinert, Tobias;and Schoger, Astrid." Web archiving as a service for the sciences". 2013.[online]. Available: http://purl.pt/24107/1/iPres2013_PDF/Web%20Archiving%20as%20a%20Service%20for%20the%20Sciences.pdf.   [5 Feb. 2015]; 20)  Minnesota Historical Society. "Preserving state government digital information".  Digital audio and video white paper, 2010. [online]. Available: http://www.mnhs.org/preserve/records/legislativerecords/docs_pdfs/DigitalAudioVideo052009_001.pdf.  [8 March 2015]; 21)  Pennock, Maureen. Web-Archiving,  DPC technology watch report 13-01 March 2013. Great Britain: Digital Preservation Coalition, 2013. [online]. Available: http://dx.doi.org/10.7207/twr13-01.  [5 Jan. 2015].

22) رشیدی، كیانوش."بررسی برنامه‌های حفاظت دیجیتال مواد وبی و راهكار‌های آنها در مواجهه با چالش ‌های مربوطه".پایان نامه كارشناسی ارشد، دانشكده علوم تربیتی و روانشناسی، دانشگاه شیراز، 1390؛

23) Gomes, Daniel; Miranda, João; and Costa, Miguel. "A survey on web archiving initiatives".2011.[online]. Available: http://sobre.arquivo.pt/sobre-o-arquivo/a-survey-on-web-archiving-initiatives.   [5 Jan. 2015]; 24)  "List of Web archiving Initiatives" .[online].Available: http://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives.  [15 Jan. 2015]; 

25) كیمتون، میشل." از آرشیو اینترنت تا آرشیو در اینترنت".ترجمه مرضیه هدایت، در غلامعلی منتظر. مدیریت منابع اطلاعاتی وب، ج1: مبانی و تجربه‌های جهانی. تهران: سازمان اسناد و كتابخانه ملی ایران، 1391؛

26) Library of Congress. "Digital preservation, about" .[online].Available: http://www.digitalpreservation.gov/about.   [12 March 2015]; 27)  International Internet Preservation Consortium (IIPC). "Tools and Software".[online]. Available:‌‌http://www.netpreserve.org/web-archiving/tools-and-software.  [23 Jan. 2015]; 28)  "IWAW - International Web Archiving Workshops" .[online].Available: http://bibnum.bnf.fr/ecdl.  [12 Feb. 2015]; 29)  Masanès, Julien. "Selection for Web archives". In  Julien Masanes (ed.). Web archiving. Berlin  Heidelberg: Springer, 2006, pp. 71-90; 30)  Oita, Marilena; Senellart, Pierre." Archiving data objects using web feeds". 2010.[online].Available: http://pierre.senellart.com/publications/oita2010archiving.pdf.  [5 Jan. 2015]; 31)  National Library of Australia. "PANDAS manual". [online]. Available: http://pandora.nla.gov.au/manual/pandas3/3toc.html. [12 March 2015]; 32)  "Web Curator Tool User Manual version 1.6.1".2013. [online].Available: http://webcurator.sourceforge.net/docs/1.6.1/Web%20Curator%20Tool%20User%20Manual%20 (WCT%201.6.1).pdf.   [9 Jan. 2015]; 33)  "The Web Curator Tool". [online].Available: http://webcurator.sourceforge.net.  [9 Jan. 2015]; 34)  "NetarchiveSuite Overview" .[online].Available: https://sbforge.org/display/NASDOC44/NetarchiveSuite+Overview. [9 Feb. 2015]; 35)  State Library of North Carolina,  division of the North Carolina Department of Cultural Resources. "CINCH: CAPTURE, INGEST, & CHECKSUM TOOL " 2012.[online].Available: http://cinch.nclive.org/Cinch/CINCHdocumentation.pdf.  [6 Feb. 2015];

36) گروتك، آبه؛ جونز، جینا."DigiBoard :ابزار افزایش كارآیی فعالیت ‌های پیچیده آرشیو وب در كتابخانه كنگره".ترجمه سعیده اسلامی، در غلامعلی منتظر. مدیریت منابع اطلاعاتی وب، ج2: دیدگاه‌های فناورانه، اخلاقی و مدیریتی. تهران: سازمان اسناد و كتابخانه ملی ایران، 1391؛

37)  International Internet Preservation Consortium (IIPC). "Evaluating Twittervane" .[online]. Available: http://netpreserve.org/projects/evaluating-twittervane.  [4 Feb. 2015]; 38)  McCown, Franc; Nelson, Micheal L. " Evaluation of crawling policies for a web repository crawler. 17th  ACM Conference on Hypertext and Hypermedia, (Odense:Denmark, August 23-25 2006). [online]. Available: http://www.cs.odu.edu/~fmccown/pubs/crawling-policies-ht06.pdf. [13 Jan. 2015]; 39)  Ntoulas, Alexandros; Zerfo, Petros; and Cho, Junghoo ." Downloading textual hidden web content through keyword queries".  Joint Conference on Digital Libraries, (Denver, Colorado, June 7-11, 2005.( [online]. Available: http"//www.oak.CS.UCLA.edu/~cho/papers/ntoulas-hidden.pdf. [12 Jan. 2015]; 40)  Pant, Gautam; Srinivasan, Padmini; and Menczer, Filippo "Crawling the web". 2004. [online].Available: http://dollar.biz.uiowa.edu/~pant/Papers/crawlong.pdf.   [9 Jan. 2015]; 41)  Menczer, Filippo. "Web crawling". In Bing Liu. Web data mining, contents and usage data. Berlin‌: Springer, 2007, pp. 273-318; 42)  Castillo, Carlos . "Effective web crawling". Ph.D thesis in Computer Science, University of Chile, 2004 .[online]. Available:‌http://www.chato.cl/papers/crawling_thesis/effective/web-crawling.pdf.  [13 Jan. 2015]; 

43) شادان­پور، فرزانه؛ وظیفه دوست، علیرضا.خزشگر‌های وب. تهران: كتابدار، 1391؛

44)  "HTTrack Website Copier". [online]. Available: http://www.httrack.com/html. [3 Jan. 2015]; 45)  "Heritrix".[online].Available: https://webarchive.jira.com/wiki/display/Heritrix/Heritrix.  [14 Feb. 2015]; 46)  Niksic, Hrvoje, et al. "GNU Wget 1.17". [s.l.]. Free Software Foundation, 2015.[online]. Available: www.gnu.org/software/wget/manual/wget.pdf.  [18 Feb. 2015]; 47)  ISO 28500: 2009 WARC file format; 48)  Internet Archive. "Petabox". [online]. Available: http://archive.org/web/petabox.php.    [12 Jan. 2015]; 49)  World Digital Library. "Bagger", 2012. [online]. Available: http://project.wdl.org/arab_peninsula/workshop2012/en/doha_workshop_2012_bagger_en.pdf.   [4 Feb. 2015]; 50)  "Wayback".[online].Available: http://archive-access.sourceforge.net/projects/wayback/. [12 Jan. 2015]; 51)  "DeepArc".[online]. Available: http://deeparc.sourceforge.net. [24 Feb. 2015]; 52)  "NutchWAX: Description". [online]. Available: http://archive-access.sourceforge.net/projects/nutchwax/apidocs/overview-summary.html. [20 Feb. 2015]; 53)  "Apache Solr". [online].Available:http://lucene.apache.org/solr. [17 Feb. 2015]; 54)  UK Web archive. "NGram search". [online]. Available: http://www.webarchive.org.uk/ukwa/ngram/. [28 Jan. 2015]; 55)  Memento Development Group. "Memento Guide ."[online]. Available: http://www.mementoweb.org/guide. [4 Feb. 2015]; 56)  National Archives of UK. "Government web archive: redirection technical guidance for government departments".[online].Available: http://www.nationalarchives.gov.uk/documents/information-management/redirection-technical-guidance-for-departments-v4.2-web-version.pdf. [7 Feb. 2015]; 57)  "HTML5". [online]. Available: http://www.w3.org/TR/html5. [1 Feb. 2015]; 58)  "Cascading Style Sheets". [online]. Available: http://www.w3.org/Style/CSS/. [15 Feb. 2015]; 59)  "Understanding metadata". Bethesda: NISO Press, 2004. [online]. Available: http://www.niso.org/publications/press/UnderstandingMetadata.pdf.  [11 Feb. 2015]; 60)  Lynch, Clifford . "When documents deceive: Trust and provenance as new factors for information retrieval in a tangled Web". Journal of the American Society for Information Science and Technology, Vol.52, No. 1 (2001): 12-17; 61) Hallgrimsson, Thorsteinn ." Access and finding aids". In Julien Masanes (ed.). Web archiving. Berlin Heidelberg: Springer, 2006, pp. 131-152; 62)  Romaniuk, Laurentia." Metadata for a Web Archive: PREMIS and XMP as Tools for the Task". Library Philosophy and Practice (e-journal). Paper 1098. (Winter 2014). [online]. Available: http://digitalcommons.unl.edu/libphilprac/1098.  [17 Feb. 2015]; 63)  "Open Archives Initiative Object Reuse and Exchange", 2014.[online]. Available: http://www.openarchives.org/ore/1.0/toc. [14 Feb. 2015]; 64)  International Internet Preservation Consortium (IIPC). "Legal Deposit". [online]. Available: http://www.netpreserve.org/legal-deposit. [11 Feb. 2015]; 65)  Latham, Ross."Tasmanian Archive & Heritage Office, State Records Guideline, no 18: Managing Web 2.0 records/Social Media". 2012. [online]. Available]: http://www.linc.tas.gov.au/__data/assets/pdf_file/0004/343309/TAHO_Guideline_-_Web_2_0_-_May_2012.pdf.  [29 Feb. 2015].

 

فرزانه شادانپور

علیرضا میقانی

 

 



۱. پویا  بدین معنی كه انباره مداوماً در حال رشد  و تغییر است؛ تغییرا ت صفحات اصلی  در وب، در آرشیو نیز منعكس می‌شود و دارای  مكانیزم‌هایی در  سازماندهی – اعم از استاندارد  و یا ابداعی-  به منظور ذخیره  و بازیابی كارآمد و بلند مدت محتواست كه دائماً و بنا بر نیاز روزآمد می‌شوند.

[2]. Internet archive

[3] . Internet preservation

[4] . Href: hypertext reference

[5] . Hypermedia

  Browsers. [6]

[7]. Download

[8]. Anchor

[9]. Uniform Resource Locator

[10]. Crawlers

[11]. بدین معنی كه اگر اتصال پیونده­ها را گره­ها یا نقاطی در وب در نظر بگیریم و نقشه آن را ترسیم كنیم ، نقشه نهایی به شكل پاپیون خواهد بود.

[12]. Noise

[13]. Domain Name: پسوندی در نشانی صفحات وب است كه مطابق قواعد سامانه نام دامنه (DNS= Domain Name System) ایجاد می­شود و بعد از نام صفحه قرار می­گیرد و با عبارات .com، .edu، .org و مانند آن شناخته می­شود. نام­های دامنه دو دسته كلی­اند: نام دامنه بالا (Top level domain name) و نام دامنه دوم  (Second level domain name). مثلا در نشانی www.google.com جزء.com  نام دامنه بالاست. این جزء در بسیاری موارد علائم نشان­دهنده نام كشورهاست و خود دربردارنده نام دامنه دوم است. مانند: www.ut.ac.ir كه در آن .ir نام دامنه بالاست كه در آخر قرار می­گیرد. .ac نام دامنه دوم است. نام دامنه بالا برای هر كشور منحصر به­فرد است. 

[14]. Self-preserving

 Internet Archive: www.archive.org.[15]

[16]. Internet Memory Foundation

[17] Hanzo Archive‌s

[18]. California Digital Library  

[19] On Command

[20]. Saas: Software as service

[21]. Cloud Computing

 Bruce Gilliat & Brewester Kahle.[22]

[23]. Tasmanian web archive

[24]. International Internet Preservation Consortium (IIPC)

[25]. International Web Archiving Workshops (IWAW)

[26]. European Conferences on Digital Libraries (ECDL)

[27] . http://conferences.nlai.ir/index.php/CoWIRM/index

[28].Time stamp

[29]. Client- Side Archiving

[30]. Transactional archiving

[31]. Server- side archiving

[32]. فیدهای آر اس اس در واقع بخش­های روزآمد شدة صفحاتی است كه كاربر به آنها علاقه­مند است و می­خواهد بدون مراجعه مكرر و وقت­گیر به صفحه مورد نظر مطالب جدید آن را مشاهده كند. از آنجا كه مسئله تشخیص زمان روزآمدسازی صفحاتی كه قبلا آرشیو شده‌اند، معضلی برای آرشیوكردن  صفحه با محتوای جدید است و فیدهای آر اس اس دقیقا همین كار را انجام می دهند، از این امكان استفاده می­شود كه در واقع نوعی اعلان اتوماتیك روزآمدسازی محتوای وب­سایت‌هاست.

[33]. RSS

[34]. User Interface

[35]. PANDAS: Pandora Digital Archiving System

[36]. International Internet Preservation Consortium (IIPC)

[37]. Building Collections on the Web

[38].  Local repository

[39]. Hyperlinks

[40]. Brin and Page

[41]. setching

[42] . به این معنا كه برای انجام كار به آنلاین بودن كاربر و متصدی آرشیو وب برای بارگیری و رونوشت‌برداری از محتوای وب نیاز ندارد.

[43]. Internet Memory

[44]. File format

[45]. Capricorn Technologies

[46]. Java Web Arrchive Toolkit

[47]. Web Archive Access

[48]. XML inQuiry

[49]. Nutch Web Archive eXtension

[50]. Scheduling of Downloads for Archiving Websites

[51]. Redirection

[52]. eXtensible Language Stylesheet Transformations

[53]. Cascading Style Sheet  

[54]. Open Archive Information System

 Interoperability.[55]

[56]. Metadata Object Description Schema

[57]. Metadata Encoding and Transmission Standard

[57]. Mapping, Crosswalk

[58]. PREservation Metadata Implementation Strategies

[59].eXtensible Metadata Platform

[60]. Resource Description Framework

[61]. Broken link

[62]. Persistent Identifier

[63]. Digital Object Identifier

[64]. Persistent URL

[65]. Open Archives Initiative Object Reuse and Exchange

[66]. Equivalent URLs

[67]. Change detection

[68]. Document-centric

[69]. Template

[70]. Spider traps

[71]. Path

[72]. Comment

[73]. Dummy


بازگشت به فهرست مقالات آ