موتور های جستجو

امروزه بر روی اینترنت و مهمترین سرویس آن ( وب )، صدها میلیون صفحه حاوی اطلاعات وجود دارد. کاربران اینترنت با آگاهی از آدرس یک سایت ، قادر به اتصال به سایت مورد نظر و استفاده از منابع اطلاعاتی موجود بر روی سایت خواهند بود. ما با دریائی از اطلاعات مواجه هستیم ، در صورتیکه قصد یافتن اطلاعاتی خاص را داشته باشیم ، از چه امکاناتی در این زمینه می توان استفاده کرد. ؟ برای جستجو و یافتن اطلاعات مورد نیاز از مراکز جستجوی اطلاعات در اینترنت استفاده می گردد . به مراکز فوق Search engines نیز می گویند.

مراکز جستجو در اینترنت ، نوع خاصی از سایت های موجود در وب بوده که با هدف کمک برای یافتن اطلاعات ، ایجاد شده اند. مراکز جستجو در اینترنت بمنظور پاسخگوئی به کاربران متقاضی و جستجوکنندگان اطلاعات از سه روش متفاوت استفاده می نمایند. نحوه عملکرد سه روش با یکدیگر مشابه بوده و تنها تفاوت موجود میدان انتخاب شده برای عملیات جستجو است .

· اینترنت و یا بخشی از آن بر اساس کلمات مهم ، جستجو می گردد.

· از کلمات پیدا شده یک ایندکس بهمراه محل مربوط به هر یک ، ایجاد می نمایند.

· به کاربران امکان جستجو برای کلمات خاص و یا ترکیبی از آنها که در فایل ایندکس موجود می باشند ، داده می شود.

مراکز جستجوی اولیه در اینترنت ، صرفا" اطلاعات مربوط به چندین هزار صفحه وب را ایندکس و روزانه دو تا سه هزار کاربر متقاضی به آنها مراجعه می کردند. مراکز جستجوی فعلی در اینترنت اطلاعات مربوط به صدها میلیون صفحه را ایندکس نموده و روزانه به بیش از دهها میلیون متقاضی پاسخ می دهند.

وب

اغلب مردم زمانیکه از مراکز جستجو در اینترنت سخن می گویند ، منظور آنها مراکز جستجوی وب است . قبل از مطرح شدن وب ( مشهورترین بخش اینترنت ) ، از مراکز جستجوی اطلاعات برای کمک به کاربران برای یافتن اطلاعات استفاده می گردید. برنامه هائی نظیر : " gopher" و "Archie" از فایل های ذخیره شده بر روی سرویس دهنده های متصل به اینترنت ، یک ایندکس ایجاد می کردند. بدین ترتیب جستجو و دسترسی به اطلاعات و مستندات مورد نظر در اسرع وقت انجام می گردید. در اواخر سال 1980 اکثر کاربران مستلزم دارابودن دانش کافی در رابطه با استفاده ازgopher,Archie وVeronica بودند. امروزه اکثر کاربران اینترنت دامنه جستجوی خود را محدود به وب نموده اند.

قبل از اینکه یک مرکز جستجو قادر به ارائه آدرس و محل فایل مورد نظر باشد ، می بایست فایل مورد نظر پیدا شود. بمنظور یافتن اطلاعات مربوط به صدها میلیون صفحه وب موجود ، مراکز جستجو می بایست از یک نرم افزار خاص با نامSpider ( عنکبوت ) برای ایجاد لیست های شامل کلمات موجود در هر یک از صفحات وب ، استفاده نمایند. فرآیند ایجاد لیست های مربوطه توسط Spider ، اصطلاحا"web crawling نامیده می شود. برای ایجاد و نگهداری یک لیست مفید از کلمات ،Spider های مراکز جستجو می بایست تعداد زیادی از صفحات وب را بررسی و مشاهده نمایند. نحوه حرکتSpider در وب به چه صورت است ؟ نقاط شروع ، لیستی از سرویس دهندگان با ترافیک و اطلاعات بالا و صفحات وب متداول است .Spider از یک سایت رایج عملیات خود را آغاز و پس از ایندکس نمودن کلمات موجود در صفحات وب ، هر یک از لینک های موجود در صفحات را برای ادامه حرکت خود انتخاب خواهد کرد. بدین ترتیب سیستم مبتنی برSpider بسرعت حرکت خود در طول وب را آغاز خواهد کرد.

بقیه در ادامه مطلب

Google یکی از مراکز جستجوی دانشگاهی و معتبر است . در سیستم فوق از چندین Spider ( معمولا" سهSpider در هر لحظه ) برای ایجاد مقادیر اولیه برای سیستم ، استفاده می گردد . هر Spider قادر به نگهداری ارتباط خود با بیش از 300 صفحه وب در یک لحظه است . با استفاده از چهارspider ، سیستم فوق قادر به جستجوی 100 صفحه در ثانیه و تولید 600 کیلوبایت اطلاعات در هر ثانیه است . اطلاعات مورد نیاز هر یک از spider ها می بایست بسرعت در اختیار آنان گذاشته شود. سیستم اولیهGoogle ، دارای یک سرویس دهنده اختصاصی بمنظور تغذیه آدرس های URL مورد نیاز برای هر یک ازSpider ها بود. بمنظور افزایش سرعت عملیات ،Google از یک سیستمDNS اختصاصی استفاده می کرد. ( در سایر موارد ازDNS مربوط بهISP استفاده می گردد ) . زمانیکهSpider به یک صفحه وب شامل تگ هایHtml برخورد می نماید ، دو آیتم در رابطه با آن را یاداشت خواهد کرد :

· کلمات موجود در صفحه

· محلی که کلمات پیدا شده اند.

از کلمات موجود در عنوان (title) ، زیرعناوین (Subtitles) ، تگ های متا و سایر مکانهای مهم یاداشت برداشته شده تا در آینده با توجه به خواسته کاربر ، امکان پاسخگوئی مناسب به آنها فراهم گردد. Spider مربوط بهGoogle ، از کلمات موجود در هر یک از صفحات وب ایندکس ایجاد و کلماتی نظیر : "a" ، "an" و "the" را حذف می نمایند. سایرSpider ها هر یک دارای رویکردهای خاص خود در این زمینه می باشند.

سیاست های استفاده شده در رابطه با نحوه ایندکس نمودن اطلاعات صفحات وب ، مستقیما" بر سرعت عملکردspider ها تاثیر گذاشته و به کاربران امکان جستجوی قدرتمندتر و کارآ را خواهد داد. مثلا" برخی ازSpider ها ، علاوه بر نگهداری اطلاعات مربوط به عناوین و لینک ها ، یکصد کلمه با فرکانس تکرار بیشتر در صفحه وب و کلمات موجود در بیست خط اولیه را نیز نگهداری خواهند کرد. مرکز جستجویLycos از رویکرد فوق استفاده می نماید.

سیستم های دیگر نظیر "Altavista ، از روش خاص خود در این زمینه استفاده می نمایند. در سیستم فوق برای هر یک از کلمات موجود در صفحه شامل "a" ، "an" و "the" و سایر کلمات مشابه نیز ایندکس ایجاد می گردد.

تگ های متا

با استفاده از تگ های متا ، ایجاد کنندگان صفحات وب می توانند کلمات کلیدی موجود در صفحه و نحوه ایندکس نمودن آن را مشخص نمایند. روش فوق در مواردیکه یک کلمه دارای بیش از یک معنی می باشد بسیار مفید و کارساز خواهد بود. بدین ترتیب تگ های فوق به مراکز جستجو راهنمائی لازم در خصوص انتخاب معنی مربوط به کلمات مورد نظر را خواهند داد. در این راستا ممکن است برخی از راهنمائی های انجام شده نیز اغفال کننده بوده و نتایج مثبتی را برای مراکز جستجو بدنبال نداشته باشد. بمنظور پیشگیری از راهنمائی های اغفال کننده توسط تگ های متا ، برنامه هایSpider عملیات بازبینی محتویات یک صفحه وب را بمنظور تطبیق با اطلاعات ارائه شده توسط تگ ها ی متا ، انجام می دهند. اطلاعات نادرست ارائه شده بوسیله تگ های متا ، توسطSpider ها نادیده گرفته می شود.

تمام موارد فوق مفروض به حالتی است که ایجاد کننده صفحه وب قصد معرفی صفحه ایجاد شده خود را به مراکز جستجو دارد. در برخی موارد ممکن است تمایلی به انجام این کار وجود نداشته باشد.

ایجاد ایندکس

پس از اینکه عملیاتSpider ها در رابطه با یافتن اطلاعات به اتمام رسید ، ( عملیات فوق در عمل با توجه به ماهیت وب و استقرار صفحات وب جدید هرگز به پایان نخواهد رسید ، بنابراین همواره عملیات جستجو و یافتن اطلاعات توسطSpider ها انجام می گیرد) مراکز جستجو می بایست اطلاعات مورد نظر را بگونه ای ذخیره نمایند که قابل استفاده باشند. دو روش عمده در این راستا وجود دارد:

· اطلاعات بهمراه داده ذخیره گردند.

· با استفاده از روشی اطلاعات ایندکس گردند.

در ساده ترین حالت ، یک مرکز جستجو می تواند صرفا" کلمه و آدرسURL آن را ذخیره نماید. روش فوق در بازیابی اطلاعات و جستجو توسط کاربران ایجاد محدودیت خواهد کرد. با استفاده از روش فوق نمی توان جایگاه و وزن یک کلمه در یک صفحه وب را مشخص نمود. مثلا" نمی توان تشخیص داد که کلمه مورد نظر چند مرتبه در صفحه تکرار شده و یا لینک های موجود در صفحه نیز شامل کلمه مورد نظر می باشند یا خیر . بدین ترتیب امکان ارائه یک لیست از صفحات وب که شامل کلمه مورد نظر بر اساس میزان تکرار می باشند ، وجود نخواهد داشت .

بمنظور ارائه نتایج مفیدتر توسط مراکز جستجو ، اکثر مراکز جستجو صرفا" کلمه و آدرسURL را ذخیره نمی نمایند . در این حالت مواردی نظیر : تعداد تکرار کلمه در صفحه نیز ذخیره خواهد شد. مراکز جستجو همچنین به هرentry یک وزن را نسبت خواهند داد. وزن نسبت داده شده، نشاندهنده جایگاه کلمه در صفحه است ( ابتدای صفحه ، در لینک ها ، در تگ های متا و یا در عنوان صفحه ) هر یک از مراکز جستجو برای اختصاص یک وزن مناسب به کلمه مورد نظر از یک فورمول استفاده می نمایند. موضوع فوق یکی از دلایلی است که جستجو یک کلمه توسط دو مرکز جستجو ، نتایج مشابه ای را بدنبال نخواهد داشت .

مراکز جستجو بدلیل استفاده بهینه از فضای ذخیره سازی ، اطلاعات مورد نظر را بصورت رمز شده ذخیره می نمایند. مثلا" در نسخه اولیه سایتGoogle از دو بایت بمنظور ذخیره سازی اطلاعات مربوط به کلمات در یک صفحه استفاده می کردند. کلمات بصورت حروف بزرگ بهمراه اندازه فونت ، وزن و موقعیت آن ذخیره می گردید. هر یک از فاکتورهای فوق دو ویا سه بیت از دو بایت اشاره شده را به خود اختصاص می دادند. بدین ترتیب اطلاعات گسترده ای بصورت فشرده ذخیره و سپس عملیات ایجاد ایندکس انجام می گیرد.

ایندکس دارای صرفا" یک هدف است : امکان یافتن اطلاعات با سرعت بالا . برای ایجاد ایندکس از روش های متعددی استفاده می گردد. یکی از بهترین روش های موجود ، ایجاد یک جدولHash است . در روشhashing ، از یک فورمول برای اختصاص یک عدد به یک کلمه استفاده می گردد. توزیع عددی با توزیع کلمات بصورت الفبائی با یکدیگر متفاوت بوده و همین امر ، موثر بودن جداولhash را بدنبال خواهد داشت . در زبان انگلیسی حروفی وجود دارد که کلمات زیادی با آنان آغاز می گردد. مثلا" بخش حرف "M" ، در یک دیکشنری بمراتب قطورتر از حرف "X" است . بدین ترتیب جستجو و یافتن کلماتی که با حرفM شروع می گردند زمان بمراتب بیشتری نسبت به یافتن کلماتی که با حرف "X" آغاز می گردند ، را طلب می کند. در روشhashing ، با آگاهی از موارد فوق، بگونه ای رفتار می گردد که متوسط زمان بازیابی هر کلمه کاهش یابد. در روش فوق ایندکس از داده واقعی متمایز می گردد. جدولhash ، شامل شمارهhash بهمراه اشاره گری است که به داده مورد نظر اشاره می نماید. با ایجاد یک سیستم ایندکس مناسب و ذخیره سازی مطلوب اطلاعات ، امکان ارائه نتایج مفید برای کاربران را فراهم خواهد کرد.

جستجو

کاربران برای جستجوی اطلاعات مورد نیاز ، پس از ورود به سایت مرکز جستجو ، یکquery را ایجاد می نمایند.query می تواند ساده و صرفا" شامل یک کلمه و یا پیچیده و استفاده از عملگرهای منطقی باشد. برخی از عملگرهای منطقی عبارتند از :

● AND . تمام کلماتی که توسطAND بیکدیگر ملحق شده اند ، می بایست در صفحه موحود باشند. در برخی از مراکز جستجو از عملگر "+" بعنوان عملگر جایگزینAND نیز استفاده می شود.

●OR . حداقل یکی از کلماتی که توسطOR بیکدیگر ملحق شده اند ، می بایست در صفحه موجود باشد .

●NOT . کلمه بعد ازNOT نباید در صفحه موجود باشد. برخی از مراکز جستجو از عملگر "-" نیز استفاده می نمایند.

●Followed by . یکی از کلمات می بایست مستقیما" پس از کلمه دیگر وجود داشته باشد.

آینده مراکز جستجو

جستجوهائی که توسط عملگرهای منطقی تعریف می گردند از نوع جستجوهایliteral می باشند. مراکز جستجو بمنظور ارائه نتایج مورد نظر کاربر ، دقیقا" کلمه و یا کلمات مشخص شده توسط کاربر در بانک اطلاعاتی جستجو می نمایند. روش فوق در مواردیکه یک کلمه دارای بیش از یک معنی باشد ، نتایج مثبتی را بدنبال نخواهد داشت . برای اخذ نتایج دلخواه ، کاربران اینترنت می توانند با استفاده از عملگرهای منطقی محدودیت هائی را ایجاد نمایند ، روش مناسب این است که محدودیت فوق از طریق مرکز جستجو اعمال گردد.

یکی از مواردیکه اخیرا" توسط محققین متفاوتی در مراکز جستجو دنبال می گردد ، جستجو بر اساس مفهوم است .در روش فوق با استفاده از آنالیزهای آماری بر روی صفحات شامل کلمات سعی در ارائه نتایج مطلوبتری وجود دارد. در برخی موارد دیگر استفاده از زبانهای طبیعی برای جستجو دنبال می گردد. در روش فوق برای طرح سوال خود از یک مرکز جستجو از روشی که توسط انسان برای طرح سوالات مربوطه استفاده می گیرد، استفاده خواهد شد. در این راستا ضرورتی به استفاده از عملگرهای منطقی و یاquery های پیچیده نخواهد بود.

اکبر شنبه 5 مرداد‌ماه سال 1387 ساعت 08:01 ب.ظ

اینترنت

روزانه‌ها

پیوندها

دسته‌ها

جدیدترین یادداشت‌ها

بایگانی

موتور های جستجو