شیز

آمار : 632755 بازدید Powered by Blogsky

نگاهى به موتورهاى جست وجو در اینترنت

حتماً شما هم بارها، زمانى که به یک مقاله علمى، سیاسى و... نیاز داشته اید یا حتى براى یافتن معنى اصطلاحى، پشت کامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان کوتاهى آن را پیدا کرده اید. اما آیا تابه حال فکر کرده اید چگونه در عرض چند ثانیه انبوهى از اطلاعات در اختیار شما قرار مى گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزى از موضوعات ارائه دهند. زمانى که شما مى خواهید در مورد یک موضوع مخصوص اطلاعات کسب کنید، چگونه مى دانید که چه صفحاتى را باید بخوانید؟ احتمالاً مانند اکثر مردم، شما از یک موتور جست وجوى اینترنت بازدید مى کنید. موتورهاى جست وجوى اینترنتى، سایت هاى مخصوصى در شبکه هستند و طورى طراحى شده اند که به افراد کمک مى کنند تا اطلاعات مورد نیازشان را که در سایت هاى دیگر ذخیره شده است بیابند. تفاوت هایى در شیوه عملکرد موتورهاى جست وجوى مختلف وجود دارد، اما همه آنها سه وظیفه اصلى را انجام مى دهند:

۱ - در اینترنت، یا بخش هاى برگزیده اى از اینترنت، براساس کلمات مهم جست وجو را انجام مى دهند.

۲- یک فهرست از کلماتى که پیداکرده اند و جایى که آنها را پیدا کرده اند، تهیه مى کنند.

۳ - این امکان را براى کاربران فراهم مى کنند تا کلمات یا مجموعه اى از کلمات مورد نظر خود را که در فهرست یافت مى شود جست وجو کنند.

موتورهاى جست وجوى اولیه یک فهرست شامل تنها چندصد هزار صفحه و فایل نگهدارى مى کردند و در روز شاید یک یا دو هزار بازدیدکننده داشتند. امروزه یک موتور جست وجوى خوب، صدها میلیون صفحه را فهرست مى کند و در روز پاسخگوى ده ها میلیون جست وجو کننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام مى شود و چگونه موتورهاى جست وجوى اینترنتى، بخش هاى مختلف را به کار مى برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبکه بیابیم.

• جست وجو میان صدها میلیون صفحه

قبل از اینکه یک موتور جست وجوگر بتواند به شما بگوید که یک فایل در کجا قرار دارد، باید آن فایل پیدا شود. یک موتور جست وجوگر براى یافتن اطلاعات از میان صدها میلیون صفحه که در شبکه وجود دارند، روبات نرم افزارى خاصى به نام spiders را به کار مى گیرد تا لیستى از کلماتى که در سایت هاى شبکه یافت مى شود را ایجاد کند. فرآیندى که یک spider لیست خود را ایجاد مى کند، Web crawling نامیده مى شود. براى ایجاد و نگهدارى یک لیست مفید و مناسب از کلمات، یک spider موتور جست وجوگر باید صفحات بسیار زیادى را بررسى کند. چگونه هر spider مسیرش را در شبکه آغاز مى کند ؟ معمولاً نقطه شروع، لیستى از صفحاتى است که توسط سرورها زیاد استفاده مى شوند و همچنین صفحاتى که عمومى تر و معروف تر هستند. spider از یک سایت عمومى شروع مى کند، کلمات موجود در صفحات آن را لیست مى کند و هر لینکى که در آن سایت یافت مى شود را دنبال مى کند. به این طریق سیستم جست وجوگر به سرعت شروع به حرکت مى کند و در بخش هایى که بیشتر از همه مورد استفاده قرار مى گیرد حرکت مى کند. Google.com به عنوان یک موتور جست وجوگر علمى آغاز به کار کرد. سرجى برین و لورنس پیج بیان کرده اند که spiderهاى سیستم آنها با چه سرعتى مى توانند کار کنند. آنها سیستم اولیه خود را به گونه اى ساختند که از چندین spider استفاده کند، معمولاً سه تا در یک زمان. هر spider مى توانست با حدود سیصد صفحه شبکه که در یک زمان باز بودند اتصال برقرار کند. در بهترین عملکرد خود، با استفاده از چهار spider، این سیستم مى توانست در هر ثانیه به صد صفحه متصل باشد و حدود ۶۰۰ کیلو بایت داده را در هر ثانیه ایجاد کند. براى سرعت بخشیدن به جست وجو، ایجاد سیستمى براى ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه داراى سرورى بود که به فراهم کردن URL ها براى spider ها اختصاص یافته بود. به جاى وابسته بودن به یک فراهم کننده سرویس اینترنتى براى DNS که نام یک سرور را به یک آدرس تبدیل مى کند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند. زمانى که spider گوگل یک صفحه HTML را مشاهده مى کرد، به دو نکته توجه مى کرد: کلمات درون صفحه، در کجا کلمات پیدا شده اند. کلماتى که در عنوان اصلى یا عناوین فرعى و یا سایر موقعیت هایى که داراى اهمیت نسبى هستند، قرار دارند براى جست وجوى بعدى کاربر مورد توجه خاص قرار مى گرفتند. spider گوگل هر کلمه معنى دارى در صفحه را فهرست مى کرد و از کلمات a an, the صرف نظر مى کرد. سایر spider ها از روش هاى متفاوتى استفاده مى کردند. در کل تمامى این روش ها معمولاً سعى مى کند تا عملکرد spider را سریع تر کند، به کاربران اجازه بدهد تا با کارایى بهتر و بهینه تر جست وجو کنند و یا هر دو آنها. به عنوان مثال، بعضى spider ها کلماتى که در عنوان ها، عنوان هاى فرعى و لینک ها وجود دارند یا کلماتى که بارها در صفحه تکرار مى شوند و هر کلمه اى در بیست خط اولیه متن را نگهدارى مى کند. سایت Lycos از این روش استفاده مى کند. سایر سیستم ها، از قبیل AltaVista، هر کلمه در صفحه، شاملa an, the و سایر کلمات که بى اهمیت هستند را هم لیست مى کنند.

• ایجاد فهرست

زمانى که spider ها وظیفه یافتن اطلاعات از صفحات شبکه را به اتمام رساندند (البته باید در نظر داشته باشیم که این وظیفه هرگز واقعاً تمام نمى شود، خاصیت تغییر دائمى شبکه به این معنى است که spiders ها همیشه در حال حرکت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شکلى که مفید باشد، ذخیره کند. دو مولفه کلیدى براى در دسترس قرار دادن اطلاعات جمع آورى شده براى کاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشى که توسط آن اطلاعات فهرست مى شود. در آسان ترین حالت، موتور جست وجوگر مى تواند تنها کلمه و URL را ذخیره کند. در حقیقت، این روش براى موتورى با کاربرد محدود است، زیرا در این حالت راهى وجود ندارد براى اینکه تعیین کند آیا کلمه در بخش مهم یا بخش بى اهمیتى از صفحه استفاده شده است، آیا کلمه تنها یک بار یا چندین مرتبه تکرار شده است یا صفحه لینک هایى به صفحات دیگرى که شامل آن کلمه هستند، دارد. به عبارت دیگر راهى براى ایجاد لیستى رتبه بندى شده که تلاش مى کند تا مفیدترین و بهترین صفحات را در بالاى لیست نتایج جست وجو قرار بدهد، وجود ندارد. براى به دست آوردن نتایج بهتر، بیشتر موتورهاى جست وجو اطلاعات بیشترى علاوه بر کلمه و URL ذخیره مى کنند. موتور ممکن است تعداد دفعاتى که کلمه در صفحه تکرار شده است را ذخیره کند، یا ممکن است مقدارى را به هر ورودى اختصاص بدهد و زمانى که کلمات در عناوین، عنوان هاى فرعى و لینک ها ظاهر مى شوند ارزش اختصاص یافته به آنها بیشتر مى شود. هر موتور جست وجوگر تجارى، فرمول متفاوتى براى ارزش گذارى کلمات فهرست خود دارد. این مسئله یکى از دلایلى است که موجب مى شود جست وجوى یک کلمه در موتورهاى جست وجوگر متفاوت، لیست هاى متفاوتى را ارائه بدهد و صفحاتى با ترتیب هاى متفاوت ارائه شود.

داده ها براى صرفه جویى در فضاى ذخیره سازى رمزگذارى مى شوند. مثلاً در صفحه گوگل اطلاعاتى از قبیل اینکه آیا کلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت کلمه و سایر اطلاعاتى که به رتبه بندى آن کمک مى کند را به صورت بیت و بایت ذخیره مى کند. در نتیجه میزان بسیار زیادى از داده ها مى تواند به شکل بسیار فشرده اى ذخیره شود. بعد از اینکه اطلاعات فشرده شد، براى فهرست شدن آماده است. هدف از ایجاد یک فهرست این است که باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممکن پیدا کنیم. به طور کل، تنها چند راه براى ایجاد فهرست وجود دارد، اما یکى از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولى به کار مى رود تا به هر کلمه یک ارزش عددى اختصاص بدهد. پرسش و جست وجوى انجام شده توسط کاربر مى تواند خیلى ساده باشد، حتى یک کلمه. براى پرسش هاى پیچیده تر لازم است تا از عملگرهاى بولین (AND, OR, NOT, NEAR,) و... استفاده کنید تا بتوانید شرایط جست وجو را گسترش بدهید. به طور خلاصه عملکرد یک موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت هاى مختلف لیستى از کلمات و جایى که قرار دارند فراهم مى کند، سپس براساس سیستم ارزش گذارى خود فهرستى رتبه بندى شده تهیه مى کند، داده ها را رمزگذارى مى کند و سرانجام اطلاعات را براى دسترسى کاربران ذخیره مى کند.

• آینده موتورهاى جست وجوگر

در جست وجوهایى که از عملگرهاى بولین استفاده مى شود، جست وجوهاى لفظى است. موتور دقیقاً همان کلمات یا عبارتى که وارد شده است را جست وجو مى کند. زمانى که کلمات ورودى داراى چندین معنى هستند، جست وجوى صحیح آنها مشکل است. در این حالت، اگر براى شما تنها یکى از معانى آن کلمه مهم باشد، احتمالاً شما نمى خواهید سایر صفحات را که شامل معانى دیگر کلمه است ببینید. شما مى توانید یک جست وجوى لفظى ایجاد کنید که تا حدودى معنى هاى ناخواسته را حذف کند، اما بهتر این بود که خود موتور جست وجو مى توانست این کار را انجام بدهد. یکى از حوزه هاى تحقیق در موتورهاى جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده کردن از تحلیل هاى آمارى صفحاتى که شامل کلمات یا عباراتى است که شما جست وجو مى کنید، براى اینکه صفحات دیگرى را که ممکن است شما به آن علاقه داشته باشید پیدا کند. بدیهى است که در یک موتور جست وجوگر مبتنى بر مفهوم، اطلاعات ذخیره شده براى هر صفحه، بیشتر است. هنوز بسیارى از گروه ها تلاش مى کنند تا نتایج و عملکرد این نوع از موتورهاى جست وجو را افزایش دهند. قلمرو دیگرى که پژوهشگران درباره آن تلاش مى کنند، پرسش ها به زبان طبیعى نامیده مى شود. منظور از این پژوهش این است که شما بتوانید پرسش تان را به گونه اى تایپ کنید مثل اینکه آن را از شخصى که کنار شما نشسته است مى پرسید و نیازى نباشد تا از عملگرهاى بولین یا ساختارهاى پیچیده براى پرسش استفاده کنید. معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعى، سایت AskJeeves.com است. این سایت تنها با جملات ساده کار مى کند، اما تلاش بسیارى انجام مى شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد. همچنان تلاش هاى بسیارى براى افزایش کیفیت و ارائه خدمات بیشتر موتورهاى جست وجوگر انجام مى شود و هر روز شاهد خبرهاى جدیدى در این زمینه هستیم و رقابت بین سایت هاى داراى موتور جست وجوگر بیشتر و بیشتر مى شود.

لیستى از سایت هاى مهم داراى موتور جست وجو

* AltaVista -Dogpile - Go -Google - HotBot - Looksmart -Lycos -Mamma -Metacrawler - Northern Light - Open Directory Project -Search.com - NBCi -WebCrawler - Yahoo.

شیز شنبه 25 تیر‌ماه سال 1384 ساعت 01:28 ق.ظ