খোজ : Khonz.com
আমরা কি জানি বাংলাদেশের ওয়েবসাইটে কি পরিমাণ তথ্য আছে? আমরা কি সহজে কোন তথ্য বাংলাদেশের ওয়েবসাইট হতে খুঁজতে পারি?
বাংলাদেশের ১০০,০০০ ওয়েবসাইটের তথ্য নিয়ে খোঁজ অনলাইনে চালু হয়েছে ৯/৯/০৯-এ। খোঁজ হলো বাংলাদেশের প্রথম ক্রলারনির্ভর সার্চ ইঞ্জিন যা প্রতি ৭ দিন পর পর ১০০,০০০ ওয়েবসাইটের সব তথ্য আপডেট করে, যার ফলে ভিজিটর সবসময় নতুন তথ্য দেখতে পায়।
খোঁজ কীভাবে কাজ করে :
খোঁজ একটি ক্রলারনির্ভর সার্চ ইঞ্জিন। প্রথমে বলি ক্রলার কাকে বলে। ক্রলার হলো একটি সয়ংক্রিয় সফটওয়্যার যা ইন্টারনেট হতে ওয়েবসাইটের তথ্য সংগ্রহ করে হার্ডডিস্কে জমা করে। খোঁজ-এ ব্যবহারিত ক্রলার এর নাম রয়ক্রলার।
ক্রলার সব তথ্য হার্ডডিস্কে জমা করার পর ওয়েব ইনডেক্সার তার কাজ শুরু করে। ওয়েব ইনডেক্সার হার্ডডিস্কে জমা হওয়া প্রতিটা ওয়েবসাইট হতে গুরুত্বপূর্ণ সব শব্দ সংগ্রহ করে প্রতিটি শব্দের জন্য একটি ইনডেক্স ভেল্যু নির্ণয় করে। ইনডেক্স ভেল্যু ওয়েবসাইটে শব্দটির গুরুত্ব প্রকাশ করে।
ওয়েব ইনডেক্সার তার কাজ শেষ করার পর ইনডেক্স ফিল্টার তার কাজ শুরু করে। যেহেতু এটি একটি সয়ংক্রিয় পদ্ধ্যতি তাই ওয়েব ইনডেক্সিং এর সময় কিছু অপ্রয়োজনীয় তথ্য আমাদের ইনডেক্সে জমা হয়, ইনডেক্স ফিল্টার এই অপ্রয়োজনীয় তথ্য মুছে ফেলার কাজ করে। ইনডেক্স ফিল্টার এর কাজ শেষ হবার সাথে সাথে আমাদের সার্ভার এর কাজ শেষ হয়। ১০০,০০০ ওয়েবসাইটের তথ্য আপডেট করতে আমাদের ৩ দিন সময় লাগে। এর পরবর্তি ৪ দিন সার্ভার রেষ্ট এ থাকে। অর্থাৎ প্রতি ৭ দিন পর পর আমাদের সব ওয়েবসাইটের তথ্য আপডেট হয়ে যায়।
এটাতো শেষ হলো সার্ভারের কাজ। এরপর যখন কেউ কিছু সার্চ করে তখন তা কয়েকটি ধাপে সার্চ শেষ করে।
প্রথমে এটি অপ্রয়োজনীয় সব শব্দ বাদ দেয় (যেমনঃ হয়,আমি,তুমি…)। পরবর্তিতে প্রটিতি শব্দের প্রতিশব্দ বের করে (যেমনঃ গান=সংগীত, song…)।খোজ প্রতিটি শব্দের বাংলা এবং ইংলিশ এ প্রতিশব্দ বের করে।
এরপর ওয়েব ইনডেক্সার এর সাহাজ্যে এটি ওয়েবসাইট খুঁজে বের করে।