somewhere in... blog
x
ফোনেটিক ইউনিজয় বিজয়

গুগল কিভাবে কাজ করে???:-*

২৬ শে আগস্ট, ২০০৯ দুপুর ২:০৮
এই পোস্টটি শেয়ার করতে চাইলে :


সার্চ ইন্জিন নিয়ে কয়েকদিন হল খুব আলোচনা হচ্ছে। কোন সার্চ ইন্জিন কার চেয়ে ভাল, কোনটা কার চেয়ে ফাস্ট আর কে কার কাছ থেকে টাকা খেয়ে সার্চ রেজাল্টকে উপরে তোলে ইত্যাদি ইত্যাদি।একটা স্পষ্ট ধারণা পেতে আসুন দেখি কিভাবে কাজ করে বিশ্বের শ্রেষ্ঠ সার্চ ইন্জিন গুগল।

বর্তমানে গুগল কয়েক লক্ষ সার্ভার ব্যবহার করে। গুগলের কৌশল হচ্ছে কাস্টমাইজ করা অপারেটিং সিস্টেম যুক্ত কমদামী সিস্টেম ব্যবহার করা। অপারেটিং সিস্টেমটি লিনাক্স। সার্ভারগুলো ডকুমেন্ট সার্ভার, অ্যাড সার্ভার ইত্যাদি বিভিন্ন ভাগে বিভক্ত। সার্ভারগুলোতে ডাটা ৬৪ মেগাবাইট ব্লকে স্টোর করা থাকে। ডাটার নিরাপত্তা নিশ্চিত করতে প্রতিটি ডাটা তিনটি করে কপি করা হয় এবং স্টোর করা হয় আলাদা পাওয়ার সাপ্লাই সম্বলিত মেশিনে। একটি পাওয়ার সাপ্লাই লাইনে পরিচালিত কোন সার্ভারে একই ডাটার দুটি কপি থাকে না। এবং ডাটাগুলো এমন ভাবে বন্টন করা হয় যাতে যেকোন দুটি সার্ভারে কখনই একই রকম ডাটা থাকে না। মানে বিষয়টা এরকম, কোন সার্ভারে যদি জিমেইল, ইনডেস্ক ও আর্থের ডাটা থাকে। অন্যকোন সার্ভারে ঠিক এই তিনরকম ডাটা থাকবে না। হয় জিমেইল, ইনডেস্ক, ইমেজ অথবা ইনডেস্ক, আর্থ, গুগল ডক এরকম। দ্বিতীয় কোন সার্ভার পাবেন না যেটাতে জিমেইল, ইনডেস্ক ও আর্থের ডাটা আছে।

গুগল প্রধানত তিনটি ভাগে বিভক্ত:
১। গুগলবট
২। ইনডেক্সার
৩। কুয়েরী প্রসেসর

গুগলবট: গুগলবট ওয়েব থেকে পেজ সংগ্রহ করে। এর কার্যপদ্ধতি অনেকটা আমাদের ব্যবহার করা ওয়েব ব্রাউজারের মতই। গুগলবটও ওয়েব সার্ভারে ব্রাউজারের মত পেজ রিকোয়েস্ট পাঠায়। সার্ভার থেকে পেজগুলো পাঠানো হলে সেগুলো স্টোর করে। আমাদের ব্রাউজারের মত হলেও গুগলবট অনেক বেশী দ্রুতগতি সম্পন্ন। অসংখ্য কম্পিউটারের সমন্বয়ে গুগলবট একসাথে কয়েক হাজার পেজ রেকোয়েস্ট পাঠাতে পারে। অনেক দুর্বল সার্ভার গুগলবটের এই বিপুল সংখ্যক রিকোয়েস্ট রেসপন্ড করার সাথে সাথে সাধারণ ইউজারদের রিকোয়েস্ট রেসপন্ড করতে পারে না। তাই সাধারণ ব্যবহারকারীদের প্রধান্য দিয়ে গুগলবটকে পূর্ণক্ষমতায় চালানো হয় না।

গুগলবট নতুন ইউআরএল সংগ্রহ করে প্রধানত দুইটি উপায়ে
১। http://www.google.com/addurl.html এই পাতায় সাবমিট করা পেজ।
২। ওয়েব ক্রলিং এর মাধম্যে।

গুগলবট যখন একটি পেজ সংগ্রহ করে তখন এই পেজে পাওয়া লিংকগুলো তার ক্রলিং তালিকায় যোগ হয়। এই পদ্ধতিতে একই লিংক অসংখ্যবার আসে, কিত্তু গুগলবট সেগুলোকে বাদ দিয়ে একটি তালিকা তৈরি করে যাতে সবচেয়ে কম সময়ে পুরো ওয়েবকে কভার করা সম্ভব। এ ব্যবস্হাকে বলে ডিপ ক্রলিং। কোন পেজ কত দ্রুত পরিবর্তন হয় সেটি ঠিক করা গুগলবটের অন্যতম প্রধান দায়িত্ব। গুগল ডাটাবেজকে আপডেট রাখার ক্ষেত্রে এটি সবচেয়ে বেশী জরুরী। গুগলবট কোন পেজে পরিবর্তনের একটা ফ্রিকোয়েন্সী বের করে এবং সেই হিসেবে ঠিক করা হয় যে গুগলবট কত সময় পর পর কোন পেজ ক্রলিং করবে। কারণ যে পেজ মাসে একবার পরিবর্তন হয় সেটা কয়েকঘন্টা পরপর ক্রলিং করা সময় নষ্ট ছাড়া আর কিছুই না। সামুর মত সবসময় পরিবর্তনশীল সাইটগুলো কয়েকঘন্টা পর পর ক্রলিং করা হয়। দৈনিক পত্রিকাগুলো প্রতিদিন আর বাংলাদেশের বেশীরভাগ সরকারী সাইটের মত পেজগুলো মাসে একবার (বছরে একবার করলেও চলত :P)। ডাটাবেজ আপডেট করার এই ক্রলিংকে ফ্রেশ ক্রলিং বলে।


গুগল ইনডেক্সার: গুগল ইনডেক্সারের কাজ তুলনামূলকভাবে সহজ। গুগলবট ইনডেক্সারকে ক্রলিং করা পেজগুলোর ফুল টেক্সট দেয়। ইনডেক্সার সার্চ টার্মগুলোকে বর্ণমালা অনুক্রমে সাজায় এবং কোন টার্ম কোথায় আছে তা সেভ করে রাখে। কিছু পরিবর্তনও আনা হয় পেজগুলোতে। কিছু বিরাম চিহ্ন বাদ দেয়া হয়। একের অধিক স্পেস থাকলে সেটাও বাদ দেয়া হয়। ইংরেজীর ক্ষেত্রে বড় হাতের অক্ষরগুলোকে ছোট হাতের অক্ষরে পরিবর্তন করা হয়।

গুগল কুয়েরী প্রসেসর: এটি সর্বশেষ অংশ। এটাই আমাদের সার্চ রেজাল্ট প্রসেসিং করে। কুয়েরী প্রসেসর কয়েকটি অংশে বিভক্ত,ইউজার ইন্টারফেস, কুয়েরী ইন্জিন, রেজাল্ট ফরম্যাটর ইত্যাদি। গুগলের ওয়েবপেজ Ranking সিস্টেমের নাম PageRank। যে পেজের PageRank যতবেশী সেটা সার্চ রেজাল্টে তত উপরে থাকে। PageRank নির্ধারণ করা হয় অনেক কিছু বিচার করে। পেজটার পপুলারিটি, সার্চ টার্মের অবস্হান ও আকার, অন্য পেজে টার্মটি কতবার আছে, একাধিক টার্ম হলে শব্দগুলোর মাঝে দুরত্ব,পেজটি কতদিন ধরে ওয়েবে আছে ইত্যাদি অনেক কিছু বিচার করে PageRank নির্ধারণ করা হয়। একই সাথে গুগল সার্চ টার্মগুলোর পারস্পরিক সামাঞ্জস্বতা বিচার করে। এর ভিত্তিতে গুগলের spelling-correction সিস্টেম কাজ করে। গুগলবট যেহেতু টেক্সটের সাথে পেজ কোডও ক্রলিং করে তাই ইউজার চাইলে সার্চ টার্মটির অবস্হানও নির্দিষ্ট করে দিতে পারে যে সেটি লিংকে থাকবে, টাইটেলে থাকবে না লেখায় থাকবে। শুধু টার্মের উপস্হিতির উপর ভিত্তি করে রেজাল্ট না দেওয়ার কারণেই গুগলের সার্চ রেজাল্টের মান এত উন্নত।

১৯৯৮ সালে গুগল ব্যবহৃত যন্ত্রপাতিগুলো ছিল:

*দুইটে ডুয়েল পেন্টিয়াম টু প্রসেসর ৩০০ মেগাহার্জ সার্ভার যাদের ছিল মেগাবাইট ৫১২ মেগাবাইট RAM
*চারটি প্রসেসর যুক্ত ৫১২ মেগাবাইট RAM এর একটি F50 IBM RS6000 কম্পিউটার
*একটি ডুয়েল প্রসেসর Sun Ultra II ৫১২ মেগাবাইট RAM যুক্ত কম্পিউটার।
*কয়েকটি হার্ডডিস্ক, প্রতিটি ৪ থেকে ৯ গিগাবাইট। মোট ৩৫০ গিগাবাইট ।

বর্তমানে গুগলের রয়েছে বিশ্বের বিভিন্ন স্হানে কয়েকলক্ষ সার্ভার ।মোট ডাটার পরিমান প্রায় ৩০০ টেরাবাইট। ২০০৪ সাল থেকে গুগল ইন্টেলের পরিবর্তে AMD প্রসেসর ব্যবহার করছে বিদ্যূত সাশ্রয়ের জন্য।

***ইন্টারনেট থেকে সংগ্রহ ও অনুবাদকৃত
সর্বশেষ এডিট : ১৯ শে সেপ্টেম্বর, ২০০৯ সকাল ১১:৪৮
২৯টি মন্তব্য ২৪টি উত্তর

আপনার মন্তব্য লিখুন

ছবি সংযুক্ত করতে এখানে ড্রাগ করে আনুন অথবা কম্পিউটারের নির্ধারিত স্থান থেকে সংযুক্ত করুন (সর্বোচ্চ ইমেজ সাইজঃ ১০ মেগাবাইট)
Shore O Shore A Hrosho I Dirgho I Hrosho U Dirgho U Ri E OI O OU Ka Kha Ga Gha Uma Cha Chha Ja Jha Yon To TTho Do Dho MurdhonNo TTo Tho DDo DDho No Po Fo Bo Vo Mo Ontoshto Zo Ro Lo Talobyo Sho Murdhonyo So Dontyo So Ho Zukto Kho Doye Bindu Ro Dhoye Bindu Ro Ontosthyo Yo Khondo Tto Uniswor Bisworgo Chondro Bindu A Kar E Kar O Kar Hrosho I Kar Dirgho I Kar Hrosho U Kar Dirgho U Kar Ou Kar Oi Kar Joiner Ro Fola Zo Fola Ref Ri Kar Hoshonto Doi Bo Dari SpaceBar
এই পোস্টটি শেয়ার করতে চাইলে :
আলোচিত ব্লগ

স্বৈরাচারী আওয়ামীলীগ হঠাৎ মেহজাবীনের পিছে লাগছে কেন ?

লিখেছেন শিশির খান ১৪, ০৪ ঠা নভেম্বর, ২০২৪ সকাল ৭:৪১


স্বৈরচারী আওয়ামীলীগ এইবার অভিনেত্রী মেহজাবীনের পিছনে লাগছে। ৫ ই আগস্ট মেহজাবীন তার ফেসবুক স্ট্যাটাসে লিখেছিলেন ‘স্বাধীন’। সেই স্ট্যাটাসের স্ক্রিনশট যুক্ত করে অভিনেত্রীকে উদ্দেশ্য করে আওয়ামী লীগ তার অফিসিয়াল ফেইসবুকে... ...বাকিটুকু পড়ুন

বিড়াল নিয়ে হাদিস কি বলে?

লিখেছেন রাজীব নুর, ০৪ ঠা নভেম্বর, ২০২৪ সকাল ৯:২৪



সব কিছু নিয়ে হাদিস আছে।
অবশ্যই হাদিস গুলো বানোয়াট। হ্যা বানোয়াট। এক মুখ থেকে আরেক মুখে কথা গেলেই কিছুটা বদলে যায়। নবীজি মৃত্যুর ২/৩ শ বছর পর হাদিস লিখা শুরু... ...বাকিটুকু পড়ুন

শাহ সাহেবের ডায়রি ।। বকেয়া না মেটালে ৭ নভেম্বরের পর বাংলাদেশকে আর বিদ্যুৎ দেবে না আদানি গোষ্ঠী

লিখেছেন শাহ আজিজ, ০৪ ঠা নভেম্বর, ২০২৪ সকাল ৯:৪১





বকেয়া বৃদ্ধি পেয়ে হয়েছে কোটি কোটি টাকা। ৭ নভেম্বরের মধ্যে তা না মেটালে বাংলাদেশকে আর বিদ্যুৎ দেবে না গৌতম আদানির গোষ্ঠী। ‘দ্য টাইম্স অফ ইন্ডিয়া’-র একটি প্রতিবেদনে এমনটাই... ...বাকিটুকু পড়ুন

শাহ সাহেবের ডায়রি ।। ভারত থেকে শেখ হাসিনার প্রথম বিবৃতি, যা বললেন

লিখেছেন শাহ আজিজ, ০৪ ঠা নভেম্বর, ২০২৪ দুপুর ১২:৩২



জেলহত্যা দিবস উপলক্ষে বিবৃতি দিয়েছেন আওয়ামী লীগ সভাপতি ও সাবেক প্রধানমন্ত্রী শেখ হাসিনা। শনিবার (২ নভেম্বর) বিকালে দলটির ভেরিফায়েড ফেসবুক পেজে এটি পোস্ট করা হয়। গত ৫ আগস্ট ছাত্র-জনতার... ...বাকিটুকু পড়ুন

=বেলা যে যায় চলে=

লিখেছেন কাজী ফাতেমা ছবি, ০৪ ঠা নভেম্বর, ২০২৪ বিকাল ৪:৪৯



রেকর্ডহীন জীবন, হতে পারলো না ক্যাসেট বক্স
কত গান কত গল্প অবহেলায় গেলো ক্ষয়ে,
বন্ধ করলেই চোখ, দেখতে পাই কত সহস্র সুখ নক্ষত্র
কত মোহ নিহারীকা ঘুরে বেড়ায় চোখের পাতায়।

সব কী... ...বাকিটুকু পড়ুন

×