If Googlebot can't find a robots.txt file for a site, it proceeds to crawl the site.
If Googlebot finds a robots.txt file for a site, it will usually abide by the suggestions and proceed to crawl the site.
If Googlebot encounters an error while trying to access a site’s robots.txt file and can't determine if one exists or not, it won't crawl the site.Not all web robots follow robots.txt. People with bad intentions (e.g., e-mail address scrapers) build bots that don't follow this protocol. In fact, some bad actors use robots.txt files to find where you’ve located your private content. Although it might seem logical to block crawlers from private pages such as login and administration pages so that they don’t show up in the index, placing the location of those URLs in a publicly accessible robots.txt file also means that people with malicious intent can more easily find them. It’s better to NoIndex these pages and gate them behind a login form rather than place them in your robots.txt file.In SEO, not all search engines are equal
Many beginners wonder about the relative importance of particular search engines. Most people know that Google has the largest market share, but how important it is to optimize for Bing, Yahoo, and others? The truth is that despite the existence of more than 30 major web search engines, the SEO community really only pays attention to Google. Why? The short answer is that Google is where the vast majority of people search the web. If we include Google Images, Google Maps, and YouTube (a Google property), more than 90% of web searches happen on Google — that's nearly 20 times Bing and Yahoo combined.
Googlebot is the web crawling bot used by Google to scan and index web pages for its search engine. When Googlebot encounters a website, it first looks for a file called robots.txt in the root directory of the site. This file is used to instruct Googlebot and other web crawlers on which parts of the site should be crawled and indexed.
The robots.txt file contains instructions in a specific format that tells search engines which pages or sections of the website should be crawled and which should be ignored. These instructions are known as "disallow" and "allow" directives. The "disallow" directive is used to specify the pages or directories that should not be crawled by search engines, while the "allow" directive is used to indicate the pages or directories that are allowed to be crawled.
When Googlebot encounters a robots.txt file, it reads the file and follows the instructions contained within it. If a page or directory is disallowed, Googlebot will not crawl or index that page. If a page or directory is allowed, Googlebot will crawl and index that page.
It's important to note that the robots.txt file is not a security measure and should not be relied upon to protect sensitive information. While most search engines will respect the instructions in the robots.txt file, some malicious bots may ignore these instructions and crawl the site anyway. Therefore, sensitive information should be protected by other means, such as password protection or access controls
अगर Googlebot को किसी साइट के लिए robots.txt फ़ाइल नहीं मिलती है, तो वह साइट को क्रॉल करने के लिए आगे बढ़ता है।
अगर Googlebot को किसी साइट के लिए robots.txt फ़ाइल मिलती है, तो वह आमतौर पर सुझावों का पालन करेगा और साइट को क्रॉल करने के लिए आगे बढ़ेगा।
यदि किसी साइट की robots.txt फ़ाइल तक पहुँचने का प्रयास करते समय Googlebot को कोई त्रुटि मिलती है और यह निर्धारित नहीं कर सकता है कि कोई मौजूद है या नहीं, तो यह साइट को क्रॉल नहीं करेगा।सभी वेब रोबोट robots.txt का अनुसरण नहीं करते हैं। बुरे इरादे वाले लोग (जैसे, ई-मेल एड्रेस स्क्रेपर्स) ऐसे बॉट बनाते हैं जो इस प्रोटोकॉल का पालन नहीं करते हैं। वास्तव में, कुछ बुरे अभिनेता robots.txt फ़ाइलों का उपयोग यह पता लगाने के लिए करते हैं कि आपने अपनी निजी सामग्री कहाँ स्थित की है। यद्यपि क्रॉलर को लॉगिन और व्यवस्थापन पृष्ठों जैसे निजी पृष्ठों से ब्लॉक करना तर्कसंगत लग सकता है ताकि वे अनुक्रमणिका में दिखाई न दें, उन URL के स्थान को सार्वजनिक रूप से सुलभ robots.txt फ़ाइल में रखने का अर्थ यह भी है कि दुर्भावनापूर्ण इरादे वाले लोग उन्हें और आसानी से ढूंढ सकते हैं। इन पृष्ठों को NoIndex करना और उन्हें अपनी robots.txt फ़ाइल में रखने के बजाय एक लॉगिन फ़ॉर्म के पीछे रखना बेहतर है।
SEO में सभी सर्च इंजन समान नहीं होते हैं
कई शुरुआती लोग विशेष खोज इंजन के सापेक्ष महत्व के बारे में आश्चर्य करते हैं। अधिकांश लोग जानते हैं कि Google का बाजार में सबसे बड़ा हिस्सा है, लेकिन बिंग, याहू और अन्य के लिए अनुकूलन करना कितना महत्वपूर्ण है? सच्चाई यह है कि 30 से अधिक प्रमुख वेब सर्च इंजनों के अस्तित्व के बावजूद, SEO समुदाय वास्तव में केवल Google पर ही ध्यान देता है। क्यों? संक्षिप्त उत्तर यह है कि Google वह जगह है जहाँ अधिकांश लोग वेब पर खोज करते हैं। यदि हम Google छवियाँ, Google मानचित्र और YouTube (एक Google संपत्ति) शामिल करते हैं, तो 90% से अधिक वेब खोजें Google पर होती हैं — यह बिंग और Yahoo को मिलाकर लगभग 20 गुना है।

