AI रिसर्च असिस्टेंट्स के जवाबों के भरोसे हो तो ये खबर आपके लिए है, नई स्टडी ने खोली पोल!

Salesforce और Microsoft की स्टडी ने दिखाया कि AI टूल्स रिसर्च असिस्टेंट के रूप में भरोसेमंद नहीं हैं। DeepTRACE ऑडिट में Bing Copilot से लेकर GPT-5 तक के सिस्टम्स पक्षपाती और अधूरे साबित हुए।

विज्ञापन
Written by नितेश पपनोई, अपडेटेड: 18 सितंबर 2025 14:32 IST
ख़ास बातें
  • Salesforce और Microsoft ने DeepTRACE से 9 AI टूल्स को टेस्ट किया
  • जवाब अक्सर पक्षपाती और गलत रेफरेंस पर आधारित पाए गए
  • GPT-5 deep research mode बाकी से बेहतर लेकिन अभी अधूरा

Photo Credit: Unsplash/ Aerps.com

आर्टिफिशियल इंटेलिजेंस (AI) सिस्टम्स को अब तक तेज और भरोसेमंद रिसर्च असिस्टेंट के तौर पर देखा जाता रहा है। लेकिन एक ताजा स्टडी ने इस भरोसे को झटका दिया है। Salesforce AI Research और Microsoft ने मिलकर किए गए इस स्टडी में पाया है कि पॉपुलर AI टूल्स अकसर अधूरे सबूतों, गलत रेफरेंस और एकतरफा जवाबों के सहारे अपनी बात रखते हैं। यानी जमीन पर भले ही ये सिस्टम कॉन्फिडेंस से भरे दिखें, लेकिन अंदर से इनके जवाब कई बार बैलेंस और सटीकता से कोसों दूर होते हैं। चलिए आपको इस स्टडी के बारे में विस्तार से जानकारी देते हैं

DeepTRACE के जरिए AI को परखा

इस स्टडी में रिसर्चर्स ने DeepTRACE नाम का एक फ्रेमवर्क तैयार किया। यह सिस्टम्स को सिर्फ उनकी भाषा की फ्लुएंसी पर नहीं, बल्कि असली सबूतों से जोड़कर जांचता है। DeepTRACE हर जवाब को छोटे-छोटे स्टेटमेंट्स में तोड़ता है और देखता है कि कौन सा दावा किस सोर्स से सपोर्ट हो रहा है।

इस फ्रेमवर्क के आठ पैमाने बनाए गए। इनमें 'जवाब कितना बैलेंस्ड है, लिखते वक्त कितनी कॉन्फिडेंस दिखाई गई, क्या क्लेम्स प्रासंगिक हैं, कितने स्टेटमेंट्स बिना सबूत के हैं, क्या रेफरेंस सिर्फ लिस्ट किए गए हैं या सही जगह पर यूज भी हुए हैं और क्या सोर्सेज वाकई जरूरी हैं' शामिल हैं। इस तरह DeepTRACE सतही लेवल के बजाय गहराई से जांच करता है कि कोई AI टूल सचमुच भरोसेमंद है या सिर्फ स्मार्ट लग रहा है।

सर्च-फोकस्ड टूल्स में सामने आई खामियां

टीम ने 9 पॉपुलर टूल्स को 300 से ज्यादा सवालों पर टेस्ट किया। इसमें Bing Copilot, Perplexity, You.com और GPT-4.5 जैसे सर्च-बेस्ड टूल्स शामिल थे। इन टूल्स की खासियत है कि ये छोटे और आसान जवाब देते हैं।

लेकिन जैसे ही सवाल डिबेट या विवादित मुद्दों से जुड़े थे, इनकी पोल खुल गई। कई बार इनके जवाब पूरी तरह एकतरफा निकले और वो भी बहुत आत्मविश्वास के साथ। यानी AI टूल्स ने ऐसा जताया जैसे यह अंतिम सच है, जबकि दूसरे दृष्टिकोण का जिक्र ही नहीं किया। साथ ही, रेफरेंस का खेल भी गड़बड़ मिला। कुछ सिस्टम्स ने ऐसे सोर्स दिए जो टेक्स्ट से जुड़े ही नहीं थे, जबकि कुछ ने सिर्फ लिस्टिंग के लिए रेफरेंस जोड़ दिए ताकि जवाब ‘भरोसेमंद' लगे। नतीजा यह हुआ कि दिखावे में मजबूत दिखने वाले जवाब असल में कमजोर साबित हुए।

डीप रिसर्च मोड: ज्यादा डिटेल लेकिन फिर भी अधूरा

जब बात आई डीप रिसर्च मोड वाले सिस्टम्स की, जैसे GPT-5 in research mode, You.com Deep Research, Gemini और Perplexity रिसर्च मोड, तो स्टडी के मुताबिक, जवाबों का साइज काफी बड़ा मिला। इन टूल्स ने लंबी रिपोर्ट्स, ज्यादा सोर्सेस और कई सारे स्टेटमेंट्स दिए।

उदाहरण के लिए, GPT-5 deep research mode ने औसतन 140 स्टेटमेंट्स और करीब 20 सोर्सेस एक साथ पेश किए। इसके टोन में बैलेंस और सावधानी बाकी टूल्स से बेहतर थी। हालांकि, यहां भी आधे से ज्यादा डिबेट-संबंधी सवालों के जवाब किसी एक पक्ष की ओर झुके हुए थे। दूसरी ओर, Perplexity deep research mode तो सबसे कमजोर साबित हुआ, जिसमें इसके लगभग सभी क्लेम्स बिना सबूत के पाए गए। Gemini का हाल भी ठीक नहीं था, क्योंकि इसके एक-तिहाई से भी कम सोर्स वास्तव में जरूरी थे।

आम यूजर्स के लिए क्या खतरा?

स्टडी का सबसे अहम पहलू यह है कि आम यूजर्स जब इन टूल्स पर भरोसा करते हैं तो उन्हें कई खतरे झेलने पड़ सकते हैं, जैसे कि अगर जवाब एकतरफा है तो यूजर को दूसरे विचारों से परिचय ही नहीं होगा, अगर गलत रेफरेंस या बेकार सोर्स जोड़े गए हैं तो भरोसे पर असर पड़ेगा और सबसे बड़ा खतरा यह है कि AI एक तरह का एको चेंबर बना देता है, जहां बार-बार वही राय सुनाई देती है जो यूजर पहले से मानता है।

लेटेस्ट टेक न्यूज़, स्मार्टफोन रिव्यू और लोकप्रिय मोबाइल पर मिलने वाले एक्सक्लूसिव ऑफर के लिए गैजेट्स 360 एंड्रॉयड ऐप डाउनलोड करें और हमें गूगल समाचार पर फॉलो करें।

कंज्यूमर इलेक्ट्रॉनिक्स शो की लेटेस्ट खबरें hindi.gadgets 360 पर और हमारे CES 2026 पेज पर देखें

ये भी पढ़े: Deeptrace, Salesforce, microsoft, AI test, AI, AI tools, ChatGPT, Gemini, Perplexity
Nitesh has almost seven years of experience in news writing and reviewing tech ...और भी
Advertisement
Popular Brands
#ट्रेंडिंग टेक न्यूज़
  1. AI से तैयार हुआ कंटेंट, Bandar Apna Dost, यूट्यूब पर कर रहा 38 करोड़ की कमाई
  2. मात्र 44 रुपये में Jio यूजर्स को मिलेगी 1 साल की वैधता, आते रहेंगे कॉल और मैसेज, जानें कैसे
  3. ChatGPT बनाने वाली कंपनी को चाहिए AI रिस्क एक्सपर्ट, सैलेरी में मिलेंगे Rs 5 करोड़!
  4. 28 हजार से ज्यादा गिरी iPhone Air की कीमत, सिर्फ यहां से खरीदने पर होगी बचत
  5. Motorola Signature जल्द होगा भारत में लॉन्च, पेरिस्कोप टेलीफोटो कैमरा 
  6. Realme Narzo 90 5G vs Redmi 15 5G vs Infinix Note 50s 5G+: आपके लिए कौन सा मोबाइल है बेस्ट?
  7. Vivo X300 Ultra में मिल सकता है BOE का 6.82 इंच डिस्प्ले
#ताज़ा ख़बरें
  1. स्मार्टफोन को बना दिया ऑल-इन-वन कंप्यूटर! ऑनलाइन शेयर किया CyberDeck बनाने का पूरा तरीका
  2. ChatGPT बनाने वाली कंपनी को चाहिए AI रिस्क एक्सपर्ट, सैलेरी में मिलेंगे Rs 5 करोड़!
  3. Vivo X300 Ultra में मिल सकता है BOE का 6.82 इंच डिस्प्ले
  4. अब ऑनलाइन एग्जाम नहीं! AI नकल से परेशान दुनिया की सबसे बड़ी अकाउंटिंग संस्था का फैसला
  5. Oppo Find N6 के लॉन्च की तैयारी, मिल सकती है डुअल बैटरी
  6. Oppo Reno 15 Pro Mini में होगा 6.32 इंच AMOLED डिस्प्ले, लीक हुआ प्राइस
  7. AI से तैयार हुआ कंटेंट, Bandar Apna Dost, यूट्यूब पर कर रहा 38 करोड़ की कमाई
  8. नए साल 2026 के मौके पर WhatsApp का तोहफा, ये फीचर्स कर पाएंगे उपयोग, जानें कैसे
  9. Poco M8 5G Launch Date: भारत में इस तारीख को लॉन्च होगा Poco का 50MP कैमरा वाला स्लिम फोन
  10. Amazon Get Fit Days 2026 Sale: साल की शुरुआत 'सस्ते' फिटनेस आइटम्स से, यहां देखें अमेजन सेल की सभी डील्स
Download Our Apps
Available in Hindi
© Copyright Red Pixels Ventures Limited 2025. All rights reserved.