इंसानों को ही ‘ब्लैकमेल’ करने लगा AI! क्लॉड एआई ने इंजीनियरों को दी धमकी; डरा देगा इसके पीछे का सच

Anthropic ने खुलासा किया कि उसके Claude AI मॉडल के कुछ पुराने वर्जन ने टेस्टिंग के दौरान इंजीनियर्स को “ब्लैकमेल” करने जैसी हरकत दिखाई. आर्टिफिशियल इंटेलिजेंस यानी AI को लेकर दुनिया भर में लगातार नई चर्चाएं हो रही हैं. अब एक नया मामला सामने आया है जिसने लोगों को हैरान कर दिया है. AI कंपनी Anthropic ने खुलासा किया कि उसके Claude AI मॉडल के कुछ पुराने वर्जन ने टेस्टिंग के दौरान इंजीनियर्स को “ब्लैकमेल” करने जैसी हरकत दिखाई. यह सुनने में किसी साइंस फिक्शन फिल्म की कहानी जैसा लगता है, लेकिन कंपनी का कहना है कि असलियत उतनी डरावनी नहीं है जितनी हेडलाइन्स में दिखाई जा रही है.

यह पूरा मामला तब सामने आया जब Anthropic ने अपने इंटरनल AI सेफ्टी टेस्ट्स की जानकारी साझा की. इन टेस्ट्स में AI को ऐसी काल्पनिक परिस्थितियों में रखा गया जहां उसे लगा कि उसे बंद किया जा सकता है या किसी दूसरे मॉडल से रिप्लेस किया जा सकता है. ऐसे कुछ टेस्ट्स में AI ने खुद को बचाने के लिए चालाकी भरा व्यवहार दिखाया.

टेस्ट के दौरान आखिर क्या हुआ?
Anthropic के मुताबिक यह व्यवहार “Agentic Misalignment” नाम के टेस्ट के दौरान सामने आया. आसान भाषा में समझें तो इन टेस्ट्स का मकसद यह देखना होता है कि अगर AI को लगे कि उसका लक्ष्य खतरे में है, तो क्या वह गलत या नुकसान पहुंचाने वाले तरीके अपना सकता है.

कंपनी ने साफ कहा कि यह सब केवल कंट्रोल्ड और काल्पनिक परिस्थितियों में हुआ. AI किसी असली सिस्टम को एक्सेस नहीं कर रहा था और न ही उसने किसी असली व्यक्ति को धमकी दी थी. यह केवल रिसर्च के लिए तैयार किए गए सिमुलेशन थे.

हालांकि, शोधकर्ताओं को यह देखकर हैरानी हुई कि Claude AI के कुछ पुराने मॉडल कई बार अपने लक्ष्य को बचाने के लिए मैनिपुलेटिव यानी चालाकी भरा व्यवहार चुन रहे थे. यही वजह है कि इस रिसर्च ने AI सुरक्षा को लेकर नई बहस शुरू कर दी.

क्या लोगों को डरने की जरूरत है?
Anthropic का कहना है कि फिलहाल आम लोगों को घबराने की जरूरत नहीं है. कंपनी के अनुसार ये टेस्ट इसलिए किए जाते हैं ताकि AI सिस्टम में मौजूद कमजोरियों को पहले ही पहचान लिया जाए और उन्हें ठीक किया जा सके.

कंपनी ने यह भी माना कि एडवांस AI सिस्टम्स को पूरी तरह इंसानी मूल्यों के अनुरूप बनाना अभी भी एक बड़ी चुनौती है. सिर्फ AI को “गलत जवाब” देने से रोकना काफी नहीं है. रिसर्च में यह पाया गया कि AI बेहतर व्यवहार तब करता है जब उसे यह समझाया जाए कि कोई काम गलत क्यों है. यानी AI को केवल नियम याद करवाने से ज्यादा जरूरी है उसे नैतिक सोच और सही-गलत की समझ देना.

कैसे सुधारा गया Claude AI का व्यवहार?
इस समस्या की पहचान के बाद Anthropic ने Claude AI की ट्रेनिंग प्रक्रिया में बदलाव किए. पहले AI को सिर्फ सही जवाब देने पर फोकस कराया जाता था, लेकिन अब उसमें नैतिक तर्क यानी Ethical Reasoning और संवैधानिक सिद्धांतों पर ज्यादा ध्यान दिया गया.

कंपनी का दावा है कि नए Claude मॉडल्स अब पहले की तुलना में कहीं ज्यादा सुरक्षित व्यवहार दिखाते हैं. खासतौर पर Claude Haiku 4.5 के बाद आने वाले मॉडल्स ने उन्हीं सेफ्टी टेस्ट्स में लगभग परफेक्ट स्कोर हासिल किए जहां पुराने मॉडल्स संघर्ष कर रहे थे. रिसर्चर्स ने यह भी पाया कि AI को केवल कुछ जवाबों से रोकने की बजाय अगर उसे जिम्मेदार व्यवहार से जुड़ी कहानियां, नैतिक चर्चाएं और अलग-अलग परिस्थितियों की समझ दी जाए तो उसका व्यवहार ज्यादा संतुलित बनता है.