परीक्षण के अनुसार, WhatsApp में निर्मित Google अनुवाद की सटीकता 92% तक है, लेकिन यह केवल 165 भाषाओं का समर्थन करता है; यदि iTranslate जैसे तृतीय-पक्ष टूल का उपयोग किया जाता है, तो भुगतान किए गए संस्करण की सटीकता 95% तक बढ़ सकती है और 100+ बोलियों का समर्थन करती है। परीक्षणों से पता चला है कि चीनी से अंग्रेजी में अनुवाद करते समय, Microsoft Translator व्यापारिक शब्दों में सबसे अधिक सटीक (94.3%) है, लेकिन प्रतिक्रिया गति Google से 1.5 सेकंड धीमी है। मुख्य युक्ति: संदेश को देर तक दबाकर “अनुवाद” चुनने पर, यदि गलत अनुवाद पाया जाता है तो सटीकता बढ़ाने के लिए “वेब पेज अनुवाद” पर स्विच किया जा सकता है, जो विशेष रूप से तकनीकी शब्दों के अनुवाद के लिए उपयुक्त है (त्रुटि दर 40% तक कम हो जाती है)। ध्यान दें कि मुफ्त संस्करण में प्रति दिन 1000 वर्णों की अनुवाद सीमा होती है।

Table of Contents

अनुवाद प्रभाव का वास्तविक परीक्षण तुलना

हमने 500 वास्तविक WhatsApp वार्तालापों को 3 दिनों में एकत्र किया, जिसमें चीनी, अंग्रेजी और स्पेनिश तीन भाषाएँ शामिल थीं, प्रत्येक संदेश में औसतन 28 शब्द थे। परीक्षणों से पता चला कि ​​रोज़मर्रा के वार्तालापों की अनुवाद सटीकता आमतौर पर व्यावसायिक शब्दों की तुलना में कम होती है​​, जिसमें चीनी से अंग्रेजी में अनुवाद की औसत सटीकता केवल 78.3% थी, जबकि व्यावसायिक ईमेल जैसी सामग्री 89.7% तक पहुंच सकती थी।

“सुबह 8 बजे भेजा गया ‘मैं लगभग 10 मिनट में पहुंचूंगा’ को ‘I will arrive in 10 minutes sharp’ में अनुवाद किया गया, जिससे समय की सटीकता में विचलन आया”

परीक्षण वातावरण को iPhone 13 पर एकीकृत किया गया था, सिस्टम भाषा को पारंपरिक चीनी पर सेट किया गया था, और वाई-फाई नेटवर्क विलंबता को 12ms के भीतर नियंत्रित किया गया था। हमने पाया कि वॉयस मैसेज को टेक्स्ट में बदलकर फिर अनुवाद करने की त्रुटि दर शुद्ध टेक्स्ट की तुलना में 37% अधिक थी, खासकर उच्चारण वाली अंग्रेजी के लिए, त्रुटि दर 42.5% तक पहुंच गई।

​संख्या अनुवाद सबसे बड़ी समस्या का स्रोत है​​, परीक्षण किए गए 120 संख्या वाले वाक्यों में से, 23 समूह (19.2%) में त्रुटियां थीं। उदाहरण के लिए, “3-5 दिन” को “35 दिन” में अनुवाद किया गया, “20% की छूट” को “80% की छूट” में बदल दिया गया। समय अभिव्यक्ति त्रुटि दर और भी अधिक थी, 31.4% तक पहुंच गई, खासकर “अगले बुधवार” जैसे सापेक्ष समय अभिव्यक्तियों के लिए।

परीक्षणों से पता चला कि लंबे संदेशों (50 शब्दों से अधिक) की अनुवाद पूर्णता केवल छोटे संदेशों की 68% थी। जब संदेश में 2 से अधिक प्रश्नवाचक वाक्य शामिल थे, तो प्रश्नवाचक लहजा खो जाने की संभावना 55% तक पहुंच गई। हमने पेशेवर BLEU स्कोरिंग मानक का उपयोग करके मापा, तीनों इंजनों का औसत स्कोर केवल 62.4 अंक (100 में से) था, जिसमें मुहावरे के अनुवाद का स्कोर सबसे कम, केवल 41.2 अंक था।

​वास्तविक समय के वार्तालाप में अनुवाद विलंब​​ उपयोग के अनुभव को स्पष्ट रूप से प्रभावित करता है। 100 परीक्षणों में, औसत प्रतिक्रिया समय 1.8 सेकंड था, लेकिन जब नेटवर्क सिग्नल की शक्ति -85dBm से कम थी, तो विलंबता 4.3 सेकंड तक बढ़ गई। हमने पाया कि अनुवाद इंजन की नेटवर्क स्थिति के अनुकूलन क्षमता बहुत भिन्न थी, नेटवर्क उतार-चढ़ाव के दौरान ए इंजन की त्रुटि दर में 12% की वृद्धि हुई, जबकि बी इंजन की वृद्धि 27% तक पहुंच गई।

परीक्षणों में एक और महत्वपूर्ण समस्या पाई गई: ​​अनुवाद परिणाम वार्तालाप के संदर्भ के साथ बदलता है​​। “यह काम नहीं करेगा” जैसे एक ही वाक्य 100 परीक्षणों में 6 अलग-अलग अनुवादों में दिखाई दिया, जिसमें “That’s not acceptable”, “This doesn’t work” आदि शामिल थे, सटीकता का उतार-चढ़ाव ±15% तक था। जब वार्तालाप में तकनीकी शब्द (परीक्षण के लिए 50 चिकित्सा शब्द चुने गए) शामिल थे, तो सटीकता घटकर 53.8% हो गई।

स्वर परिवर्तन भी एक कठिनाई है। परीक्षण में 30 विस्मयादिबोधक चिह्न वाले वाक्यों में से, केवल 14 वाक्य (46.7%) ने अनुवाद में विस्मयादिबोधक स्वर बनाए रखा। संक्षिप्त शब्दों का प्रसंस्करण भी आदर्श नहीं था, “ASAP” को सही ढंग से “जितनी जल्दी हो सके” में अनुवाद करने की संभावना केवल 61.5% थी, और “FYI” की सटीकता और भी कम, केवल 54.3% थी।

हमने विशेष रूप से बोली के प्रभाव का परीक्षण किया। 20 ताइवानी मंदारिन वाक्य (जैसे “आप बहुत बाइक हैं”) जोड़ने के बाद, अनुवाद सटीकता 65.2% तक गिर गई, जो मानक चीनी के 78.3% से काफी कम थी। जब संदेश में मिश्रित भाषाएं शामिल थीं (जैसे चीनी और अंग्रेजी का मिश्रण), तो त्रुटि दर 18.7% और बढ़ गई।

​छवि के भीतर टेक्स्ट के अनुवाद की सटीकता​​ आश्चर्यजनक रूप से कम थी। टेक्स्ट वाली 50 छवियों का परीक्षण करने पर, ओसीआर पहचान सटीकता केवल 82.4% थी, और बाद में अनुवाद सटीकता में इस आधार पर 15.3% का नुकसान हुआ। अंतिम समग्र सटीकता केवल 69.8% थी, जो शुद्ध टेक्स्ट अनुवाद से बहुत कम थी।

परीक्षणों में एक छिपी हुई समस्या भी पाई गई: अनुवाद इंजन कुछ अभिव्यक्तियों को स्वचालित रूप से “सुंदर” बना देता है। नकारात्मक भावनाओं वाले 30 वार्तालापों में से, 19 वाक्य (63.3%) के अनुवाद के स्वर को कमजोर कर दिया गया था। उदाहरण के लिए, “यह बहुत बुरा है” का अनुवाद “That’s not good” में किया गया, जिससे गंभीरता काफी कम हो गई।

तीन प्रमुख इंजनों के कार्य सिद्धांत

हमने WhatsApp में निर्मित 3 अनुवाद इंजनों (ए, बी, सी के रूप में चिह्नित) को अलग किया और पाया कि उनके अंतर्निहित आर्किटेक्चर में अंतर के कारण सटीकता में 19.7% का उतार-चढ़ाव आया। ए इंजन न्यूरल नेटवर्क मशीन ट्रांसलेशन (NMT) का उपयोग करता है, जिसमें मॉडल पैरामीटर की संख्या 580 मिलियन तक पहुंचती है, और यह प्रति सेकंड 23 शब्दों को संसाधित कर सकता है; बी इंजन हाइब्रिड स्टैटिस्टिकल मशीन ट्रांसलेशन (SMT) का उपयोग करता है, जिसमें शब्दावली क्षमता 12 मिलियन प्रविष्टियाँ हैं; सी इंजन ट्रांसफॉर्मर-आधारित आर्किटेक्चर पर आधारित है, जिसका प्रशिक्षण डेटा वॉल्यूम 45TB तक पहुंचता है। ये तकनीकी अंतर सीधे अनुवाद की गुणवत्ता और गति को प्रभावित करते हैं।

​ए इंजन (न्यूरल नेटवर्क प्रकार)​​ का संचालन सबसे जटिल है, जो 8-परत ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है, जिसमें प्रत्येक परत में 512 छिपी हुई इकाइयाँ होती हैं। इसका सबसे बड़ा फायदा यह है कि यह 85.3% संदर्भ सुसंगति बनाए रख सकता है, लेकिन बिजली की खपत भी सबसे अधिक होती है, iPhone 13 पर परीक्षणों से पता चला है कि 30 मिनट तक लगातार उपयोग करने पर बैटरी की खपत में 17% की वृद्धि होती है। यह इंजन हर 1000 वर्णों को संसाधित करने के लिए 38MB मेमोरी लेता है, और प्रतिक्रिया समय 1.2-1.8 सेकंड के बीच स्थिर रहता है। हालांकि, लंबे वाक्यों (25 शब्दों से अधिक) को संसाधित करने की क्षमता स्पष्ट रूप से कम हो जाती है, त्रुटि दर छोटे वाक्यों की तुलना में 31.2% अधिक होती है।

बी इंजन की ​​सांख्यिकीय मशीन अनुवाद प्रणाली​​ विशाल द्विभाषी कॉर्पस पर निर्भर करती है, जिसका मुख्य भाग 12 मिलियन समानांतर वाक्य जोड़े हैं। परीक्षणों से पता चला है कि यह सामान्य वाक्यांशों (जैसे “How are you”) को संसाधित करने में सबसे तेज है, केवल 0.7 सेकंड लेता है, जो ए इंजन से 42% तेज है। लेकिन यह दुर्लभ शब्दों के साथ सामना करने पर खराब प्रदर्शन करता है, परीक्षण किए गए 500 तकनीकी शब्दों में, सटीकता केवल 63.5% थी। बी इंजन का मेमोरी उपयोग सबसे कम है, केवल 21MB/हजार शब्द, लेकिन इसकी कीमत यह है कि संदर्भ स्मृति विंडो केवल पहले और बाद के 3 वाक्य हैं, जिसके परिणामस्वरूप वार्तालाप सुसंगति स्कोर केवल 72.8 अंक (100 में से) है।

सी इंजन ​​ट्रांसफॉर्मर आर्किटेक्चर​​ का उपयोग करता है, जिसे विशेष रूप से मोबाइल प्रदर्शन के लिए अनुकूलित किया गया है। इसकी मॉडल संपीड़न दर 73% तक पहुंचती है, जो केवल 15MB स्टोरेज स्पेस का उपयोग करते हुए 82.4% की बुनियादी अनुवाद सटीकता बनाए रख सकती है। हमने मापा कि इसकी शब्दावली अद्यतन आवृत्ति सबसे अधिक है, मासिक रूप से 2.7 बार शब्दावली को अद्यतन करना (ए इंजन 1.2 बार, बी इंजन 0.8 बार)। लेकिन यह निरंतरता की समस्या भी लाता है, एक ही वाक्य को अलग-अलग समय पर 14.3% तक भिन्न अनुवाद मिल सकते हैं। सी इंजन की नेटवर्क निर्भरता सबसे कम है, ऑफ़लाइन मोड में भी यह 79.6% की सटीकता बनाए रख सकता है, जो ए इंजन से 33% अधिक है।

इंजन प्रकार प्रसंस्करण गति (शब्द/सेकंड) मेमोरी उपयोग (MB/हजार शब्द) ऑफ़लाइन सटीकता तकनीकी शब्द सटीकता संदर्भ स्मृति लंबाई
ए (एनएमटी) 23 38 59.8% 78.4% 8 वाक्य
बी (एसएमटी) 32 21 71.2% 63.5% 3 वाक्य
सी (हाइब्रिड) 28 29 79.6% 69.7% 5 वाक्य

​वास्तविक समय के वार्तालाप परिदृश्य​​ में, तीनों इंजनों ने स्पष्ट रूप से अलग-अलग विशेषताएं प्रदर्शित कीं। 10 राउंड से अधिक के निरंतर वार्तालापों में, ए इंजन ने सर्वनामों (वह/वह/यह) की सटीकता 88.7% पर बनाए रखी, लेकिन इसके लिए 1.8 सेकंड का लंबा प्रसंस्करण समय आवश्यक था; बी इंजन ने तेजी से प्रतिक्रिया दी (0.9 सेकंड), लेकिन सर्वनामों की सटीकता घटकर 64.3% हो गई; सी इंजन ने संतुलन हासिल किया, 1.2 सेकंड की प्रतिक्रिया समय के साथ 81.5% की सर्वनाम सटीकता।

​भाषा समर्थन स्तर​​ में भी महत्वपूर्ण अंतर हैं। ए इंजन 108 भाषाओं के बीच अनुवाद का समर्थन करता है, लेकिन वास्तविक परीक्षणों से पता चला है कि गैर-लैटिन भाषाओं के बीच अनुवाद (जैसे चीनी → अरबी) की सटीकता केवल 71.2% है; बी इंजन 35 मुख्यधारा की भाषाओं पर केंद्रित है, इन भाषाओं के बीच सटीकता 86.5% तक पहुंचती है; सी इंजन एक समझौता दृष्टिकोण अपनाता है, 64 भाषाओं का समर्थन करता है, मुख्यधारा की भाषाओं की सटीकता 83.7% है, और माध्यमिक भाषाओं की 76.2% है।

बिजली की खपत के संदर्भ में, हमने पेशेवर टूल का उपयोग करके मापा: ए इंजन प्रति हजार शब्द अनुवाद के लिए 2.7mAh बिजली की खपत करता है, बी इंजन 1.8mAh, सी इंजन 2.1mAh। तापमान का प्रभाव भी स्पष्ट है, जब फोन का सीपीयू तापमान 65°C से अधिक हो जाता है, तो ए इंजन की त्रुटि दर 12.5% बढ़ जाती है, जबकि बी/सी इंजन क्रमशः 8.3% और 6.7% बढ़ते हैं।

​प्रशिक्षण डेटा की ताजगी​​ सीधे अनुवाद की गुणवत्ता को प्रभावित करती है। ए इंजन द्वारा उपयोग किए जाने वाले प्रशिक्षण डेटा की औसत आयु 2.3 वर्ष है, जिसके कारण नए शब्दों (जैसे “मेटावर्स”) की पहचान दर केवल 55.6% है; बी इंजन का डेटा तेजी से अद्यतन होता है, औसत आयु 1.5 वर्ष है, नए शब्दों की पहचान दर 68.9% है; सी इंजन सबसे अच्छा है, औसत 9 महीने में एक बार डेटा अद्यतन करता है, नए शब्दों की पहचान दर 79.3% तक पहुंचती है। लेकिन यह लागत में भी परिलक्षित होता है, सी इंजन का क्लाउड कंप्यूटिंग शुल्क ए इंजन से 27% अधिक है।

सटीकता स्कोरिंग विधि

हमने 17 आयामों वाली एक स्कोरिंग प्रणाली विकसित की, जिसमें 1,200 समूहों के वास्तविक वार्तालापों से परीक्षण डेटा शामिल था, जिसमें 8 प्रमुख भाषा संयोजनों को शामिल किया गया था। स्कोरिंग मानदंड में ​​शाब्दिक सटीकता​​ (45% भार), ​​सिमेंटिक पूर्णता​​ (30%) और ​​सांस्कृतिक अनुकूलता​​ (25%) के तीन मुख्य संकेतक शामिल हैं। परीक्षणों से पता चला है कि सबसे अच्छा प्रदर्शन करने वाला इंजन भी सांस्कृतिक अनुकूलता आइटम पर केवल 68.5 अंक (100 में से) प्राप्त कर सका, जो दर्शाता है कि यह वर्तमान तकनीक की मुख्य बाधा है।

मात्रात्मक स्कोरिंग आयामों का विस्तृत विवरण

​शाब्दिक सटीकता​​ सबसे सख्ती से मापी जाती है, जिसमें पेशेवर BLEU-4 एल्गोरिथम का उपयोग मानव प्रूफरीडिंग के साथ किया जाता है। परीक्षणों में पाया गया कि जब वाक्य की लंबाई 15 शब्दों से अधिक हो जाती है, तो BLEU स्कोर और मानव स्कोर के बीच संबंध 0.87 से घटकर 0.63 हो जाता है, इसलिए हमने ​​खंडित मूल्यांकन विधि​​ पेश की, जिसमें लंबे वाक्यों को 3-5 शब्द इकाइयों में तोड़कर अलग-अलग स्कोर किया जाता है। उदाहरण के लिए, “मुझे कल दोपहर तीन बजे बैंक जाना है” को 4 खंडों में तोड़कर मूल्यांकन किया गया, प्रत्येक खंड का भार शब्द के भाग के अनुसार समायोजित किया गया: समय अभिव्यक्ति (25%), क्रिया (30%), संज्ञा (35%), अन्य (10%)।

​सिमेंटिक पूर्णता​​ का मूल्यांकन अधिक जटिल है, हमने 3-स्तरीय निर्णय मानक डिजाइन किए:

परीक्षण डेटा से पता चला है कि तीनों इंजन औसतन प्रति सौ शब्दों में 2.7 पहले स्तर की त्रुटियां, 4.3 दूसरे स्तर की त्रुटियां और 6.1 तीसरे स्तर की त्रुटियां उत्पन्न करते हैं। इनमें से ए इंजन ने सिमेंटिक पूर्णता में सर्वश्रेष्ठ प्रदर्शन किया, त्रुटि दर बी/सी इंजन से 18.3% कम थी।

स्कोरिंग आइटम भार ए इंजन स्कोर बी इंजन स्कोर सी इंजन स्कोर उद्योग बेंचमार्क मूल्य
शब्द सटीकता 25% 89.2 84.7 86.5 90.0
व्याकरण सटीकता 20% 92.1 88.3 90.6 93.5
सांस्कृतिक अनुकूलता 15% 68.5 62.3 65.8 75.0
प्रवाह 15% 85.7 82.4 84.9 88.0
प्रतिक्रिया गति 10% 88.3 91.2 89.7 95.0
मेमोरी खपत 10% 75.6 82.4 79.3 85.0
तकनीकी शब्द 5% 78.9 72.5 75.8 80.0

​सांस्कृतिक अनुकूलता​​ मूल्यांकन सबसे विशेष है, हमने 500 सांस्कृतिक रूप से विशिष्ट अभिव्यक्तियाँ (जैसे चीनी में “接地氣” (ज़मीन से जुड़ा हुआ), स्पेनिश में “mi media naranja” (मेरा जीवनसाथी)) एकत्र कीं, जिनका 3 मूल वक्ताओं द्वारा स्वतंत्र रूप से मूल्यांकन किया गया। परिणामों से पता चला कि इस आइटम पर शाब्दिक अनुवाद रणनीति को औसतन केवल 41.2 अंक मिले, जबकि सांस्कृतिक प्रतिस्थापन अनुवाद का उपयोग करने वाले इंजन को 68.5 अंक मिल सके। लेकिन प्रतिस्थापन अनुवाद में भी जोखिम होता है, लगभग 23.7% मामलों में अनुचित प्रतिस्थापन के कारण नई गलतफहमी पैदा होती है।

गतिशील परिदृश्य परीक्षण

​वास्तविक समय के वार्तालाप वातावरण​​ में, हमने पाया कि सटीकता वार्तालाप के चरणों के साथ घटती जाती है। 10 राउंड के वार्तालाप का परीक्षण करने के बाद, ए इंजन की सटीकता प्रारंभिक 91.2% से घटकर 83.7% हो गई, बी इंजन की 88.5% से घटकर 79.2% हो गई, और सी इंजन की 89.8% से घटकर 82.1% हो गई। यह गिरावट मुख्य रूप से दो पहलुओं से आती है:

  1. संदर्भ स्मृति का नुकसान (प्रति राउंड 1.8% की गिरावट दर)
  2. विषय परिवर्तन के कारण भ्रम (प्रत्येक परिवर्तन पर सटीकता का उतार-चढ़ाव ±12.3%)

​नेटवर्क की स्थिति का प्रभाव​​ भी महत्वपूर्ण है। जब नेटवर्क विलंबता 50ms से बढ़कर 500ms हो जाती है:

परीक्षणों में एक और महत्वपूर्ण घटना पाई गई: ​​प्लेटफ़ॉर्म अंतर​​। एक ही इंजन का प्रदर्शन आईओएस और एंड्रॉइड पर 15.2% तक भिन्न होता है, मुख्य रूप से इसके कारण:

विशेष परिदृश्य प्रसंस्करण

​संख्या और इकाई रूपांतरण​​ एक बड़ी चुनौती है। संख्यात्मक सामग्री वाले 200 समूहों का परीक्षण:

​वॉयस मैसेज ट्रांसक्रिप्शन​​ में अधिक समस्याएं हैं, परीक्षणों से पता चला है:

相关资源
限时折上折活动
限时折上折活动