Nothing Amolded Glass Digital Watch

ज्यूरिख में हुआवेई की कंप्यूटिंग सिस्टम लैब ने एक पेश किया है नया ओपन-सोर्स परिमाणीकरण विधि आउटपुट गुणवत्ता का त्याग किए बिना मेमोरी की मांगों को कम करने के उद्देश्य से बड़ी भाषा मॉडल (LLMS) के लिए।

तकनीक, कहा जाता है सिनक (सिंकहॉर्न-नॉर्मलाइज्ड परिमाणीकरण)तेजी से, अंशांकन-मुक्त, और मौजूदा मॉडल वर्कफ़्लो में एकीकृत करने के लिए आसान होने के लिए डिज़ाइन किया गया है। इसे करने के लिए कोड Huawei Research टीम द्वारा उपलब्ध कराया गया है Github और गले का चेहरा एक अनुमेय, एंटरप्राइज-फ्रेंडली अपाचे 2.0 लाइसेंस के तहत, संगठनों को इसे लेने और उपयोग करने, इसे संशोधित करने और इसे व्यावसायिक रूप से तैनात करने की अनुमति देता है-सभी मुफ्त में।

विभिन्न आकारों के मॉडल के पार, SINQ द्वारा स्मृति उपयोग में कटौती करता है 60-70%वास्तुकला और बिट-चौड़ाई के आधार पर।

यह उन मॉडलों को सक्षम करता है जिन्हें पहले चलने के लिए> 60 जीबी मेमोरी की आवश्यकता होगी ~ 20 जीबी सेटअपएकल उच्च-अंत GPU या यहां तक ​​कि मल्टी-जीपीयू उपभोक्ता-ग्रेड सेटअप पर बड़े मॉडल चलाने के लिए महत्वपूर्ण एनबलर।

यह उन मॉडलों को चलाना संभव बनाता है जो पहले उच्च-अंत एंटरप्राइज जीपीयू की आवश्यकता होती है-जैसे कि एनवीडिया के ए 100 या एच 100- में काफी अधिक किफायती हार्डवेयर, जैसे कि एकल एनवीडिया गेफोरस आरटीएक्स 4090 (लगभग $ 1600), जैसे एंटरप्राइज़ हार्डवेयर की तरह A100 80GB ($ 19,000) या और भी H100 इकाइयां कि $ 30,000 से अधिक

क्लाउड इन्फ्रास्ट्रक्चर का उपयोग करने वाली टीमों के लिए, बचत समान रूप से मूर्त है। A100- आधारित उदाहरणों में अक्सर $ 3-4.50 प्रति घंटे की लागत होती है, जबकि RTX 4090 जैसे 24 GB GPU प्रति घंटे $ 1-1.50 प्रति घंटे के लिए कई प्लेटफार्मों पर उपलब्ध हैं।

समय के साथ, विशेष रूप से विस्तारित निष्कर्ष कार्यभार के लिए, यह अंतर बढ़ सकता है लागत में कमी के कारण हजारों डॉलरसाथ ही छोटे समूहों, स्थानीय वर्कस्टेशन, या उपभोक्ता-ग्रेड सेटअप पर एलएलएम परिनियोजन को अनलॉक करना भी पहले मेमोरी द्वारा विवश किया गया था।

एलएलएम की मेमोरी चैलेंज से निपटना

बड़े मॉडल चलाने के लिए अक्सर प्रदर्शन और आकार के बीच समझौते की आवश्यकता होती है।

व्यवहार में, तंत्रिका नेटवर्क उपयोग करते हैं दशमलव संख्याएं वेट और सक्रियण दोनों का प्रतिनिधित्व करने के लिए। एक फ्लोटिंग-पॉइंट संख्या मानों की एक विस्तृत श्रृंखला (बहुत छोटे, बहुत बड़े, भिन्नात्मक भागों के साथ) व्यक्त कर सकती है।

यह लचीलापन सहायक है क्योंकि प्रशिक्षण और अनुमान के दौरान, वजन और सक्रियता नाटकीय रूप से पैमाने पर भिन्न हो सकती है। फ्लोटिंग-पॉइंट का उपयोग करने से मॉडल को ठीक से समायोजित किया जाता है। (उदाहरण के लिए, एक वजन 0.0023 या 123.45 हो सकता है, और फ्लोटिंग-पॉइंट दोनों सभ्य सटीकता के साथ कैप्चर कर सकता है।)

परिमाणीकरण-एक विधि जो मॉडल वेट की सटीकता को कम करती है-मेमोरी के कम उपयोग के लिए एक व्यावहारिक मार्ग प्रदान करती है, लेकिन आमतौर पर मॉडल की गुणवत्ता में ट्रेड-ऑफ के साथ आता है, विशेष रूप से 4-बिट सटीक और नीचे।

जब आप उन फ्लोटिंग-पॉइंट मानों को कम-सटीक स्वरूपों (जैसे 8-बिट पूर्णांक) में परिवर्तित करते हैं, तो आप उन्हें अनुमानित कर रहे हैं।

इसका मतलब है कि आप कम बिट्स के साथ स्टोर और कंप्यूट करते हैं, जो तेज और अधिक मेमोरी-कुशल है-लेकिन आप निष्ठा खोने का जोखिम उठाते हैं (यानी छोटी त्रुटियों का परिचय)।

ट्रिक रूपांतरण को सावधानी से करना है ताकि मॉडल का व्यवहार लगभग समान हो, भले ही आंतरिक रूप से यह उन भार और सक्रियता के मोटे अनुमानों के साथ काम कर रहा हो।

SINQ एक प्लग-एंड-प्ले समाधान शुरू करके इन दर्द बिंदुओं को संबोधित करता है जो कम-सटीक सेटिंग्स में भी मजबूत प्रदर्शन प्रदान करता है-बिना अंशांकन डेटा या अंतर-परत निर्भरता की आवश्यकता के बिना।

SINQ कैसे काम करता है

SINQ दृष्टिकोण दो मुख्य नवाचारों का परिचय देता है:

  1. दोहरे अक्ष स्केलिंग: मैट्रिक्स को मात्रा देने के लिए एकल पैमाने के कारक का उपयोग करने के बजाय, SINQ पंक्तियों और स्तंभों के लिए अलग स्केलिंग वैक्टर का उपयोग करता है। यह आउटलेयर के प्रभावों को कम करने में मदद करता है और परिमाणीकरण त्रुटि को मैट्रिक्स में अधिक लचीले ढंग से वितरित करने की अनुमति देता है।

  2. Sinkhorn-knopp- शैली सामान्यीकरण: सिंकहॉर्न पुनरावृत्तियों से प्रेरित एक तेज एल्गोरिथ्म का उपयोग मैट्रिक्स में पंक्तियों और स्तंभों के मानक विचलन को सामान्य करने के लिए किया जाता है। यह कम से कम करने में मदद करता है कि लेखकों को “मैट्रिक्स असंतुलन” क्या कहा जाता है, एक नया प्रॉक्सी मीट्रिक दिखाया गया है जो कि क्वांटाइजेशन प्रदर्शन में सुधार के लिए कर्टोसिस जैसे विकल्पों की तुलना में अधिक प्रभावी है।

इन दो विशेषताओं का संयोजन SINQ को कई बेंचमार्कों में राउंड-टू-नीरस्टेस्ट (RTN), HQQ, और Hadamard- आधारित परिमाणीकरण जैसी अन्य अंशांकन-मुक्त तकनीकों को बेहतर बनाने की अनुमति देता है।

प्रदर्शन और संगतता

SINQ का मूल्यांकन आर्किटेक्चर और मॉडलों की एक विस्तृत श्रृंखला में किया गया है, जिसमें QWEN3 श्रृंखला, लामा और दीपसेक शामिल हैं।

Wikitext2 और C4 जैसे बेंचमार्क पर, SINQ लगातार बेसलाइन विधियों की तुलना में लगातार और फ्लिप दरों को कम करता है, अक्सर कैलिब्रेटेड समाधानों के प्रदर्शन के करीब पहुंचता है या मेल खाता है।

यह NF4 जैसे गैर-समान मात्रा में परिमाणीकरण योजनाओं का भी समर्थन करता है और इसे AWQ जैसे अंशांकन विधियों के साथ जोड़ा जा सकता है, जिससे वेरिएंट A-SINQ हो जाता है। कैलिब्रेटेड सेटिंग्स में, ए-सिनक पूर्ण-सटीक मॉडल के साथ अंतर को आगे बढ़ाता है।

रनटाइम दक्षता के संदर्भ में, SINQ ने HQQ के रूप में लगभग दोगुना तेजी से मॉडल की मात्रा निर्धारित की और AWQ की तुलना में 30 गुना अधिक तेजी से। यह अनुसंधान और उत्पादन वातावरण दोनों के लिए इसे अच्छी तरह से अनुकूल बनाता है जहां परिमाणीकरण समय एक व्यावहारिक बाधा है।

खुला स्रोत और उपयोग करने में आसान

Huawei ने SINQ को एक अनुमेय, एंटरप्राइज-फ्रेंडली अपाचे 2.0 लाइसेंस के तहत एक ओपन-सोर्स प्रोजेक्ट के रूप में जारी किया है, जिसमें कार्यान्वयन निर्देश और github पर उपलब्ध प्रजनन उपकरण उपलब्ध हैं:

रिपॉजिटरी में कोड की कुछ पंक्तियों के साथ गले लगाने वाले फेस मॉडल को मात्रा देने के लिए समर्थन शामिल है, साथ ही साथ मात्राबद्ध वजन को बचाने और फिर से लोड करने के लिए उपकरण भी शामिल हैं। डिफ़ॉल्ट सेटिंग्स मेमोरी बचत और सटीकता के बीच एक संतुलन प्रदान करती हैं, और उपयोगकर्ता अपनी आवश्यकताओं के आधार पर बिट-चौड़ाई, टाइलिंग रणनीति और समूह आकार जैसे मापदंडों को अनुकूलित कर सकते हैं।

लेखक के माध्यम से मूल्यांकन एकीकरण भी प्रदान करते हैं lm-eval पुस्तकालय और निकट भविष्य में हगिंग फेस हब पर पूर्व-क्वांटिक मॉडल जारी करने की योजना।

आगे देख रहा

उपभोक्ता-ग्रेड हार्डवेयर पर बड़े मॉडल चलाने की बढ़ती मांग के साथ, परिमाणीकरण एक आवश्यक उपकरण बन रहा है। SINQ का उद्देश्य LLM परिनियोजन के लिए प्रवेश अवरोध को कम करना है, जिससे डेवलपर्स और शोधकर्ताओं को गुणवत्ता या संगतता में प्रमुख व्यापार-बंदों के बिना मॉडल को कुशलता से सिकोड़ने में सक्षम बनाया जा सकता है।

आगे के अपडेट-जिसमें फेस ट्रांसफॉर्मर और पूर्व-क्वांटिक किए गए मॉडल रिलीज के साथ एकीकरण शामिल है-योजना बनाई गई है, जिससे यह परिमाणीकरण स्थान में देखने के लिए एक परियोजना बन जाती है।

Scroll to Top