Auteur: Yu Huiru, redacteur: Luo Lijuan
Afbeeldingsbron: gegenereerd door Unbounded AI-tool
De golf van grootschalige modellen die door internet en technologiekringen op gang is gebracht, heeft een nieuwe strijd ingeluid.
Sinds maart dit jaar hebben meer dan 20 binnenlandse bedrijven het grootschalige modelspoor betreden. Van de release van Baidu’s “Wen Xin Yi Yan” en Ali’s “Tongyi Qianwen”, tot 360’s “Red Boy”, SenseTime’s “Daily New”, NetEase’s “Yuyan”, HKUST Xunfei’s “Spark”, Kunlun Wanwei De lancering van “Tiangong” en anderen, en dan de previews van Tencent’s “Hunyuan”, JD.com’s “ChatJ” en Huawei’s “Pangu”. Internetreuzen en technologiebedrijven hebben hun “spieren” getoond en niemand wil achterblijven in deze melee van grote modellen.
In deze haast is de ontwikkelingsfase van grote modellen ingegaan van “algemeen” naar “verticaal”.
Rekenkracht, grootschalige data en dure talenten zijn voor de meeste bedrijven obstakels geworden om het algemene model te betreden. Eisen zoals diepgaande aanpassing en brede scènetoepassingen hebben echter geleid tot de ontwikkeling van grootschalige modellen in binnenlandse verticale velden.
In de afgelopen twee maanden zijn veel kleine en middelgrote ondernemingen in sectoren zoals medische zorg, financiën, onderwijs en schilderkunst die gebruikersgegevens hebben verzameld, begonnen hun eigen verticale modellen te trainen op basis van de “basis” van grote binnen- en buitenlandse modellen. Tegelijkertijd hebben bedrijven die modellen voor algemene doeleinden hebben uitgebracht, ook modellen voor specifieke industrieën gelanceerd.
Als het grote model voor algemeen gebruik de eerste fase is van grootschalige modelontwikkeling, dan kan de toepassing van verticale scènes worden beschouwd als de “strijd op het middenveld”. Landingswaarde is in verschillende industrieën gerealiseerd.
01 Routedifferentiatie
In slechts twee maanden tijd is differentiatie ontstaan.
Tijdens de Wenxin Large-scale Model Technology Exchange Conference op 23 mei introduceerde Xin Zhou, general manager van Baidu Smart Cloud AI en Big Data Platform: “Wenxin Qianfan Large-scale Model Platform is een grootschalige modelproductie op ondernemingsniveau platform dat door Baidu aan klanten wordt aangeboden. Het platform biedt niet alleen grootschalige modelservices, waaronder Wenxin Yiyan en grootschalige modelservices van derden, maar biedt ook een complete toolketen voor grootschalige modelontwikkeling en -toepassing. “
Dat wil zeggen, Wenxin Qianfan kan Wenxin Yiyan gebruiken als de kern om grootschalige modelservices te bieden om klanten te helpen bij het transformeren van producten en productieprocessen; ondernemingen kunnen ook hun eigen exclusieve grootschalige modellen ontwikkelen op basis van open-source of gesloten bron grootschalige modellen op Wenxin Qianfan.
Veel mensen in de branche die in contact zijn geweest met All-Weather Technology zijn van mening dat de huidige binnenlandse grootschalige modelbaan voornamelijk uit drie categorieën bestaat: de ene is een groot model voor algemeen gebruik dat wordt vergeleken met GPT, en het bedrijf richt zich op de basislaag; de andere is om verticale modellen te trainen op basis van open source grote modellen. Het ene type groot model, gericht op ondernemingen in verticale industrieën, het andere type is een puur applicatiebedrijf dat zich richt op specifieke toepassingen.
“In het begin stortte iedereen zich op het algemene model. Nu is er differentiatie ontstaan. Of het nu gaat om het opdelen in specifieke branches, of om direct de interface voor productbediening aan te roepen zonder onderzoek en ontwikkeling te doen, deze trend wordt steeds duidelijker.” Jinshan Software Li Changliang, vice-president en hoofd van de business unit kunstmatige intelligentie, en een ondernemer op het gebied van AI, vertelde All Weather Technology.
Grote modellen voor algemeen gebruik hebben te maken met uitdagingen zoals grote rekenkrachtvereisten, hoge training- en inferentiekosten en slechte gegevenskwaliteit. Een succesvol grootschalig model voor algemeen gebruik dat commercieel kan worden geëxporteerd, vereist dat fabrikanten over kernvoordelen beschikken, zoals full-stack grootschalige modeltraining en R&D-mogelijkheden, ervaring met het landen van bedrijfsscenario’s, AI-beveiligingsmaatregelen en ecologische openheid.
Volgens Zhu Yong, vice-president van Baidu Smart Cloud, zijn er misschien “maar een paar” bedrijven met basismodellen (grootschalige modellen voor algemeen gebruik), maar zullen er veel grootschalige modellen in professionele velden op groeien.
“De kosten van het trainen van een basismodel zijn erg hoog. Om een groot model van honderden miljarden dollars te maken, is een rekenkracht nodig van meer dan 10.000 kaarten in een enkele machinegroep. ” Zhu Yong zei dat vanuit het perspectief van binnenlandse en buitenlandse bedrijven, er zijn niet zo veel bedrijven die echt algemene modellen maken. Integendeel, de kosten en middelen die nodig zijn om een (verticaal) domeinmodel te trainen, zijn veel lager dan wanneer u een algemeen model vanaf nul moet doen.
Daarom hebben de meeste bedrijven vanuit het perspectief van bedrijfslogica niet de mogelijkheid om grootschalige modellen voor algemeen gebruik te maken, zijn reuzen meer geschikt voor grootschalige modellen voor algemeen gebruik en zijn bedrijven met een rijke verzameling van scènegegevens geschikter voor verticale-domein modellen.
Het verticale grootschalige model lost voornamelijk de behoeften van de industrie grondig op, dat wil zeggen dat de onderneming de “industriële versie van GPT” traint die geschikt is voor zichzelf in het veld waar ze goed in is. De inhoud die door dit soort grote modellen wordt gegenereerd, sluit beter aan bij de behoeften van specifieke verticale scenario’s en is van hogere kwaliteit.
Op dit moment is al te zien dat er veel verticale modellen worden toegepast in financiële, medische, transactie- en andere scenario’s. Op basis van zijn eigen rijke financiële gegevensbronnen en omscholing op basis van het GPT-3-framework heeft Bloomberg bijvoorbeeld een financieel specifiek groot model Bloomberg GPT ontwikkeld.
Naast de bovenstaande twee veelvoorkomende modellen is er momenteel een bedrijf dat gespecialiseerd is in toepassingen op het binnenlandse grootschalige modelondernemerschapsspoor.Ze hebben geen onderzoeks- en ontwikkelingsteam en bellen interfaces van bestaande grote modellen om producten en operaties te doen.
02 Algemeen VS verticaal domein
Reuzen die grootschalige modellen voor algemene doeleinden ontwerpen, hebben ecologie nodig. Daarom hopen zowel Baidu als Ali de “basis van grote modellen” te worden om industrieën en ondernemingen sterker te maken. Maar niet alle bedrijven hebben deze mogelijkheid.
“De uitdagingen op het gebied van rekenkracht en energieverbruik van de bestaande grote modellen zullen aanleiding geven tot veel werk om zich te ontwikkelen in de richting van domeinspecifieke en lichtgewicht grote modellen, vooral op het gebied van financiën, onderwijs, medische zorg en transport. Veel Zeng Dajun, adjunct-directeur van het Institute of Automation, Chinese Academy of Sciences, zei op de 6e Digital China Construction Summit die onlangs werd gehouden.
Vergeleken met de hoge ontwikkel- en opleidingskosten van grote modellen voor algemeen gebruik, kan bij de ontwikkeling van verticale modellen op basis van open source-modellen rekening worden gehouden met zowel ontwikkelingskosten als gegevensbeveiliging.
Naast de uitdagingen versnellen de werkelijke scènevereisten ook het proces van verticalisatie van grote modellen.
“China is goed in innovatie in bedrijfsmodellen en toepassingen”, aldus een ondernemer op het gebied van AI. Tegelijkertijd is er geen tekort aan landingsscenario’s voor AI-modellen, rijke data en enthousiasme voor het najagen van trends. Daarom heeft de domeinisering van grote modellen zich in slechts twee maanden tijd snel ontwikkeld.
Neem Baidu Wenxin Qianfan’s “AI grootschalige modelbasis” als voorbeeld. De bedrijven die momenteel gezamenlijk testen en ontwikkelen, zijn meestal afkomstig uit sectoren met een hoge informatisering en technologiepenetratiegraad, zoals de financiële sector, de energie-industrie en de pan-internetindustrie. .
“Verticale modellen worden getraind op basis van grote modellen voor algemeen gebruik. Afgezien van grote modellen voor algemeen gebruik, bestaan er geen verticale modellen. ” Xin Zhou zei dat verticale modellen de nadruk leggen op domeinkennis. Doe instructie-leren voor taken op dit gebied .
De branche is anders, de scène is anders en het leren van instructies is ook heel anders. De pan-internetindustrie besteedt bijvoorbeeld meer aandacht aan het effect van marketing en aanbeveling, en het financiële veld besteedt meer aandacht aan het effect van risicobeheersing, geloofwaardigheid en marketing.
Volgens Li Changliang is het grootste verschil tussen verticale grootschalige modellen en grootschalige modellen voor algemene doeleinden dat verticale grootschalige modellen lagere vereisten hebben op het gebied van input van middelen en kosten, maar de aanvullende vereiste is de kennis van de industrie. , dat wil zeggen kennis van deze branche. De eisen zijn toegenomen.
In termen van gegevens, in specifieke verticale velden, hebben bedrijven privégegevens, wat een kernconcurrentievermogen en een natuurlijk voordeel is dat andere bedrijven niet met geld kunnen kopen.
In termen van rekenkracht is het verticale grootschalige model dat wordt gerealiseerd door het afstemmen van het grootschalige model voor algemene doeleinden een “geometrische daling” in vergelijking met het grootschalige model voor algemene doeleinden.
Volgens de berekening van China National Finance Securities zijn de gerelateerde rekenkrachtkosten in de fase van modelafstemming, vanwege het kleine trainingsniveau, dat slechts 10.000 is, in vergelijking verwaarloosbaar.
Neem als voorbeeld de Alpaca die is uitgebracht door Stanford University in maart 2023. Dit is een conversatietaalmodel gebaseerd op de LLaMA-7B-basis en heeft 52.000 instructies toegepast om het model te verfijnen. Het model is verfijnd op basis van 8 A100’s, de fijnafstemming duurt 3 uur en de rekenkrachtkosten zijn niet hoger dan 300 yuan.
Natuurlijk kunnen niet alle bedrijven finetunen op basis van het algemene model.
Als we Baidu Wenxin Qianfan als voorbeeld nemen, moet aan twee voorwaarden worden voldaan om uw eigen grootschalige model te maken door middel van fijnafstemming op dit platform: of de onderneming hoogwaardige gegevens heeft opgeslagen; hoogwaardige gegevens worden gespecificeerde gegevens voor gespecificeerde scherpstellen.
Met andere woorden, aan de bedrijfskant hebben die bedrijven met enorme branchegegevens en branchekennis een grotere kans om een verticaal model te maken.
“Omdat er professionele gegevens zijn, branchekennis, gecombineerd met verschillende soorten domeinmodellen, zullen deze domeinmodellen in de toekomst zeer welvarend zijn en zeer welvarende domeintoepassingen op het hoogste niveau ondersteunen”, zei Zhu Yong.
03 Lopen op “twee benen”
Het model van “GPT + industrie-expertsysteem” heeft een nieuw verticaal domeinmodel opgeleverd.
De grootste waarde van het grote model ligt in de innovatie van het bedrijfsmodel, de transformatie van elke schakel van de bedrijfsorganisatie en het effect van kostenverlaging en verhoging van de efficiëntie. Dit is ook de reden waarom bedrijven de een na de ander in het grote model zijn gestapt.
De open source van grote modellen zoals het LLaMA-model van Meta heeft de ontwikkeling van verticale modellen versneld.
Volgens openbare informatie wordt LLaMA getraind op basis van open source datasets in het algemene veld.De trainingsgegevens dekken 40 talen en bevatten ongeveer 1,4 biljoen tokens. Toen het LLaMA-model eenmaal was uitgebracht, was het volledig open source en trok het een groot aantal AI-ontwikkelaars aan.
Als een volledig open-source toonaangevend model is LLaMA zeer flexibel, configureerbaar en generaliseerbaar, en kan het worden gebruikt als algemene basis voor verticale AI-modellen.
Hoewel het LLaMA-model een klein aantal parameters heeft, doet het niet onder voor grote taalmodellen zoals PaLM en GPT-3. En de kleine parameterschaal vermindert de moeilijkheidsgraad van de landingsinzet en secundaire ontwikkeling van het LLaMA-model aanzienlijk.
“Op basis van het open source-model van LLaMA voeden we onze eigen gegevens en debuggen we langzaam, en dan kunnen we het effect debuggen dat ik wil.” Een ondernemer in het AIGC-veld vertelde All Weather Technology.
All-Weather Technology begrijpt dat veel bedrijven momenteel de strategie van “lopen op twee benen” toepassen, dat wil zeggen, terwijl ze toegang hebben tot de grote model-API, terwijl ze het model op het open source-model verfijnen, vormen de twee een feedbackketen om de verbetering van hun respectievelijke capaciteiten Creëer een gesloten kringloop van innovatie.
“Het aanroepen van de API-interface is ook een effectief middel om gegevensbronnen te verkrijgen.” Li Changliang zei dat dit deel van de gegevens nuttig kan zijn wanneer de onderneming het model in de toekomst traint.
Volgens veel mensen in de branche is het verticale grootschalige model voor alle lagen van de bevolking een geheel nieuwe productiviteit en kan het verticale grootschalige model van elke bedrijfstak een significante of zelfs subversieve impact hebben op de branche .
Vermeldenswaard is dat in de primaire markt startende bedrijven die zich richten op grootschalige verticale modellen ook “schatten” zijn in de ogen van investeringsinstellingen.
Op de China Investment Annual Conference 2023 die niet zo lang geleden werd gehouden, noemde Wang Wei, een senior partner van Paradise Silicon Valley, “grote modellen in verticale velden, projecten met branchegegevens en branchekennis” als een van zijn belangrijkste investeringsgebieden.
Informatiebron: samengesteld uit 8BTC door 0x Information.Copyright behoort toe aan de auteur, mag zonder toestemming niet worden gereproduceerd