用户身份验证的令牌——Token - 知乎
用户身份验证的令牌——Token - 知乎首发于人工智能大数据学习沟通切换办法写文章登录/注册用户身份验证的令牌——Token企通查北京奥德塔数据科技有限公司Token是什么?所谓的Token,其实便是服务端生成的一串加密字符串、以作客户端进行恳求的一个“令牌”。当用户第一次运用账号暗码成功进行登录后,服务器便生成一个Token及Token失效时刻并将此回来给客户端,若成功登陆,今后客户端只需在有用时刻内带上这个Token前来恳求数据即可,无需再次带上用户名和暗码。图:来源于网络拿实践进程举例,当你下载QQ或微信后第一次用账号和暗码成功登录后,Token就为咱们免去了每次翻开运用都要输入账号跟暗码的进程。为什么要运用Token?为什么要运用Token?这个问题其实很好答复——由于它能处理问题!当下用户对产品的运用体会要求在逐步进步,从产品体会方面来讲,Token带来的体会更简略能让用户承受。那么Token都能够处理哪些问题呢?Token具有随机性、不行猜测性、时效性、无状况、跨域等特色。 Token彻底由运用办理,所以它能够避开同源战略Token能够防止CSRF进犯Token能够是无状况的,能够在多个服务间同享Token是在服务端发生的。假如前端运用用户名/暗码向服务端恳求认证,服务端认证成功,那么在服务端会回来Token给前端。前端能够在每次恳求的时分带上Token证明自己的合法位置。假如这个Token在服务端耐久化(比方存入数据库),那它便是一个永久的身份令牌。当然提到这儿咱们或许会想到,用服务器的session_id存储到cookies中也能做到,为什么非要用Token呢?网上有许多比照Token和session的文章,在此就不再赘述。其实小编觉得,假如是开发web运用的话,用两者都能够,但假如是开发API接口,前后端别离,最好运用Token,由于session+cookies是依据web的,但针对API接口或许会考虑到移动端,app是没有cookies和session的。Token的生命周期1)用户未登录用户履行注册/登录→一旦根底数据校验成功,后端生成Token,而且Token包括此次注册/登录用户的用户名并经过JsonResponse回来给前端→前端拿到回来的Token后,存入浏览器本地存储2)用户每次拜访博客页面从本地存储中拿出Token→JS将Token 放入request的Authorization头,发送http恳求向后端索要数据→服务器接到前端恳求(当时URL加了loging_check,而且恳求办法在methods参数中),进行校验→从requestAuthorization头拿出Token→校验→校验不经过,回来前端反常代码/校验经过,正常履行对应的视图函数→前端一旦接到关于Token的反常码,则删去本地存储中的Token,且将用户转至登录界面。怎样设置Token的有用期?其实Token作为一个概念模型,开发者彻底能够针对自己开发的运用自界说Token,只需能做到不让不法分子钻体系漏洞即可。那么为Token设置有用期还有必要吗?关于这个问题,咱们无妨先看两个比方:例1:登录暗码登录暗码一般要求定时改动暗码,以防止走漏,所以暗码是有有用期的。例2:安全证书SSL安全证书都有有用期,意图是为了处理撤消的问题。所以无论是从安全的视点考虑,仍是从撤消的视点考虑,Token都需求设有用期。那么,Token的有用期多长适宜呢?一般来说,依据体系安全的需求当然需求尽或许的短,但也不能短得离谱:假如在用户正常操作的进程中,Token过期失效要求从头登录,用户体会岂不是很糟糕?为了处理在操作进程不让用户感到Token失效的问题,有一种方案是在服务器端保存Token状况,用户每次操作都会主动改写(推延)Token的过期时刻。如此操作会存在一个问题,即在前后端别离、单页App等状况下,每秒或许主张屡次恳求,假如每次都去改写过期时刻会发生十分大的价值,同样地,假如Token的过期时刻被耐久化到数据库或文件,价值就更大了。所以一般为了提高功率、削减耗费,会把Token的过期时保存在缓存或许内存中。另一种方案是运用RefreshToken,它能够防止频频的读写操作。这种方案中,服务端无需改写Token的过期时刻,一旦Token过期,就反应给前端,前端运用RefreshToken恳求一个全新Token持续运用。这种方案中,服务端只需求在客户端恳求更新Token的时分对RefreshToken的有用性进行一次检查,大大削减了更新有用期的操作,也就防止了频频读写。当然RefreshToken也是有有用期的,可是这个有用期就能够长一点了。运用 Token 和 Refresh Token 的时序图如下:1)登录 图:来源于网络2)事务恳求 图:来源于网络3)Token 过期,改写 Token 图:来源于网络参阅文献:发布于 2021-01-14 10:19tokenWeb 运用HTTP附和 917 条谈论共享喜爱保藏恳求转载文章被以下专栏录入人工智能大数据学
什么是token?你是怎样了解token? - 知乎
什么是token?你是怎样了解token? - 知乎切换办法写文章登录/注册什么是token?你是怎样了解token?星光说日常共享丨学习干货丨种草答主1、Token的引进:Token是在客户端频频向服务端恳求数据,服务端频频的去数据库查询用户名和暗码并进行比照,判别用户名和暗码正确与否,并作出相应提示,在这样的布景下,Token便应运而生。2、Token的界说:Token是服务端生成的一串字符串,以作客户端进行恳求的一个令牌,当第一次登录后,服务器生成一个Token便将此Token回来给客户端,今后客户端只需带上这个Token前来恳求数据即可,无需再次带上用户名和暗码。3、运用Token的意图: Token的意图是为了减轻服务器的压力,削减频频的查询数据库,使服务器愈加强健。发布于 2021-03-31 23:32客户端token服务端附和 342 条谈论共享喜爱保藏恳求
你真的懂Token吗? - 知乎
你真的懂Token吗? - 知乎切换办法写文章登录/注册你真的懂Token吗?威客星球重塑用户价值生态,链接人与数据区块链中,有许多关于数字钱银的说法,包括「Coin」「Token」「Cash」,是不是傻傻分不清楚?今日威客君就给咱们整理一下关于Token的那些事。什么是Token?Blockchain译为「区块链」,而Token现在最倍承受的翻译便是「通证」,意思是便是「可流转的加密数字权益证明」。事实上,钱银即权力,钱银即政治,钱银权力有必要归于国家。所以 Token代什么都简略,便是代钱银难,没有国家的授权支撑和信誉背书,就很难有归于大多数人的一致,所以之前许多人把Token翻译成「代币」仅仅掩耳盗铃。事实上Token的原意是“令牌”,是服务端生成的一串字符串,作为客户端进行恳求的一个标识。当用户第一次登录后,服务器生成一个token并将此token回来给客户端,今后客户端只需带上这个token前来恳求数据即可,无需再次带上用户名和暗码。简略Token的组成:Uid(用户仅有的身份标识)+Time(当时时刻的时刻戳)+Sign(签名,Token的前几位以哈希算法紧缩成的必定长度的十六进制加密字符串)。现在咱们所说的Token是指依据区块链而生成的Token,之所以被广泛知道,是以太坊及其缔结的 ERC20规范。依据这个规范,任何人都能够在以太坊上发行自界说的Token,这个Token能够代表任何权益和价值。敲黑板,划要点:现在用Token来作为代币权益证明进行ICO(之前被广为称道的初次“代币”发行)是一个遍及的做法,但许多以圈钱为意图的项目所进行的ICO其实危险很大。由此咱们也知道到,其完结在市面上盛行的“加密数字钱银”只不过是一种特别的Token。区块链Token的三个要素a.数字权益证明,也便是说通证有必要是以数字办法存在的权益凭据,它有必要代表的是一种权力,一种固有和内涵的价值b.加密,也便是说通证的实在性、防篡改性、维护隐私等才干,由暗码学予以确保c.可流转,也便是说通证有必要能够在一个网络中活动,然后随时随地能够验证。其间一部分通证是能够买卖、兑换的事实上,通证能够代表悉数权益证明,从身份证到学历文凭,从钱银到收据,从钥匙、门票到积分、卡券,从股票到债券,人类社会悉数权益证明,都能够用通证来代表。Token和Coin的差异Coin,是预埋在体系里边,为体系作业的激励机制。第二,Coin是区块链上面记帐的符号,Coin也成为了一种通用的钱银,一切的艾西欧都是以自己发行的Token去换比特币或许去换以太币。Coin没有运用场景,匿名,发行的办法也不同,在某种程度下,也被作为付出东西,比方说日本,认可了比特币。Token是智能合约的产品,有更多的运用场景。实践上现在归于Token的代币远远多于COIN,这要归功于以太坊近些年的成功。但Token的功用往往不仅仅付出,而是在特定区块链生态中发挥奖赏、耗费、等各种功用性。Token的实在价值取决于所属区块链项目运用落地之后所发生的价值(说白了,在项目没有落地之前Token是没有价值的。现在就没有几个区块链项目有实践的运用,所以大多数的Token都是没有价值的。或许换个你更简略承受的说法,你现在持有的大部分Token的价值都仅仅是依据他们的潜力!几年后项目落地了价值水涨船高,但更大的概率是彻底归零!现在最有价值的Token,自然是Eth。一个优异的Token在取得群众的认可后甚至能够担当起Coin的效果。这也便是为什么Eth会成为比特币以外的第二大虚拟钱银。Token的分类证券型代币(Security Token)证券型代币是指契合联邦证券法的数字财物。浅显地说,它们是数字财物(代币)与传统金融产品的交汇点——一种改善旧事物的新技能。假如咱们把比特币这样的加密钱银称之为“可编程钱银”,那么证券型代币则能够被称为“可编程一切权”版别的代币,也便是其一切权下的任何财物都能够并将被代币化(包括揭露募股和私募股权、债款、不动产等)。实用型代币(Utility Token)也能够称为功用型代币,这种代币为用户供给对产品或服务的拜访权。实用型令牌代表的是出于对渠道或许底层协议的一种拜访或许运用权力而购买(扫除套利者),运用的是不受监管的众筹办法。财物型代币(Equity Token)财物型代币是依据以太坊智能合约技能,也被看作是最有出路的运用之一。草创公司能够经过ICO发行自己的代币,也能够视作公司的财物权益,这关于草创企业来说是一件功德,由于这样草创公司进入金融商场的门槛将大大下降。这样一来能使得一般出资者更简略经过购买其代币来参加出资,此外,在区块链的通明机制下,出资者能够在公司运转中发挥出更活跃的效果。但由于现在缺少监管,很少有草创公司企图出售这种股权类的代币,法令对其界定很含糊公司一般不敢糊弄。可是,特拉华州最近经过了一项法案,前史性地供认运用区块链作为创建和办理企业记载的一种办法,这就使依据区块链的股票买卖有了极大的或许性。因而,财物代币在加密金融职业中扮演中心人物或许仅仅时刻问题。看了这么多,课后问题:FCoin代币是Coin仍是Token?修改于 2018-07-13 13:41区块链(Blockchain)比特币 (Bitcoin)附和 21 条谈论共享喜爱保藏恳求
解读AI大模型,从了解token开端 - 知乎
解读AI大模型,从了解token开端 - 知乎切换办法写文章登录/注册解读AI大模型,从了解token开端AI小智大众号:AI小智解读AI大模型,从了解token开端前次一文中,我依据结合许多示例及可视化的图形手法给咱们科普了AI大模型的相关算法和中心概念。可是收到不少非技能布景的小伙伴反应,相关的算法内容的解说技能性仍是太强,很难彻底了解。所以这次,题主从最根底的概念“token”着手,越过了杂乱的算法逻辑,这次必定让你树立起对AI大模型作业原理的明晰认知。什么是token?最小的语义单元你或许会猎奇,大规划言语模型是怎样作业的呢?它们是怎样从数据中学习到言语的呢?它们是怎样依据输入来生成合理的文本接连的呢?为了答复这些问题,咱们需求从最根底的概念开端讲起:token。在自然言语处理(NLP)中,token是指文本中最小的语义单元。比方,一个语句能够被切割成若干个单词,每个单词便是一个token。例如,“I love you”这个语句能够被切割成三个token:“I”,“love”和“you”。token能够协助咱们把文本分解成更简略处理和剖析的部分。可是,并不是一切的言语都能够用空格来区别单词。有些言语,比方中文、日语等,没有显着的单词鸿沟。在这种状况下,咱们需求用一些更杂乱的办法来进行tokenization(分词)。比方,咱们能够用一些规矩或许核算模型来判别哪些字或许字组合构成了一个有意义的token。例如,“我喜爱你”这个语句能够被切割成两个token:“我”和“爱你”。当然,这种办法并不完美,有时分会呈现过错或许歧义。除了单词之外,还有一些其他的符号也能够被视为token。比方,标点符号、数字、表情符号等等。这些符号也能够传达一些信息或许情感。例如,“I love you!”和“I love you?”就不同于“I love you”,由于感叹号和问号表达了不同的口气和情绪。总归,token便是文本中的最小有意义的单位,它们能够协助咱们把文本分解成更简略处理和剖析的部分。不同的言语和场景或许需求不同的tokenization办法。接下来,咱们要看看GPT系列采用了什么样的token类型?GPT系列采用了什么样的token类型?GPT系列是一系列依据Transformer的生成式预练习模型,它们能够用来生成各种类型的文本。现在,现已有了GPT-2、GPT-3和GPT-4等不同版别的模型,它们的差异首要在于模型的巨细、练习数据的规划和质量、以及生成才干的强度。GPT系列的模型都是依据子词(subword)来进行tokenization的。子词是指比单词更小的言语单位,它们能够依据语料库中的词频和共现频率来主动区别。比方,一个单词“transformer”能够被区别红两个子词“trans”和“former”,或许三个子词“t”,“rans”和“former”,或许四个子词“t”,“r”,“ans”和“former”,等等。不同的区别办法会发生不同数量和长度的子词。一般来说,子词越多越短,就越能掩盖更多的言语现象,但也会增加模型的核算杂乱度;子词越少越长,就越能削减模型的核算杂乱度,但也会丢失一些言语信息。GPT系列采用了一种叫做Byte Pair Encoding(BPE)的子词区别办法。BPE是一种依据数据紧缩原理的算法,它能够依据语料库中呈现频率最高的字节对(byte pair)来兼并字节,然后生成新的字节。比方,假如语料库中呈现频率最高的字节对是“th”,那么BPE就会把一切的“ns”替换成一个新的字节“Z”,然后削减字节总数。这个进程能够重复进行,直到抵达预设的字节总数或许没有更多的字节对能够兼并中止。这样,BPE就能够把原始的字节序列转化成一个由新字节组成的子词序列。例如,“obsessiveness”这个单词能够被BPE转化成以下子词序列:原始字节序列:o b s e s s i v e n e s s第一次兼并:o b s e Z i v e n e Z (假定Z代表ss)第2次兼并:o b s E i v e n E (假定E代表e Z)终究子词序列:o b s E i v e n E(假如没抵达预设的字节要求,可兼并只呈现一次的子词)当然,这仅仅一个简略的比方,实践上BPE会依据大规划的语料库来生成更多更杂乱的子词。GPT系列运用了不同巨细的BPE词典来存储一切或许呈现的子词。比方,GPT-3运用了50,257个子词。总归,GPT系列采用了依据BPE算法的子词作为token类型,首要意图是以无损的办法紧缩文本的内容,然后以确保言语掩盖度和核算功率之间抵达一个平衡。接下来,咱们要看看怎样用子词来表明和生成文本?怎样用子词来表明和生成文本?咱们现已知道了GPT系列运用了子词作为token类型,而且经过上文叙述的BPE或其他相关算法咱们能够将文本内容转化为由子词组合而成的序列,也便是术语中分词进程。有了子词序列之后,咱们就能够用子词来表明和生成文本了吗?答案是否定的。由于言语模型是依据神经网络的,而神经网络只能处理数值数据,而不能处理文本数据。因而,咱们还需求做第二件作业:将子词序列转化为数值向量。这儿,咱们需求介绍两个重要的概念:编码(encoding)和解码(decoding)。编码和解码将子词序列转化为数值向量的进程叫做编码(Encoding),它是言语模型的第二步。编码的意图是将一个个离散且无序的token映射到一个个接连且有序的向量空间中,然后便利言语模型进行核算和学习。比方,咱们能够用以下的BPE词典来表明上面的比方:子词数值编码子词数值编码o1i5b2v6s3e7E4n8那么,编码和解码就能够依照以下的规矩进行:编码:依据BPE算法,将文本切割成最长的匹配子词,然后依据BPE词典,将每个子词替换成其对应的数值编码,然后得到一个数值向量。比方,“obsessiveness”这个单词能够被编码为[1, 2, 3, 4, 5,6,7,8,4]这个数值向量。解码:依据BPE词典,将每个数值编码替换成其对应的子词,然后依据BPE算法,将相邻的子词兼并成最长的匹配单词,然后得到一个文本。比方,[1, 2, 3, 4, 5,6,7,8,4]这个数值向量能够被解码为“obsessiveness”这个单词。经过编码和解码,咱们就能够完结文本和子词序列向量之间的相互转化。可是,这还不行。咱们还需求让GPT系列能够了解和生成这些子词序列。为了做到这一点,咱们还需求进行别的两个进程:嵌入(embedding)和猜测(prediction)。嵌入和猜测咱们现已知道,子词分词和编解码,能够把文本转化成数字,就像咱们用数字来表明电话号码相同。可是,这样的数字仅仅一种编码办法,它们并不能奉告咱们子词之间有什么联络。比方,咱们怎样知道“猫”和“狗”是两种动物,而“猫”和“桌子”是不同的东西呢?为了让GPT系列能够了解子词之间的联络,咱们需求进行嵌入(embedding)。嵌入便是把每个子词用一个特征向量来表明,这个特征向量能够反映出子词的意义、用法、情感等方面的信息。特征向量的核算算法比较杂乱,但核算原理比较简略了解,GPT只需求依据互联网上许多的文本材料,核算出两个词语在相邻/语句/文章中共同呈现的概率并经过权重来汇总核算,就能剖分出某个词语与别的一个词语的亲密度的数值,并将这个数值作为特征向量来描绘这个词语。 比方,“猫”在互联网的材猜中与“动物”等词语一起呈现的次数多,所以“猫”的特征向量或许包括了它是一种动物、有毛发、喜爱吃鱼、会宣布喵喵声等信息。经过嵌入,咱们就能够把每个子词看作是高维空间中的一个点,而这些点之间的间隔和方向,就能够表明出子词之间的类似度和差异度。比方,“猫”和“狗”的点由于同为宠物,或许会比较挨近,相对“狗”而言,“猫”和“牛”的点或许会比较远离。在完结嵌入后,咱们就能够进行猜测(prediction)。猜测便是依据给定的文本,核算出下一个子词呈现的概率。比方,假如给定的文本是“我家有一只”,那么下一个子词或许是“猫”或许“狗”,而不太或许是“桌子”或许“电视”。这个概率的核算,便是依据特征向量表进行的。 经过嵌入和猜测,咱们就能够完结从数字到文本,或许从文本到数字的转化。可是,这还不行。咱们还需求让GPT系列能够依据给定的文本来生成新的文本。为了做到这一点,咱们还需求进行终究一个进程:生成(generation)。生成与自回归生成是指依据给定的文本来生成新的文本的进程。生成能够分为两种办法:自回归(autoregressive)和自编码(autoencoding),GPT系列首要采用了自回归办法。那么什么是自回归?简略了解便是幻想这么一副画面:一个人在拍连环画,每一页连环画都是前一张连环画的接连。也便是说,人需求看前一张画甚至前多张画才干知道该画什么内容。类似地,自回归模型中的每个时刻点都需求前一个时刻点的信息才干核算出当时时刻点的输出值。就像拍连环画相同,自回归模型中各个时刻点之间存在着严密的联络和依靠联络,这种联络在猜测时刻序列数据时十分有用。 例如,“I love you”这个语句能够被GPT系列生成为以下的文本:I love you more than anything in the world.I love you and I miss you so much.I love you, but I can't be with you.总归,GPT系列运用了子词、数值向量、实数向量和Transformer模型来表明和生成文本。经过编码、解码、嵌入、猜测和生成等进程,它能够完结从文本到文本的转化。全体进程能够参阅GPT官方的示意图,如下: 总结今日,咱们学习了GPT系列是怎样用子词来表明和生成文本的。咱们了解了token相关的概念和文本生成的进程,经过这些概念和进程,咱们能够了解GPT系列是怎样从文本到文本的转化。期望你喜爱今日的AI科普文章,假如你有任何问题或主张,请在谈论区留言。谢谢你的阅览和支撑! 发布于 2023-11-03 08:31・IP 属地湖北AI技能人工智能附和 9增加谈论共享喜爱保藏恳求
token详解-阿里云开发者社区
token详解-阿里云开发者社区
产品处理方案文档与社区权益中心定价云商场合作伙伴支撑与服务了解阿里云联络咱们4008013260售前咨询售后服务其他服务我要主张我要投诉存案操控台开发者社区主页探究云世界探究云世界云上快速入门,抢手云上运用快速查找了解更多问产品着手实践考认证TIANCHI大赛活动广场活动广场丰厚的线上&线下活动,深化探究云世界使命中心做使命,得社区积分和周边高校方案让每位学生获益于普惠算力练习营资深技能专家手把手带教论题畅聊无限,共享你的技能见地开发者评测最实在的开发者用云体会乘风者方案让创造激起立异阿里云MVP遇见技能追梦人直播技能沟通,直击现场下载下载海量开发者运用东西、手册,免费下载镜像站极速、全面、安稳、安全的开源镜像技能材料开发手册、白皮书、事例集等实战精华插件为开发者定制的Chrome浏览器插件探究云世界新手上如此上运用构建云上数据办理云上探究人工智能云核算弹性核算无影存储网络倚天云原生容器serverless中间件微服务可观测音讯行列数据库联络型数据库NoSQL数据库数据仓库数据办理东西PolarDB开源向量数据库抢手Modelscope模型即服务弹性核算云原生数据库物联网云效DevOps龙蜥操作体系平头哥钉钉敞开渠道大数据大数据核算实时数仓Hologres实时核算FlinkE-MapReduceDataWorksElasticsearch机器学习渠道PAI智能查找引荐人工智能机器学习渠道PAI视觉智能敞开渠道智能语音交互自然言语处理多模态模型pythonsdk通用模型开发与运维云效DevOps钉钉宜搭支撑服务镜像站码上公益
开发者社区
安全
文章
正文
token详解
2023-07-28
1777
版权
版权声明:
本文内容由阿里云实名注册用户自发奉献,版权归原作者一切,阿里云开发者社区不具有其著作权,亦不承当相应法令责任。详细规矩请检查《
阿里云开发者社区用户服务协议》和
《阿里云开发者社区常识产权维护指引》。假如您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单进行告发,一经查实,本社区将马上删去涉嫌侵权内容。
简介:
token详解
王卫
目录
抢手文章
最新文章
为什么挑选阿里云什么是云核算全球根底设施技能抢先安稳牢靠安全合规剖析师陈述产品和定价悉数产品免费试用产品动态产品定价价格核算器云上本钱办理处理方案技能处理方案文档与社区文档开发者社区天池大赛练习与认证权益中心免费试用高校方案企业扶持方案引荐返现方案支撑与服务根底服务企业增值服务迁云服务官网公告健康看板信赖中心重视阿里云重视阿里云大众号或下载阿里云APP,重视云资讯,随时随地运维管控云服务联络咱们:4008013260法令声明Cookies方针廉正告发安全告发联络咱们参加咱们阿里巴巴集团淘宝网天猫全球速卖通阿里巴巴世界买卖商场1688阿里妈妈飞猪阿里云核算AliOS万网高德UC友盟优酷钉钉付出宝达摩院淘宝海外阿里云盘饿了么© 2009-2024 Aliyun.com 版权一切 增值电信事务经营答应证: 浙B2-20080101 域名注册服务组织答应: 浙D3-20210002 京D3-20220015浙公网安备 33010602009975号浙B2-20080101-4
在机器学习范畴“token”到底是什么意思? - 知乎
在机器学习范畴“token”到底是什么意思? - 知乎首发于AIGC 相关常识切换办法写文章登录/注册在机器学习范畴“token”到底是什么意思?7号床信息技能职业 CEOToken 词元在机器学习范畴、NLP范畴、文生图等范畴,机器读懂词汇和语句是经过 Token 来进行的。尽管在许多范畴中都有“Token”这个字符被运用,在不同范畴被翻译成代币、标志、标志、表明、信物、符号等等意思。可是在人工智能 AIGC 范畴,一般是指“词元”,它是言语类模型顶用数字来表明单词的最小语义单位。在提示词文本发送给神经网络之前,Tokenizer 将组合词、语句、阶段、文章这类型的长文本分解为最小单位的 Token 词元,然后再经过 Embedding 的办法把 token 转化为向量表明的数据结构,终究输入给神经网络。比方图中这句话“This is a input text.” 首要被 Tokenizer 转化成最小词元,其间[CLS][SEP]为一句话的开端与完毕符号,然后再经过 Embedding 的办法转化为向量。(CLS:classification 奉告体系这是语句等级的分类的开端、SEP:separator 奉告体系完毕本句或切割下一句)一句话“This is a input text.” 首要被 Tokenizer 转化成最小词元,然后再经过 Embedding 的办法转化为向量Token 是最小单位的“词元”,或许说单词的“片段”,便是不行再拆分的最小语义单位,比方 “waterfall”,会被拆成2个 token:water、fall。别的,标点符号也会被分解为 token,由于标点符号也影响了对全文的语义了解。比方“I don‘t know.”能够分解为5个Token,他们是:“ I ”、“don”、“ ‘t” 、“know”、“.”。在 Stable Diffusion 中默许的提示词输入最许多为不超越75个,这儿的75指的便是Token 数,而不是75个单词。所以,常常会发生你输入的单词数字没有抵达75个时,Token 就现已超越75个了。由于标点符号、复合词等等都会被解读为 Token(当然,现在无需忧虑在 Stable Diffusion WebUI 的提示词输入框中输入超越75个 Token 的问题,由于它能够经过分段输入的办法来进行了,可是75个 token 这一个概念咱们应该了解)。Stable Diffusion WebUI 的提示词输入框开端限定为 75 个 token一大堆提示词,或一句话终究都被拆解为哪些 token 呢?咱们能够经过 AUTOMATIC1111 供给的 Stable Diffusion WebUI 扩展插件 tokenizer 来检查,主张装置。(https://github.com/AUTOMATIC1111/stable-diffusion-webui-tokenizer),这个扩展插件能够直接在 Extensions 标签下查找装置。我将一向本着让非专业人士也能看懂的解说,尽量以比方和浅显易懂的图表等办法来描绘技能术语的准则。这同样是本着 AI 将人类常识壁垒大幅度下降门槛好让更多的一般人都能够进入专业范畴的主旨,比方 Stable Diffusion 模型让一个从没有学过 PS 却有着超强艺术细胞和创造力的广场舞大妈都能绘出尖端的 CG 著作,而他们却由于年轻时的某些原因错过了走入专业范畴的时机,或许是身世、或许是经济条件、或许是其他的命运所造成的。查询材料、剖析、组织、编撰…作业不易,请多多支撑我。转载请注明出处,将万分感谢。修改于 2023-11-23 11:14・IP 属地北京tokenNLP附和 485 条谈论共享喜爱保藏恳求转载文章被以下专栏录入AIGC 相关常识用一般人能看懂的文字来解读AIGC范畴的相关技能Stable DiffusionAIGC之Stable Diffus
入门区块链,你不行不知的“Token” - 知乎
入门区块链,你不行不知的“Token” - 知乎切换办法写文章登录/注册入门区块链,你不行不知的“Token”币侠1.什么是Token?Token本是一个核算机安全术语,是核算机身份认证中“令牌” 的意思,跟着ICO和区块链的大火,Token也变得广为人知。在数字经济的语境中,Token类似于区块链生态里用于流转的钱银,也便是代币。比方,咱们平常所说的比特币、以太坊便是Token。尽管被称为代币,也类似于钱银,可是从Token这个词的转义以及详细内容来看,其本质上是一段代码,并不是钱银。Token由区块链的分布式记账技能确保一段代码的仅有性,在发布此Token的组织的生态圈内部流转,像是一个个令牌或许门禁卡,能够翻开或封闭一个个大门(智能合约)。发行Token的这个组织想要树立的生态圈,或许说虚拟王国的内部,有着许多的关卡和大门,这些都需求令牌才干翻开或许封闭,可是令牌的数量是必定的。在只要三五个人想要令牌,某组织却发放了几千万甚至几千亿个令牌的时分,每个人都能够简略取得很多的令牌,令牌当然就不值钱了。因而,8年前,程序员LaszloHanyecz用了1万个比特币只能买到2个披萨。可是,一旦人们觉得这个组织想要树立的虚拟王国大有可为,也想要取得一部分令牌以备将来进入王国之需的时分,而令牌的数量却不会增加,受供求联络的影响,自可是然地,令牌的价值就进步了。由此,比特币从一文不名到最高时价值2万美元。所以,8年后,程序员LaszloHanyecz再买两个披萨就只需求花费0.00649个比特币。像是游戏币能够用来购买各种游戏道具相同,Token也能够用来“付出”其王国内的各种服务,从这种视点来看,将其称为代币愈加形象一点。别的值得注意的是,Token有其天然的内涵价值,而且可买卖,这让Token有了价格。一般状况下,Token一经发行,便严厉依照区块链代码履行,不受个人或组织操控的。比特币、以太坊、瑞波币、莱特币、以太坊经典是当时市值排名前五的Token。2.Token的发生比特币是早发行的一种Token,比特币背面的区块链是一个记载了比特币发生和买卖的账本,且买卖不需求任何人担保即可完结。比特币的成功经验,推动了更多Token的发生。现在,新的Token首要经过以下几种办法生成:1)经过改写现有的比特币代码,能够分叉出新的区块链而发生的Token。闻名的莱特币,最开端仅仅简略地调整了比特币的代码。而其他的Token,例如Zcash、Dash和Monero等,则在隐私维护方面进行了立异。一切的这些Token都主张了自己的区块链,和原有的比特币区块链彻底别离。2)经过编写全新的区块链而发生的Token。这当中最成功的比便利是以太坊。以太坊遭到比特币的启示,从底层规划了新的区块链而且使区块链变得可编程,给区块链带来了新的功用。伴跟着这条区块链的发生Token便是Ether,至今,现已上涨了40倍。3.Token的发行初次币发行(ICO),这也是个不生疏的概念,往往跟IPO联想起来,但事实上,二者并不相同,ICO仅仅对令牌进行预售,令牌能够在将来的虚拟王国中运用,并不触及到对未来收益的分配。跟着数字钱银转账在世界范围内的遍及,Token发行现已成为了全球重视的大事。除了中国外,区块链项目还在美国、欧洲、日本等区域得到了广泛的重视。假如有个新开的银行账户在几分钟内接到来自世界各地的几千笔汇款,触及数百万美元,这个账户很或许就会被冻住,但运用数字钱银就不会呈现这样的状况。互联网和区块链技能使得Token的出售成了一个全球性的行为。Token一旦发行买卖后就有了价格,而价格会跟着商场动摇,这也是它和股权的一大差异。出资者手里的股权或许要等10年之后才干退出变现,但Token在10分钟内就能变现。当时Token在法令和技能上还面对一些未处理的问题。2017年9月4日,央行联合中心网信办、工业和信息化部、工商总局、银监会、证监会以及保监会发布《关于防备代币发行融资危险的公告》(以下简称《公告》),明晰表明,发行代币办法包括初次代币发行(ICO)进行融资的活动本质上是一种未经同意不合法揭露融资的行为,要当即中止各类代币发行融资活动,关于已完结代币发行融资的组织和个人应作为出清退等组织。4. Token带来的改动Token能够在互联网上向合格的出资人出售,因而创业者不用再像曾经相同,跑去VC的办公室或许创业咖啡厅进行融资,而能够直接发行Token在全网揭露融资。互联网诞生之初,就秉承着开源的精力,可是这些前期的参加者并没有得到太多实践的利益,反而是Google、阿里、腾讯这样的大公司赚得盆满钵满。Token的呈现能够使得项意图前期开发人员得到经济上的报答。不过,从Token的本质上来说,它需求找到的是那些将来会实在运用到产品的用户,但事实上,实践的购买者却大多数并不是将来的用户,而是一群企图经过持有代币找人接盘赚取差价的人。这些人的存在,确实使得项目开发人员更简略地取得了经济上的报答,但也阻止了Token去寻觅实在的用户。当Token在这些炒币者的手中敏捷拉高价位时,也预示着一个实在有需求的运用或许变成了伐鼓传花的游戏,问题在于,花落谁家?更多区块链干货常识,炒币行情,请重视薇信大众号: 币侠(ID:zongcuang666)收取代币奖赏修改于 2018-03-04 16:04区块链(Blockchain)比特币 (Bitcoin)虚拟钱银附和 411 条谈论共享喜爱保藏恳求
解读AI大模型,从了解token开端 - 知乎
解读AI大模型,从了解token开端 - 知乎切换办法写文章登录/注册解读AI大模型,从了解token开端AI小智大众号:AI小智解读AI大模型,从了解token开端前次一文中,我依据结合许多示例及可视化的图形手法给咱们科普了AI大模型的相关算法和中心概念。可是收到不少非技能布景的小伙伴反应,相关的算法内容的解说技能性仍是太强,很难彻底了解。所以这次,题主从最根底的概念“token”着手,越过了杂乱的算法逻辑,这次必定让你树立起对AI大模型作业原理的明晰认知。什么是token?最小的语义单元你或许会猎奇,大规划言语模型是怎样作业的呢?它们是怎样从数据中学习到言语的呢?它们是怎样依据输入来生成合理的文本接连的呢?为了答复这些问题,咱们需求从最根底的概念开端讲起:token。在自然言语处理(NLP)中,token是指文本中最小的语义单元。比方,一个语句能够被切割成若干个单词,每个单词便是一个token。例如,“I love you”这个语句能够被切割成三个token:“I”,“love”和“you”。token能够协助咱们把文本分解成更简略处理和剖析的部分。可是,并不是一切的言语都能够用空格来区别单词。有些言语,比方中文、日语等,没有显着的单词鸿沟。在这种状况下,咱们需求用一些更杂乱的办法来进行tokenization(分词)。比方,咱们能够用一些规矩或许核算模型来判别哪些字或许字组合构成了一个有意义的token。例如,“我喜爱你”这个语句能够被切割成两个token:“我”和“爱你”。当然,这种办法并不完美,有时分会呈现过错或许歧义。除了单词之外,还有一些其他的符号也能够被视为token。比方,标点符号、数字、表情符号等等。这些符号也能够传达一些信息或许情感。例如,“I love you!”和“I love you?”就不同于“I love you”,由于感叹号和问号表达了不同的口气和情绪。总归,token便是文本中的最小有意义的单位,它们能够协助咱们把文本分解成更简略处理和剖析的部分。不同的言语和场景或许需求不同的tokenization办法。接下来,咱们要看看GPT系列采用了什么样的token类型?GPT系列采用了什么样的token类型?GPT系列是一系列依据Transformer的生成式预练习模型,它们能够用来生成各种类型的文本。现在,现已有了GPT-2、GPT-3和GPT-4等不同版别的模型,它们的差异首要在于模型的巨细、练习数据的规划和质量、以及生成才干的强度。GPT系列的模型都是依据子词(subword)来进行tokenization的。子词是指比单词更小的言语单位,它们能够依据语料库中的词频和共现频率来主动区别。比方,一个单词“transformer”能够被区别红两个子词“trans”和“former”,或许三个子词“t”,“rans”和“former”,或许四个子词“t”,“r”,“ans”和“former”,等等。不同的区别办法会发生不同数量和长度的子词。一般来说,子词越多越短,就越能掩盖更多的言语现象,但也会增加模型的核算杂乱度;子词越少越长,就越能削减模型的核算杂乱度,但也会丢失一些言语信息。GPT系列采用了一种叫做Byte Pair Encoding(BPE)的子词区别办法。BPE是一种依据数据紧缩原理的算法,它能够依据语料库中呈现频率最高的字节对(byte pair)来兼并字节,然后生成新的字节。比方,假如语料库中呈现频率最高的字节对是“th”,那么BPE就会把一切的“ns”替换成一个新的字节“Z”,然后削减字节总数。这个进程能够重复进行,直到抵达预设的字节总数或许没有更多的字节对能够兼并中止。这样,BPE就能够把原始的字节序列转化成一个由新字节组成的子词序列。例如,“obsessiveness”这个单词能够被BPE转化成以下子词序列:原始字节序列:o b s e s s i v e n e s s第一次兼并:o b s e Z i v e n e Z (假定Z代表ss)第2次兼并:o b s E i v e n E (假定E代表e Z)终究子词序列:o b s E i v e n E(假如没抵达预设的字节要求,可兼并只呈现一次的子词)当然,这仅仅一个简略的比方,实践上BPE会依据大规划的语料库来生成更多更杂乱的子词。GPT系列运用了不同巨细的BPE词典来存储一切或许呈现的子词。比方,GPT-3运用了50,257个子词。总归,GPT系列采用了依据BPE算法的子词作为token类型,首要意图是以无损的办法紧缩文本的内容,然后以确保言语掩盖度和核算功率之间抵达一个平衡。接下来,咱们要看看怎样用子词来表明和生成文本?怎样用子词来表明和生成文本?咱们现已知道了GPT系列运用了子词作为token类型,而且经过上文叙述的BPE或其他相关算法咱们能够将文本内容转化为由子词组合而成的序列,也便是术语中分词进程。有了子词序列之后,咱们就能够用子词来表明和生成文本了吗?答案是否定的。由于言语模型是依据神经网络的,而神经网络只能处理数值数据,而不能处理文本数据。因而,咱们还需求做第二件作业:将子词序列转化为数值向量。这儿,咱们需求介绍两个重要的概念:编码(encoding)和解码(decoding)。编码和解码将子词序列转化为数值向量的进程叫做编码(Encoding),它是言语模型的第二步。编码的意图是将一个个离散且无序的token映射到一个个接连且有序的向量空间中,然后便利言语模型进行核算和学习。比方,咱们能够用以下的BPE词典来表明上面的比方:子词数值编码子词数值编码o1i5b2v6s3e7E4n8那么,编码和解码就能够依照以下的规矩进行:编码:依据BPE算法,将文本切割成最长的匹配子词,然后依据BPE词典,将每个子词替换成其对应的数值编码,然后得到一个数值向量。比方,“obsessiveness”这个单词能够被编码为[1, 2, 3, 4, 5,6,7,8,4]这个数值向量。解码:依据BPE词典,将每个数值编码替换成其对应的子词,然后依据BPE算法,将相邻的子词兼并成最长的匹配单词,然后得到一个文本。比方,[1, 2, 3, 4, 5,6,7,8,4]这个数值向量能够被解码为“obsessiveness”这个单词。经过编码和解码,咱们就能够完结文本和子词序列向量之间的相互转化。可是,这还不行。咱们还需求让GPT系列能够了解和生成这些子词序列。为了做到这一点,咱们还需求进行别的两个进程:嵌入(embedding)和猜测(prediction)。嵌入和猜测咱们现已知道,子词分词和编解码,能够把文本转化成数字,就像咱们用数字来表明电话号码相同。可是,这样的数字仅仅一种编码办法,它们并不能奉告咱们子词之间有什么联络。比方,咱们怎样知道“猫”和“狗”是两种动物,而“猫”和“桌子”是不同的东西呢?为了让GPT系列能够了解子词之间的联络,咱们需求进行嵌入(embedding)。嵌入便是把每个子词用一个特征向量来表明,这个特征向量能够反映出子词的意义、用法、情感等方面的信息。特征向量的核算算法比较杂乱,但核算原理比较简略了解,GPT只需求依据互联网上许多的文本材料,核算出两个词语在相邻/语句/文章中共同呈现的概率并经过权重来汇总核算,就能剖分出某个词语与别的一个词语的亲密度的数值,并将这个数值作为特征向量来描绘这个词语。 比方,“猫”在互联网的材猜中与“动物”等词语一起呈现的次数多,所以“猫”的特征向量或许包括了它是一种动物、有毛发、喜爱吃鱼、会宣布喵喵声等信息。经过嵌入,咱们就能够把每个子词看作是高维空间中的一个点,而这些点之间的间隔和方向,就能够表明出子词之间的类似度和差异度。比方,“猫”和“狗”的点由于同为宠物,或许会比较挨近,相对“狗”而言,“猫”和“牛”的点或许会比较远离。在完结嵌入后,咱们就能够进行猜测(prediction)。猜测便是依据给定的文本,核算出下一个子词呈现的概率。比方,假如给定的文本是“我家有一只”,那么下一个子词或许是“猫”或许“狗”,而不太或许是“桌子”或许“电视”。这个概率的核算,便是依据特征向量表进行的。 经过嵌入和猜测,咱们就能够完结从数字到文本,或许从文本到数字的转化。可是,这还不行。咱们还需求让GPT系列能够依据给定的文本来生成新的文本。为了做到这一点,咱们还需求进行终究一个进程:生成(generation)。生成与自回归生成是指依据给定的文本来生成新的文本的进程。生成能够分为两种办法:自回归(autoregressive)和自编码(autoencoding),GPT系列首要采用了自回归办法。那么什么是自回归?简略了解便是幻想这么一副画面:一个人在拍连环画,每一页连环画都是前一张连环画的接连。也便是说,人需求看前一张画甚至前多张画才干知道该画什么内容。类似地,自回归模型中的每个时刻点都需求前一个时刻点的信息才干核算出当时时刻点的输出值。就像拍连环画相同,自回归模型中各个时刻点之间存在着严密的联络和依靠联络,这种联络在猜测时刻序列数据时十分有用。 例如,“I love you”这个语句能够被GPT系列生成为以下的文本:I love you more than anything in the world.I love you and I miss you so much.I love you, but I can't be with you.总归,GPT系列运用了子词、数值向量、实数向量和Transformer模型来表明和生成文本。经过编码、解码、嵌入、猜测和生成等进程,它能够完结从文本到文本的转化。全体进程能够参阅GPT官方的示意图,如下: 总结今日,咱们学习了GPT系列是怎样用子词来表明和生成文本的。咱们了解了token相关的概念和文本生成的进程,经过这些概念和进程,咱们能够了解GPT系列是怎样从文本到文本的转化。期望你喜爱今日的AI科普文章,假如你有任何问题或主张,请在谈论区留言。谢谢你的阅览和支撑! 发布于 2023-11-03 08:31・IP 属地湖北AI技能人工智能附和 9增加谈论共享喜爱保藏恳求
什么是Token?ChatGPT 中 Token 的概念解读:了解模型输入的基本单位 - 知乎
什么是Token?ChatGPT 中 Token 的概念解读:了解模型输入的基本单位 - 知乎切换办法写文章登录/注册什么是Token?ChatGPT 中 Token 的概念解读:了解模型输入的基本单位一笑辽宁科技大学 操控科学与工程博士在读在自然言语处理范畴中,机器学习模型一般以 token 作为其输入单位。关于 ChatGPT 这样的大型言语模型,了解 token 的概念是了解模型作业原理的要害。一、Token是文本中的最小单位Token 能够被了解为文本中的最小单位。在英文中,一个 token 能够是一个单词,也能够是一个标点符号。在中文中,一般以字或词作为 token。ChatGPT 将输入文本拆分红一个个 token,使模型能够对其进行处理和了解。二、词汇表映射办法关于模型而言,token 是一种数字化的表明办法。每个 token 都与一个仅有的数字 ID 相关联,模型经过这些 ID 来区别不同的 token。在练习进程中,模型学习了将文本映射到这些数字 ID 的办法,以便能够对新的文本进行编码和解码。下面是详细进程(不感兴趣可越过)这个进程能够经过一种称为词汇表(vocabulary)的映射办法完结。词汇表是一个由模型事前树立的映射表,将每个或许的 token 映射到一个仅有的数字 ID。例如,关于英文单词,一个词汇表或许包括比如 "hello"、"world"、"chat" 等单词,并为每个单词分配一个仅有的数字 ID。当输入文本被拆分红 token 之后,模型会查找每个 token 在词汇表中的对应 ID,并用这些 ID 来表明输入文本。详细来说,拆分文本为 token 的办法能够依据使命和模型的需求而有所不同。一种常见的办法是经过空格或标点符号来切割文本,将每个单词作为一个 token。可是,关于一些言语,如中文,分词是一个更杂乱的进程,需求考虑词和字符之间的联络。一旦输入文本被转化为数字 ID 的序列,模型就能够将其作为输入进行处理。这些数字 ID 能够被表明为向量办法,例如运用独热编码(one-hot encoding)或许更常见的词嵌入(word embedding)表明办法。词嵌入将每个 token 表明为一个接连的向量,其间每个维度代表了某种语义特征。在处理 token 时,模型能够经过逐一 token 的办法进行操作,或许经过考虑 token 之间的联络来获取更多的上下文信息。这取决于详细的模型架构和使命要求。总结而言,ChatGPT 将输入文本拆分为 token,
转载请注明出处:admin,如有疑问,请联系(12345678)。
本文地址:https://www.lnuwa.com/post/171.html