小熊科技|PyTorch文本：01.聊天机器人教程( 三 ) 在本教程中

2.2 加载和清洗数据我们下一个任务是创建词汇表并将查询/响应句子对（对话）加载到内存。
注意我们正在处理词序，这些词序没有映射到离散数值空间。因此，我们必须通过数据集中的单词来创建一个索引。
为此我们创建了一个Voc类,它会存储从单词到索引的映射、索引到单词的反向映射、每个单词的计数和总单词量。这个类提供向词汇表中添加单词的方法(addWord)、添加所有单词到句子中的方法 (addSentence) 和清洗不常见的单词方法(trim) 。更多的数据清洗在后面进行。
# 默认词向量PAD_token = 0# Used for padding short sentencesSOS_token = 1# Start-of-sentence tokenEOS_token = 2# End-of-sentence tokenclass Voc:def __init__(self, name):self.name = nameself.trimmed = Falseself.word2index = {}self.word2count = {}self.index2word = {PAD_token: "PAD", SOS_token: "SOS", EOS_token: "EOS"}self.num_words = 3# Count SOS, EOS, PADdef addSentence(self, sentence):for word in sentence.split(' '):self.addWord(word)def addWord(self, word):if word not in self.word2index:self.word2index[word] = self.num_wordsself.word2count[word] = 1self.index2word[self.num_words] = wordself.num_words += 1else:self.word2count[word] += 1# 删除低于特定计数阈值的单词def trim(self, min_count):if self.trimmed:returnself.trimmed = Truekeep_words = []for k, v in self.word2count.items():if v >= min_count:keep_words.append(k)print('keep_words {} / {} = {:.4f}'.format(len(keep_words), len(self.word2index), len(keep_words) / len(self.word2index)))# 重初始化字典self.word2index = {}self.word2count = {}self.index2word = {PAD_token: "PAD", SOS_token: "SOS", EOS_token: "EOS"}self.num_words = 3 # Count default tokensfor word in keep_words:self.addWord(word)现在我们可以组装词汇表和查询/响应语句对。在使用数据之前，我们必须做一些预处理。
首先，我们必须使用unicodeToAscii将 unicode 字符串转换为 ASCII 。然后，我们应该将所有字母转换为小写字母并清洗掉除基本标点之外的所有非字母字符 (normalizeString) 。最后，为了帮助训练收敛，我们将过滤掉长度大于MAX_LENGTH 的句子 (filterPairs) 。
MAX_LENGTH = 10# Maximum sentence length to consider# 将Unicode字符串转换为纯ASCII ，多亏了# def unicodeToAscii(s):return ''.join(c for c in unicodedata.normalize('NFD', s)if unicodedata.category(c) != 'Mn')# 初始化Voc对象和格式化pairs对话存放到list中def readVocs(datafile, corpus_name):print("Reading lines...")# Read the file and split into lineslines = open(datafile, encoding='utf-8').read().strip().split('\n')# Split every line into pairs and normalizepairs = [[normalizeString(s) for s in l.split('\t')] for l in lines]voc = Voc(corpus_name)return voc, pairs# 如果对 'p' 中的两个句子都低于 MAX_LENGTH 阈值，则返回Truedef filterPair(p):# Input sequences need to preserve the last word for EOS tokenreturn len(p[0].split(' ')) < MAX_LENGTH and len(p[1].split(' ')) < MAX_LENGTH# 过滤满足条件的 pairs 对话def filterPairs(pairs):return [pair for pair in pairs if filterPair(pair)]# 使用上面定义的函数，返回一个填充的voc对象和对列表def loadPrepareData(corpus, corpus_name, datafile, save_dir):print("Start preparing training data ...")voc, pairs = readVocs(datafile, corpus_name)print("Read {!s} sentence pairs".format(len(pairs)))pairs = filterPairs(pairs)print("Trimmed to {!s} sentence pairs".format(len(pairs)))print("Counting words...")for pair in pairs:voc.addSentence(pair[0])voc.addSentence(pair[1])print("Counted words:", voc.num_words)return voc, pairs# 加载/组装voc和对save_dir = os.path.join("data", "save")voc, pairs = loadPrepareData(corpus, corpus_name, datafile, save_dir)# 打印一些对进行验证print("\npairs:")for pair in pairs[:10]:print(pair)


上一页
1
2
3
4
5
6
下一页
		  	






























推荐阅读

           
                  
              
                  红茶储藏温度,勐库的普洱茶能存放多久 
                
                   
                
              
            

                  
              
                  购车小助理奇瑞全新一代瑞虎8正式曝光真身，主打1.5T+48V、1.6TGDI发动机 
                
                   
                
              
            

                  
              
                  四季沐歌荣获中国自主品牌500强，总裁李骏荣获清洁采暖行业创新人物 
                
                   
                
              
            

                  
              
                   『去年』一图读懂去年广州在残疾人教育、就业、脱贫下了什么功夫？ 
                
                   
                
              
            

                  
              
                  贾永婕|大S再出手！转发贾永婕「千万床垫没卖汪小菲」真相 
                
                   
                
              
            

                  
              
                  微信|黑龙江省大兴安岭地区迎来秋后首场降雪 
                
                   
                
              
            

                  
              
                  硬拳大卫君|军方依然充满信心，印度武器又伤自己人了！新型火炮炸膛专家受伤 
                
                   
                
              
            

                  
              
                  唐平哥|营养健康工作论坛隆重召开 
                
                   
                
              
            

                  
              
                  古手羽|王者局却把把MVP的辅助，放大就团灭，单排王者随便上，唯一钻石局无人用 
                
                   
                
              
            

                  
              
                  LOHAS乐活杂志|性冷淡风已out，“盐系”小姐姐更撩人！，这个夏天 
                
                   
                
              
            

                  
              
                  [时尚迪科]结婚狂宋轶穿条纹睡衣接地气，赵今麦扎小辫可爱，《涩女郎》路透 
                
                   
                
              
            

                  
              
                  新机发布|三星新机定档8月5日，安卓机皇即将诞生，价格成最大败笔 
                
                   
                
              
            

                  
              
                  蔡英文|蔡英文视察雷达站，身后出现一张美国脸 
                
                   
                
              
            

                  
              
                  信贷▲6月这些新规实施！涉及你的医、食、住、行 
                
                   
                
              
            

                  
              
                  饺子好吃调馅是关键，萝卜香菇多加1物，无肉无蛋，也鲜美多汁 
                
                   
                
              
            

                  
              
                  陈坤|陈坤长相帅气，身边美女如云，可他为何一直单身？为了谁？ 
                
                   
                
              
            

                  
              
                  茶叶涩是因为什么原因 
                
                   
                
              
            

                  
              
                  「全球奢侈婚礼」实用！婚礼当天超全流程时间表 
                
                   
                
              
            

                  
              
                  |刘强东隐藏了15年的前妻，竟然是我们熟悉的她，难怪要娶奶茶妹妹 
                
                   
                
              
            

                  
              
                  辽宋夏金|包拯究竟是一位怎样的人？不苟言笑，根本不受同僚待见 
                
                   
                
              
            

          

所持股份|万兴科技：公司控股股东、实际控制人吴太兵质押150万股 

发布公告|数量过半！博创科技：天通股份累计减持约150万股 

英雄科技聊数码|蔡崇信有实力买下篮网，那身价3200亿的马云，能买下几支NBA球队 

科技前沿阵地|涨疯了！海思安防芯片遭哄抬“围剿” 

月影浓|吴亦凡机械造型走秀 垫肩披风搭银框眼镜科技感足 

中国历史发展过程|中国历史发展过程.中国的科技史界过去半个多世纪 

天津|桂发祥：不再持有昆汀科技股份 

消费|减持！天通股份：减持博创科技约32万股 

处罚|老周侃股：吉鑫科技大股东应补偿踩雷投资者 

华中科技大学|杯具！超本科线95分，本科有路不走，却梦幻般碰瓷，撞开专科的门