
机器阅读理解是自然语言处理中的一个重要的任务,最常见的有单篇章的抽取式阅读理解。机器阅读理解的应用范围很广,比如客服机器人,通过文字或者语音与用户进行沟通交流,然后获取相关的信息并提供准确可靠的回答。搜索引擎中精确返回用户所给定问题的答案。在医疗领域中自动阅读病人的资料来找到相应的病因。在教育领域中,利用阅读理解模型自动为学生的作文给出改进意见等等。中医是中华民族的瑰宝,此次任务将机器阅读理解和中医药领域文本结合起来,通过 PaddleNLP 开发库,让计算机帮助人类在大量中医文本中找到想要的答案,从而减轻人们对信息的获取的成本。





二、 数据处理

具体的任务定义为:对于一个给定的问题q和一个篇章p,根据篇章内容,给出该问题的答案a。数据集中的每个样本,是一个三元组<q, p, a>,例如:

问题 q: 草菇有什么功效?

篇章 p: 草菇荠菜汤鲜嫩清香、色味搭配,具有清热和脾、益气平肝、降糖降压等功效,是夏季解暑祛热的良食佳品…

参考答案 a: 草菇荠菜汤鲜嫩清香、色味搭配,具有清热和脾、益气平肝、降糖降压等功效,是夏季解暑祛热的良食佳品


  • id: 段落id
  • text: 段落文本
  • annotations: 包含(问题、答案)对,共有
  • Q:问题
  • A:答案


    'id': 'xx', 'title': 'xxx', 
    'context': 'xxxx', 
    'question': 'xxxxx', 
    'answers': ['xxxx'], 
    'answer_starts': [xxx]

关于该数据集的详细内容,可参考数据集https://aistudio.baidu.com/aistudio/datasetdetail/181560 或天池比赛链接.

# 首先导入实验所需要用到的库包。
# base
import paddlenlp as ppnlp
from utils import prepare_train_features, prepare_validation_features
from functools import partial
from paddlenlp.metrics.squad import squad_evaluate, compute_prediction

import collections
import time
import json

# data preprocess: 
from paddlenlp.datasets import load_dataset, MapDataset
from sklearn.model_selection import train_test_split
from paddle.io import Dataset

# Build the dataloader
import paddle
from paddlenlp.data import Stack, Dict, Pad
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  def convert_to_list(value, n, name, dtype=np.int):

2.1 数据集加载与处理





# data preprocess:
def read(data_path):
    with open(data_path, 'r', encoding='utf-8') as f:
        for line in f:
            raw = line.strip('\n')
            id_Index = raw.find("id")
            if id_Index == 5 and raw[5] == 'i':
                id_raw = raw[id_Index+5:]
                id = id_raw[:len(id_raw)-1].replace('\"', "")            

            text_Index = raw.find("text")

            if text_Index == 5 and raw[5] == 't':
                text_raw = raw[text_Index+8:]
                text = text_raw[:len(text_raw)-2]

            ques_Index = raw.find("Q")

            if ques_Index == 9 and raw[9] == 'Q':
                ques_raw = raw[ques_Index+5:]
                ques = ques_raw[:len(ques_raw) - 2]

            ans_Index = raw.find("A")
            if ans_Index == 9 and raw[9] == 'A':
                ans_raw = raw[ans_Index+5:]
                ans = ans_raw[:len(ans_raw) - 1]

                ans_start = [text.find(ans)]
                ans = [ans]

                yield {'id': id, 'title': '', 'context': text, 'question': ques, 'answers': ans, 'answer_starts': ans_start}
map_ds= load_dataset(read, data_path='/home/aistudio/data/data181560/中医数据集.json',lazy=False)

ds1, ds2 = train_test_split(map_ds, test_size=0.08, random_state=42, shuffle=True)
train_ds = MapDataset(ds1)
dev_ds = MapDataset(ds2)

# 数据集展示
for i in range(1):
{'id': '1240', 'title': '', 'context': '\\"胆石症的治疗应区别不同情况分别处理,无症状胆囊结石可不作治疗,但应定期观察并注意良好的饮食习惯。有症状的胆囊结石仍以胆囊切除术为较安全有效的疗法,此外,尚可采用体外震波碎石。胆管结石宜采用以手术为主的综合治疗。胆石症的家庭治疗可采用以下方法:\\\\n(1)一般治疗    预防和治疗肠道寄生虫病和肠道感染,以降低胆石症的发病率。胆绞痛发作期应禁食脂肪等食物,采用高碳水化合物流质饮食;缓解期应忌食富含胆固醇的食物如脑、肝、肾、蛋黄等。\\\\n(2)增进胆汁排泄    可选用50%硫酸镁10~15毫升,餐后口服,每日3次;胆盐每次口服0.5~1克,每日3次;去氢胆酸0.25克,每日3次,餐后服用。\\\\n(3)消除胆绞痛    轻者可卧床休息,右上腹热敷,用硝酸甘油酯0.6毫克,每3~4小时一次,含于舌下;或阿托品0.5毫克,每3~4小时肌肉注射一次。重者应住院治疗。\\\\n(4)排石疗法以中药治疗为主,若右上腹疼痛有间歇期,无明显发热及黄疸,苔薄白,脉弦,属气滞者,用生大黄6克、木香9克、枳壳9克、金钱草30克、川楝子9克、黄苓9克,水煎服。右上腹痛为持续性,且阵发性加剧,有明显发热及黄疸,舌红苔黄,', 'question': '什么类型的胆囊结石可不作治疗?', 'answers': ['无症状胆囊结'], 'answer_starts': [20]}

{'id': '13462', 'title': '', 'context': '古人言“养生贵在养神”,经常排除杂念、静养心神、闭目休息,是一种调养精神的简便方法。闭目养神能养阴去燥,特别是饭后闭目20分钟,可护肝消食。饭后,身体内的血液都集中到消化道内,参与食物的消化吸收,如果此时行走、运动,就会有一部分血液流向手足,肝脏则会出现供血量不足的情况,影响其正常的新陈代谢。饭后闭目静坐20分钟,能使血液更多地流向肝脏,供给肝细胞氧和营养成分。患有肝病的人,饭后更应该闭目养神。', 'question': '调养精神的简便方法?', 'answers': ['经常排除杂念、静养心神、闭目休息'], 'answer_starts': [12]}





# 更多可选择模型:
# ['bert-base-uncased', 'bert-large-uncased', 'bert-base-multilingual-uncased', 'bert-base-cased', 'bert-base-chinese', 'bert-base-multilingual-cased'
# , 'bert-large-cased', 'bert-wwm-chinese', 'bert-wwm-ext-chinese', 'macbert-base-chinese', 'macbert-large-chinese', 'simbert-base-chinese']

# 定义使用paddleNLP内置的roberta中文预训练模型
MODEL_NAME = 'roberta-wwm-ext-large'
tokenizer = ppnlp.transformers.RobertaTokenizer.from_pretrained(MODEL_NAME)
[2022-12-07 00:36:50,934] [    INFO] - Found /home/aistudio/.paddlenlp/models/roberta-wwm-ext-large/vocab.txt

2.2 数据转化


max_seq_length = 512
doc_stride = 128

train_trans_func = partial(prepare_train_features, 

train_ds.map(train_trans_func, batched=True)

dev_trans_func = partial(prepare_validation_features, 
dev_ds.map(dev_trans_func, batched=True)

# 展示数据处理效果
for idx in range(2):
[101, 7946, 5698, 7937, 4638, 5852, 1075, 817, 966, 680, 4635, 5698, 7937, 1525, 702, 3291, 7770, 8043, 102, 5698, 7937, 3300, 7946, 4635, 697, 4905, 8024, 794, 5852, 1075, 4906, 2110, 4692, 8024, 3187, 6389, 7946, 5698, 7937, 510, 4635, 5698, 7937, 6963, 3221, 5852, 1075, 705, 2168, 4638, 7608, 4289, 8024, 5735, 671, 2137, 6206, 1146, 1139, 7770, 678, 8024, 6929, 720, 7946, 5698, 7937, 4638, 5852, 1075, 817, 966, 4526, 7770, 754, 4635, 5698, 7937, 511, 2792, 809, 8024, 4500, 754, 6133, 4660, 1075, 4495, 4638, 1914, 711, 7946, 5698, 7937, 8024, 5445, 4635, 5698, 7937, 1728, 711, 5682, 3813, 4023, 778, 8024, 1156, 3291, 1914, 1765, 4500, 1762, 3189, 2382, 7650, 7608, 704, 976, 4157, 5345, 722, 4500, 511, 7608, 4545, 868, 4500, 7946, 5698, 7937, 2595, 1456, 4491, 510, 2398, 8024, 1072, 3300, 3996, 1075, 5498, 5513, 510, 1075, 6117, 3883, 4246, 4638, 868, 4500, 511, 7370, 749, 1920, 2157, 4225, 4761, 4638, 723, 1355, 1216, 3126, 722, 1912, 8024, 7946, 5698, 7937, 6820, 3300, 2523, 1962, 4638, 2834, 3709, 1265, 1216, 5543, 8024, 1728, 711, 2124, 705, 2168, 4638, 3779, 5544, 1469, 5335, 4495, 5162, 147, 8024, 5543, 3996, 3883, 4649, 5502, 510, 6133, 6117, 6858, 912, 8024, 3221, 1075, 7582, 7728, 7582, 4638, 924, 1075, 881, 1501, 511, 2124, 6820, 1419, 3300, 7344, 3632, 782, 860, 1355, 5523, 4638, 4289, 6574, 6028, 7942, 5162, 510, 5519, 4822, 510, 5491, 5131, 8024, 1728, 3634, 5698, 7937, 1391, 1914, 749, 738, 679, 833, 1355, 5523, 511, 1762, 5688, 7608, 1121, 5503, 4638, 1398, 3198, 8024, 5735, 6981, 1394, 5698, 7937, 4638, 7608, 4500, 8024, 5110, 5133, 4638, 4649, 5502, 1377, 5815, 2533, 3121, 1587, 511, 3634, 1912, 8024, 7946, 5698, 7937, 6820, 1072, 3300, 4660, 5554, 1856, 7767, 4638, 1216, 3126, 8024, 2190, 754, 671, 763, 5498, 5513, 679, 6639, 2792, 5636, 1928, 3238, 4680, 4700, 510, 6381, 2554, 1213, 1121, 6842, 4638, 782, 3341, 6432, 8024, 1914, 1391, 671, 763, 7946, 5698, 7937, 833, 3353, 3300, 4660, 1905, 511, 7608, 4500, 722, 3791, 2769, 812, 2398, 3189, 7027, 1391, 1168, 4638, 5698, 7937, 1169, 1501, 1914, 711, 5698, 7937, 6996, 1469, 5698, 7937, 7676, 3779, 511, 1391, 3146, 5108, 4638, 5698, 7937, 2190, 754, 5852, 1075, 4638, 1429, 3119, 3341, 6432, 2400, 679, 3221, 3297, 1962, 4638, 8024, 1728, 711, 5698, 7937, 4638, 1912, 7481, 3300, 671, 2231, 4924, 4801, 4638, 5606, 8024, 1372, 3300, 2828, 2124, 4827, 4810, 8024, 1071, 704, 4638, 5852, 1075, 5162, 2798, 5543, 6158, 1429, 3119, 511, 2792, 809, 8024, 5698, 7937, 3297, 1962, 4827, 4810, 749, 1086, 1391, 511, 996, 2100, 3300, 6887, 743, 3341, 4638, 5698, 7937, 6206, 4500, 2166, 2196, 2595, 1962, 4638, 2159, 1690, 3341, 996, 2100, 8024, 2400, 2100, 3123, 1762, 7346, 1117, 2397, 4246, 4638, 1765, 3175, 8024, 6912, 1048, 7345, 1045, 4684, 2198, 511, 1963, 3362, 2199, 5698, 7937, 4143, 4225, 3256, 2397, 1156, 3291, 1217, 1164, 754, 2100, 3123, 511, 102]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[101, 7370, 749, 3580, 2094, 1912, 8024, 6820, 3300, 1525, 763, 1072, 3300, 5710, 7676, 1456, 4638, 3717, 3362, 8043, 102, 100, 3379, 3580, 1072, 3300, 5710, 7676, 3698, 1456, 8024, 1762, 671, 2137, 4923, 2428, 677, 1377, 809, 2458, 4964, 6237, 4920, 511, 100, 1266, 776, 704, 1278, 5790, 1920, 2110, 2382, 4995, 2168, 3136, 2956, 2456, 6379, 8024, 1963, 3362, 1762, 1309, 2147, 7027, 3123, 671, 702, 3580, 2094, 8024, 3926, 3173, 4638, 3698, 1456, 8024, 5543, 1916, 1173, 4080, 4868, 5307, 5143, 5320, 4638, 1069, 1939, 8024, 6375, 782, 4868, 3926, 3698, 4272, 8024, 3926, 7370, 3738, 3843, 4638, 4958, 3698, 8024, 4685, 2190, 5401, 1265, 2147, 1079, 4638, 4384, 1862, 511, 2382, 4995, 2168, 3136, 2956, 2900, 1139, 8024, 794, 704, 1278, 6235, 2428, 3341, 6432, 8024, 3580, 2094, 1072, 3300, 4638, 5710, 7676, 1456, 8024, 1377, 809, 1265, 3969, 510, 7008, 5569, 510, 6912, 4920, 510, 2458, 4964, 8024, 7370, 749, 7008, 5554, 2458, 4964, 1912, 8024, 2496, 2697, 6230, 726, 1213, 510, 5517, 5499, 7653, 5515, 8024, 679, 2682, 1391, 691, 6205, 3198, 8024, 6844, 2496, 7319, 7319, 3580, 2094, 4638, 3926, 7676, 8024, 1377, 809, 5353, 6237, 679, 6844, 4638, 4568, 4307, 511, 5710, 7676, 4638, 3698, 1456, 6820, 5543, 1916, 886, 782, 7252, 7474, 2128, 4868, 8024, 2828, 3580, 2094, 3123, 1762, 2414, 1928, 8024, 738, 3300, 1164, 754, 4717, 4697, 511, 5445, 3580, 2094, 3382, 1469, 4638, 5682, 2506, 8024, 833, 5314, 782, 3946, 3265, 4638, 2697, 6230, 8024, 1728, 3634, 8024, 1377, 809, 6432, 3580, 2094, 3221, 2147, 1079, 4638, 100, 2341, 3030, 6392, 100, 511, 7370, 749, 3580, 2094, 1912, 8024, 6820, 3300, 2523, 1914, 1072, 3300, 5710, 7676, 1456, 4638, 3717, 3362, 8024, 1963, 5741, 3362, 510, 7676, 5933, 8024, 2190, 2147, 1079, 4384, 1862, 4638, 1112, 1265, 738, 833, 3300, 671, 2137, 4638, 2512, 1510, 511, 852, 6821, 763, 3698, 1456, 2190, 924, 2898, 978, 2434, 3341, 6432, 8024, 1372, 5543, 6629, 1168, 6774, 1221, 3780, 4545, 4638, 2797, 3667, 8024, 2400, 684, 7444, 6206, 6809, 1168, 671, 2137, 4638, 3849, 2428, 511, 102]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
  • input_ids: 表示输入文本的token ID。
  • token_type_ids: 表示对应的token属于输入的问题还是答案。(Transformer类预训练模型支持单句以及句对输入)。
  • overflow_to_sample: feature对应的example的编号。
  • offset_mapping: 每个token的起始字符和结束字符在原文中对应的index(用于生成答案文本)。
  • start_positions: 答案在这个feature中的开始位置。
  • end_positions: 答案在这个feature中的结束位置。

2.3 构造Dataloader


# Build the dataloader
batch_size = 8

train_batch_sampler = paddle.io.DistributedBatchSampler(
        train_ds, batch_size=batch_size, shuffle=True)

train_batchify_fn = lambda samples, fn=Dict({
    "input_ids": Pad(axis=0, pad_val=tokenizer.pad_token_id),
    "token_type_ids": Pad(axis=0, pad_val=tokenizer.pad_token_type_id),
    "start_positions": Stack(dtype="int64"),
    "end_positions": Stack(dtype="int64")
}): fn(samples)

train_data_loader = paddle.io.DataLoader(

dev_batch_sampler = paddle.io.BatchSampler(
    dev_ds, batch_size=batch_size, shuffle=False)

dev_batchify_fn = lambda samples, fn=Dict({
    "input_ids": Pad(axis=0, pad_val=tokenizer.pad_token_id),
    "token_type_ids": Pad(axis=0, pad_val=tokenizer.pad_token_type_id)
}): fn(samples)

dev_data_loader = paddle.io.DataLoader(
for idx in range(2):

[101, 7946, 5698, 7937, 4638, 5852, 1075, 817, 966, 680, 4635, 5698, 7937, 1525, 702, 3291, 7770, 8043, 102, 5698, 7937, 3300, 7946, 4635, 697, 4905, 8024, 794, 5852, 1075, 4906, 2110, 4692, 8024, 3187, 6389, 7946, 5698, 7937, 510, 4635, 5698, 7937, 6963, 3221, 5852, 1075, 705, 2168, 4638, 7608, 4289, 8024, 5735, 671, 2137, 6206, 1146, 1139, 7770, 678, 8024, 6929, 720, 7946, 5698, 7937, 4638, 5852, 1075, 817, 966, 4526, 7770, 754, 4635, 5698, 7937, 511, 2792, 809, 8024, 4500, 754, 6133, 4660, 1075, 4495, 4638, 1914, 711, 7946, 5698, 7937, 8024, 5445, 4635, 5698, 7937, 1728, 711, 5682, 3813, 4023, 778, 8024, 1156, 3291, 1914, 1765, 4500, 1762, 3189, 2382, 7650, 7608, 704, 976, 4157, 5345, 722, 4500, 511, 7608, 4545, 868, 4500, 7946, 5698, 7937, 2595, 1456, 4491, 510, 2398, 8024, 1072, 3300, 3996, 1075, 5498, 5513, 510, 1075, 6117, 3883, 4246, 4638, 868, 4500, 511, 7370, 749, 1920, 2157, 4225, 4761, 4638, 723, 1355, 1216, 3126, 722, 1912, 8024, 7946, 5698, 7937, 6820, 3300, 2523, 1962, 4638, 2834, 3709, 1265, 1216, 5543, 8024, 1728, 711, 2124, 705, 2168, 4638, 3779, 5544, 1469, 5335, 4495, 5162, 147, 8024, 5543, 3996, 3883, 4649, 5502, 510, 6133, 6117, 6858, 912, 8024, 3221, 1075, 7582, 7728, 7582, 4638, 924, 1075, 881, 1501, 511, 2124, 6820, 1419, 3300, 7344, 3632, 782, 860, 1355, 5523, 4638, 4289, 6574, 6028, 7942, 5162, 510, 5519, 4822, 510, 5491, 5131, 8024, 1728, 3634, 5698, 7937, 1391, 1914, 749, 738, 679, 833, 1355, 5523, 511, 1762, 5688, 7608, 1121, 5503, 4638, 1398, 3198, 8024, 5735, 6981, 1394, 5698, 7937, 4638, 7608, 4500, 8024, 5110, 5133, 4638, 4649, 5502, 1377, 5815, 2533, 3121, 1587, 511, 3634, 1912, 8024, 7946, 5698, 7937, 6820, 1072, 3300, 4660, 5554, 1856, 7767, 4638, 1216, 3126, 8024, 2190, 754, 671, 763, 5498, 5513, 679, 6639, 2792, 5636, 1928, 3238, 4680, 4700, 510, 6381, 2554, 1213, 1121, 6842, 4638, 782, 3341, 6432, 8024, 1914, 1391, 671, 763, 7946, 5698, 7937, 833, 3353, 3300, 4660, 1905, 511, 7608, 4500, 722, 3791, 2769, 812, 2398, 3189, 7027, 1391, 1168, 4638, 5698, 7937, 1169, 1501, 1914, 711, 5698, 7937, 6996, 1469, 5698, 7937, 7676, 3779, 511, 1391, 3146, 5108, 4638, 5698, 7937, 2190, 754, 5852, 1075, 4638, 1429, 3119, 3341, 6432, 2400, 679, 3221, 3297, 1962, 4638, 8024, 1728, 711, 5698, 7937, 4638, 1912, 7481, 3300, 671, 2231, 4924, 4801, 4638, 5606, 8024, 1372, 3300, 2828, 2124, 4827, 4810, 8024, 1071, 704, 4638, 5852, 1075, 5162, 2798, 5543, 6158, 1429, 3119, 511, 2792, 809, 8024, 5698, 7937, 3297, 1962, 4827, 4810, 749, 1086, 1391, 511, 996, 2100, 3300, 6887, 743, 3341, 4638, 5698, 7937, 6206, 4500, 2166, 2196, 2595, 1962, 4638, 2159, 1690, 3341, 996, 2100, 8024, 2400, 2100, 3123, 1762, 7346, 1117, 2397, 4246, 4638, 1765, 3175, 8024, 6912, 1048, 7345, 1045, 4684, 2198, 511, 1963, 3362, 2199, 5698, 7937, 4143, 4225, 3256, 2397, 1156, 3291, 1217, 1164, 754, 2100, 3123, 511, 102]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[101, 7370, 749, 3580, 2094, 1912, 8024, 6820, 3300, 1525, 763, 1072, 3300, 5710, 7676, 1456, 4638, 3717, 3362, 8043, 102, 100, 3379, 3580, 1072, 3300, 5710, 7676, 3698, 1456, 8024, 1762, 671, 2137, 4923, 2428, 677, 1377, 809, 2458, 4964, 6237, 4920, 511, 100, 1266, 776, 704, 1278, 5790, 1920, 2110, 2382, 4995, 2168, 3136, 2956, 2456, 6379, 8024, 1963, 3362, 1762, 1309, 2147, 7027, 3123, 671, 702, 3580, 2094, 8024, 3926, 3173, 4638, 3698, 1456, 8024, 5543, 1916, 1173, 4080, 4868, 5307, 5143, 5320, 4638, 1069, 1939, 8024, 6375, 782, 4868, 3926, 3698, 4272, 8024, 3926, 7370, 3738, 3843, 4638, 4958, 3698, 8024, 4685, 2190, 5401, 1265, 2147, 1079, 4638, 4384, 1862, 511, 2382, 4995, 2168, 3136, 2956, 2900, 1139, 8024, 794, 704, 1278, 6235, 2428, 3341, 6432, 8024, 3580, 2094, 1072, 3300, 4638, 5710, 7676, 1456, 8024, 1377, 809, 1265, 3969, 510, 7008, 5569, 510, 6912, 4920, 510, 2458, 4964, 8024, 7370, 749, 7008, 5554, 2458, 4964, 1912, 8024, 2496, 2697, 6230, 726, 1213, 510, 5517, 5499, 7653, 5515, 8024, 679, 2682, 1391, 691, 6205, 3198, 8024, 6844, 2496, 7319, 7319, 3580, 2094, 4638, 3926, 7676, 8024, 1377, 809, 5353, 6237, 679, 6844, 4638, 4568, 4307, 511, 5710, 7676, 4638, 3698, 1456, 6820, 5543, 1916, 886, 782, 7252, 7474, 2128, 4868, 8024, 2828, 3580, 2094, 3123, 1762, 2414, 1928, 8024, 738, 3300, 1164, 754, 4717, 4697, 511, 5445, 3580, 2094, 3382, 1469, 4638, 5682, 2506, 8024, 833, 5314, 782, 3946, 3265, 4638, 2697, 6230, 8024, 1728, 3634, 8024, 1377, 809, 6432, 3580, 2094, 3221, 2147, 1079, 4638, 100, 2341, 3030, 6392, 100, 511, 7370, 749, 3580, 2094, 1912, 8024, 6820, 3300, 2523, 1914, 1072, 3300, 5710, 7676, 1456, 4638, 3717, 3362, 8024, 1963, 5741, 3362, 510, 7676, 5933, 8024, 2190, 2147, 1079, 4384, 1862, 4638, 1112, 1265, 738, 833, 3300, 671, 2137, 4638, 2512, 1510, 511, 852, 6821, 763, 3698, 1456, 2190, 924, 2898, 978, 2434, 3341, 6432, 8024, 1372, 5543, 6629, 1168, 6774, 1221, 3780, 4545, 4638, 2797, 3667, 8024, 2400, 684, 7444, 6206, 6809, 1168, 671, 2137, 4638, 3849, 2428, 511, 102]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Roberta模型主要是在BERT基础上做了几点调整: 1)训练时间更长,batch size更大,训练数据更多; 2)移除了next predict loss; 3)训练序列更长; 4)动态调整Masking机制。 5) Byte level BPE RoBERTa is trained with dynamic masking





# 设置想要使用模型的名称
model = ppnlp.transformers.RobertaForQuestionAnswering.from_pretrained(MODEL_NAME)
100%|██████████| 1271615/1271615 [00:17<00:00, 71811.19it/s]
4.1 设置Fine-Tune优化策略


# 训练过程中的最大学习率
learning_rate = 3e-5 
# 训练轮次
epochs = 2
# 学习率预热比例
warmup_proportion = 0.1
# 权重衰减系数,类似模型正则项策略,避免模型过拟合
weight_decay = 0.01

num_training_steps = len(train_data_loader) * epochs
lr_scheduler = ppnlp.transformers.LinearDecayWithWarmup(learning_rate, num_training_steps, warmup_proportion)

# Generate parameter names needed to perform weight decay.
# All bias and LayerNorm parameters are excluded.
decay_params = [
    p.name for n, p in model.named_parameters()
    if not any(nd in n for nd in ["bias", "norm"])
optimizer = paddle.optimizer.AdamW(
    apply_decay_param_fun=lambda x: x in decay_params)

4.2 设计loss function

由于BertForQuestionAnswering模型对将BertModel的sequence_output拆开成start_logits和end_logits进行输出,所以阅读理解任务的loss也由start_loss和end_loss组成,我们需要自己定义loss function。对于答案其实位置和结束位置的预测可以分别成两个分类任务。所以设计的loss function如下:

class CrossEntropyLossForSQuAD(paddle.nn.Layer):
    def __init__(self):
        super(CrossEntropyLossForSQuAD, self).__init__()

    def forward(self, y, label):
        start_logits, end_logits = y   # both shape are [batch_size, seq_len]
        start_position, end_position = label
        start_position = paddle.unsqueeze(start_position, axis=-1)
        end_position = paddle.unsqueeze(end_position, axis=-1)
        start_loss = paddle.nn.functional.softmax_with_cross_entropy(
            logits=start_logits, label=start_position, soft_label=False)
        start_loss = paddle.mean(start_loss)
        end_loss = paddle.nn.functional.softmax_with_cross_entropy(
            logits=end_logits, label=end_position, soft_label=False)
        end_loss = paddle.mean(end_loss)

        loss = (start_loss + end_loss) / 2
        return loss



  1. 从dataloader中取出一个batch data
  2. 将batch data喂给model,做前向计算
  3. 将前向计算结果传给损失函数,计算loss。
  4. loss反向回传,更新梯度。重复以上步骤。

每训练一个epoch时,程序通过evaluate()调用paddlenlp.metric.squad中的squad_evaluate(), compute_predictions()评估当前模型训练的效果,其中:

  • compute_predictions()用于生成可提交的答案;

  • squad_evaluate()用于返回评价指标。


def evaluate(model, data_loader):

    all_start_logits = []
    all_end_logits = []
    tic_eval = time.time()

    for batch in data_loader:
        input_ids, token_type_ids = batch
        start_logits_tensor, end_logits_tensor = model(input_ids,

        for idx in range(start_logits_tensor.shape[0]):
            if len(all_start_logits) % 1000 == 0 and len(all_start_logits):
                print("Processing example: %d" % len(all_start_logits))
                print('time per 1000:', time.time() - tic_eval)
                tic_eval = time.time()


    all_predictions, _, _ = compute_prediction(
        data_loader.dataset.data, data_loader.dataset.new_data,
        (all_start_logits, all_end_logits), False, 20, 30)
# train

criterion = CrossEntropyLossForSQuAD()
global_step = 0
for epoch in range(1, epochs + 1):
    for step, batch in enumerate(train_data_loader, start=1):
        global_step += 1
        input_ids, segment_ids, start_positions, end_positions = batch
        logits = model(input_ids=input_ids, token_type_ids=segment_ids)
        loss = criterion(logits, (start_positions, end_positions))

        if global_step % 100 == 0 :
            print("global step %d, epoch: %d, batch: %d, loss: %.5f" % (global_step, epoch, step, loss))

    evaluate(model=model, data_loader=dev_data_loader) 

# save model

# load model
# tokenizer = BertTokenizer.from_pretrained("./checkpoint")
# model = BertModel.from_pretrained("./checkpoint")
time per 1000: 33.68374156951904
time per 1000: 33.705798625946045
# model predict
import paddle

def do_predict(model, data_loader):

    all_start_logits = []
    all_end_logits = []
    tic_eval = time.time()

    for batch in data_loader:
        input_ids, token_type_ids = batch
        start_logits_tensor, end_logits_tensor = model(input_ids,

        for idx in range(start_logits_tensor.shape[0]):
            if len(all_start_logits) % 1000 == 0 and len(all_start_logits):
                print("Processing example: %d" % len(all_start_logits))
                print('time per 1000:', time.time() - tic_eval)
                tic_eval = time.time()


    all_predictions, _, _ = compute_prediction(
        data_loader.dataset.data, data_loader.dataset.new_data,
        (all_start_logits, all_end_logits), False, 20, 30)

    count = 0
    for example in data_loader.dataset.data:
        count += 1
        if count >= 2:
do_predict(model, dev_data_loader)
问题: 无名指与食指长度差可能辅助用于预测什么疾病?
原文: 大屁股记忆差根据美国西北大学医学院的研究,看起来身形笨拙的“苹果形”身材的女性,其实记忆力远比“梨形”身材的女性要好。研究人员发现,腰腹部稍稍有一点儿脂肪堆积,有助于女性分泌身体必需的雌激素,尤其是对于绝经期妇女而言。而适量的脂肪有助于保护大脑各项功能,特别是记忆力。食指长更抑郁韩国一项最新研究发现,无名指长的男人患前列腺癌的几率会增加3倍。研究负责人表示,在不久的将来,无名指与食指长度差可能辅助用于预测前列腺癌。研究者指出,较高水平的雄性激素会导致右手无名指较长,而雄性激素正是刺激前列腺肿瘤生长的激素。无名指比食指长的人易患孤独症,食指较长的人易患抑郁症。此外,利物浦大学的研究人员发现,无名指较短的男性年轻时更易发生心梗,因为他们体内可以预防心梗的睾丸激素水平较低。大腿细心脏差来自哥本哈根大学医院的贝丽特·海特曼和佩德·弗雷泽里克森梳理了医院在上世纪80年代后期获取的数千个体测数据后发现,大腿围不足60厘米者比大腿围达到60厘米的人更容易患心脏病,患病比例是后者的两倍左右。
答案: 前列腺癌。

问题: 终日无所事事时我们可以做些什么?
原文: 凡事都有度,养生这件事也不例外。“不过度”就意味着节制,国家级名老中医、湖北省中医院涂晋文教授告诉《生命时报》记者,日常生活中的一些细节,只要长期坚持并且把握好度,就能强身健体、延年益寿。大家不妨对照试试↓生命时报特约记者喻朝晖衣不过暖:穿衣戴帽不要过于暖和,也不可过于单薄,过暖容易感冒,过冷容易受寒。食不过饱:吃饭不要过饱,粗细都吃,荤素相兼。住不过奢:要随遇而安,居室富丽堂皇易夺心志而变质。行不过富:身体健康允许,尽量以步代车。如出门必乘车,日久腿脚就要失去灵便。劳不过累:劳动的强度是有限的,超过负荷量容易造成身体伤害。每日工作8小时,8小时外适当地休闲,劳逸结合很必要。逸不过安:终日无所事事,会丧失对生活的情趣而心灰意懒,所以即使退休在家,也应勤于动脑,散步聊天、写字作画、下棋看戏等,心情由此舒畅,益于延年增寿。喜不过欢:人逢喜事精神爽。但是喜不能过头,“过喜则伤心”,古人范进中举后变疯,即为过喜所致。怒不可暴:有不顺心和烦恼的事,不要生气恼怒。怒则伤肝,伤肝就要发病。要有涵养,乐观处世。名不过求:名不过求、利不过贪,能给人带来平淡的幸福感。
答案: 散步聊天、写字作画、下棋看戏等,心情由此舒畅,益于延年增寿。



静态图是预测部署通常采用的方式。通过静态图中预先定义的网络结构,一方面无需像动态图那样执行开销较大的Python代码;另一方面,预先固定的图结构也为基于图的优化提供了可能,这些能够有效提升预测部署的性能。常用的基于图的优化策略有内存复用和算子融合,这需要预测引擎的支持。下面是算子融合的一个示例(将Transformer Block的FFN中的矩阵乘->加bias->relu激活替换为单个算子):


7.1 动转静导出模型



import paddle
# 默认为动态图模式,这里开启静态图模式
# 定义输入变量,静态图下变量只是一个符号化表示,并不像动态图 Tensor 那样持有实际数据
x = paddle.static.data(shape=[None, 128], dtype='float32', name='x')
linear = paddle.nn.Linear(128, 256, bias_attr=False)
# 定义计算网络,输入和输出也都是符号化表示
y = linear(x)
# 打印 program
# 关闭静态图模式
{ // block 0
    var x : paddle.VarType.LOD_TENSOR.shape(-1, 128).astype(VarType.FP32)
    persist trainable param linear_0.w_0 : paddle.VarType.LOD_TENSOR.shape(128, 256).astype(VarType.FP32)
    var linear_1.tmp_0 : paddle.VarType.LOD_TENSOR.shape(-1, 256).astype(VarType.FP32)

    {Out=['linear_1.tmp_0']} = matmul(inputs={X=['x'], Y=['linear_0.w_0']}, Scale_out = 1.0, Scale_x = 1.0, Scale_y = 1.0, alpha = 1.0, force_fp32_output = False, fused_reshape_Out = [], fused_reshape_X = [], fused_reshape_Y = [], fused_transpose_Out = [], fused_transpose_X = [], fused_transpose_Y = [], mkldnn_data_type = float32, op_device = , op_namescope = /, op_role = 0, op_role_var = [], transpose_X = False, transpose_Y = False, use_mkldnn = False, use_quantizer = False)


  1. paddle.jit.to_static 完成动态图模型到静态图模型的转换。
  • 网络结构:将动态图模型的forward函数转写(重点将Python控制流转换为Paddle对应API的调用),然后以静态图模式执行,生成Program。
  • 参数权重:将动态图模型的参数在生成Program时对应到其中的变量上。


# 设置log输出转写的代码内容
# paddle.jit.set_code_level(100)

# 加载动态图模型
param_state_dict = paddle.load("checkpoint/model_state.pdparams")

# 动转静,通过`input_spec`给出模型所需输入数据的描述,shape中的None代表可变的大小,类似上面静态图模式中的`paddle.static.data`
model_static = paddle.jit.to_static(
            shape=[None, None], dtype="int64"),  # input_ids: [batch_size, max_seq_len]
            shape=[None], dtype="int64")  # length: [batch_size]
# 打印动转静产生的Program以及输入变量
# # 打印模型参数权重内容
persist trainable param linear_127.b_0 : paddle.VarType.LOD_TENSOR.shape(1024,).astype(VarType.FP32)
    var linear_127.tmp_0 : paddle.VarType.LOD_TENSOR.shape(-1, -1, 1024).astype(VarType.FP32)
    var linear_127.tmp_1 : paddle.VarType.LOD_TENSOR.shape(-1, -1, 1024).astype(VarType.FP32)
    persist trainable param linear_128.w_0 : paddle.VarType.LOD_TENSOR.shape(1024, 1024).astype(VarType.FP32)
    persist trainable param linear_128.b_0 : paddle.VarType.LOD_TENSOR.shape(1024,).astype(VarType.FP32)
    var linear_128.tmp_0 : paddle.VarType.LOD_TENSOR.shape(-1, -1, 1024).astype(VarType.FP32)
  [var input_ids : paddle.VarType.LOD_TENSOR.shape(-1, -1).astype(VarType.INT64), var token_type_ids : paddle.VarType.LOD_TENSOR.shape(-1,).astype(VarType.INT64)]
<bound method PyCapsule.value of Parameter containing:
Tensor(shape=[21128, 1024], dtype=float32, place=CUDAPlace(0), stop_gradient=False,
       [[ 0.02093766,  0.04043975, -0.02231590, ..., -0.00104699,  0.01650023, -0.00473674],
        [-0.03206097,  0.06535473, -0.05432026, ...,  0.00993754,  0.02322754, -0.02759956],
        [ 0.04299722,  0.06158005, -0.00912949, ..., -0.01705220, -0.02060436, -0.04537297],
        [-0.00458803,  0.05845100, -0.03022355, ...,  0.02722553,  0.05777356,  0.01021087],
        [ 0.05257823,  0.03553688, -0.00079630, ..., -0.00281990,  0.01666584, -0.08521493],
        [-0.02762268,  0.08472827,  0.00651097, ...,  0.00811364, -0.00589278, -0.00263454]])>
  1. paddle.jit.save 完成静态图模型(网络结构和参数权重)的序列化保存。
  • 网络结构:以.pdmodel为扩展名的文件,可以使用visualdl来可视化。
  • 参数权重:以.pdiparams为扩展名的文件。
import os

# 保存动转静后的模型,得到 infer_model/model.pdmodel 和 infer_model/model.pdiparams 文件
paddle.jit.save(model_static, "infer_model/model")
['model.pdiparams', 'model.pdmodel', 'model.pdiparams.info']

7.2 使用推理库预测

获得静态图模型之后,我们使用Paddle Inference进行预测部署。Paddle Inference是飞桨的原生推理库,作用于服务器端和云端,提供高性能的推理能力。

Paddle Inference采用 Predictor 进行预测。Predictor 是一个高性能预测引擎,该引擎通过对计算图的分析,完成对计算图的一系列的优化(如OP的融合、内存/显存的优化、 MKLDNN,TensorRT 等底层加速库的支持等),能够大大提升预测性能。另外Paddle Inference提供了Python、C++、GO等多语言的API,可以根据实际环境需要进行选择,为了便于演示这里使用Python API来完成,其已在安装的Paddle包中集成,直接使用即可。使用 Paddle Inference 开发 Python 预测程序仅需以下步骤:

import paddle.inference as paddle_infer

# 1. 创建配置对象,设置预测模型路径 
config = paddle_infer.Config("infer_model/model.pdmodel", "infer_model/model.pdiparams")
# 启用 GPU 进行预测 - 初始化 GPU 显存 100M, Deivce_ID 为 0
# config.enable_use_gpu(100, 0)
# 2. 根据配置内容创建推理引擎
predictor = paddle_infer.create_predictor(config)
# 3. 设置输入数据
# 获取输入句柄
input_handles = [
            for name in predictor.get_input_names()
# 获取输入数据
data = dev_batchify_fn([dev_ds[0]])
# 设置输入数据
for input_field, input_handle in zip(data, input_handles):

# 4. 执行预测

# 5. 获取预测结果
# 获取输出句柄
output_handles = [
            for name in predictor.get_output_names()
# 从输出句柄获取预测结果
output = [output_handle.copy_to_cpu() for output_handle in output_handles]
# 打印预测结果
# print(output[:1000])

# 打印直接使用动态图模型预测的结果
# print(model(*data[:1000]))

# # Predictor和动态图模型预测速度对照
import time
start_time = time.time()
for i in range(1):
    for input_field, input_handle in zip(data, input_handles):
    output = [output_handle.copy_to_cpu() for output_handle in output_handles]
print("Predictor inference time: ", time.time() - start_time)

start_time = time.time()
for i in range(1):
    output = model(*data[:1000])
print("Dygraph model inference time: ", time.time() - start_time)

start_time = time.time()
for i in range(1):
    output = model_static(*data[:1000])
print("Static model inference time: ", time.time() - start_time)
  1. 将模型拷贝到本地,并按照接口要求封装好方法
import gradio as gr
def question_answer(context, question):
    pass  # Implement your question-answering model here...

gr.Interface(fn=question_answer, inputs=["text", "text"], outputs=["textbox", "text"]).launch(share=True)
  1. 将用户输入的context, question加载,并利用模型返回answer

  2. 返回到gradio部署的框内, 进行页面展示

8.1 获取单条信息的命令行答案演示

from paddlenlp.datasets import load_dataset, MapDataset
def test_preprocess(context : str, question : str):
    test_raw = [{'id':'', 'title':'', 'context':context, 'question':question, 'answers':[''], 'answer_starts':['']}]
    test_example = MapDataset(test_raw)
    dev_trans_func = partial(prepare_validation_features, 
    test_ds = test_example.map(dev_trans_func, batched=True)

    test_batch_sampler = paddle.io.BatchSampler(
        test_ds, batch_size=batch_size, shuffle=False)
    # test_ds_for_model = test_ds.remove_columns(["example_id", "offset_mapping"])
    test_data_loader = paddle.io.DataLoader(
    return test_example, test_ds, test_data_loader
import paddle
test_example, test_ds, test_data_loader = test_preprocess('草菇荠菜汤鲜嫩清香、色味搭配,具有清热和脾、益气平肝、降糖降压等功效,是夏季解暑祛热的良食佳品。具体做法如下,取新鲜草菇200克,荠菜50克,瘦猪肉50克,生姜、食盐、橄榄油适量。草菇洗净切片,芥菜洗净切段,生姜切丝,瘦肉剁成末。坐砂锅放入适量清水,倒入姜丝,大火烧开,滴加少量橄榄油,倒入草菇片,加盖焖煮2分钟;开盖加入肉末和荠菜,煮熟即可,加少量食盐调味。中医养生认为,草菇具有消食祛热,补脾益气,清暑热,降血压等功效。草菇含有丰富的维生素C,可预防牙龈出血,促进创伤愈合,而且促进铁的吸收,养血益气;草菇中钾、镁、硒等矿物元素较高,能促进人体新陈代谢,提高机体免疫力;另外草菇中的膳食纤维可以减慢人体对糖类的吸收,抑制餐后血糖的快速升高,是糖尿病患者的良好食品。荠菜有清热和脾、利水消肿等功效。荠菜中维C的含量比柑橘还要高,钙、钾、铁等含量均是大白菜的5倍以上,远高于普通蔬菜,丰富的矿物质能够壮骨养血,增强身体机能,保持年轻活力。另外,荠菜还含有大量的粗纤维和黄酮类物质,能够降血脂、保护心血管、抑癌抗癌,而且抑制毒物的吸收,促进毒物在肝脏的代谢排出,保肝护肝。',
from utils import evaluate
# 命令行运行效果演示,并将输出保存在本地prediction.json文件内
from utils import evaluate
# 命令行运行效果演示,并将输出保存在本地prediction.json文件内
evaluate(model=model, data_loader=test_data_loader)
  "exact": 0.0,
  "f1": 0.0,
  "total": 1,
  "HasAns_exact": 0.0,
  "HasAns_f1": 0.0,
  "HasAns_total": 1

问题: 草菇有什么功效?
原文: 草菇荠菜汤鲜嫩清香、色味搭配,具有清热和脾、益气平肝、降糖降压等功效,是夏季解暑祛热的良食佳品。具体做法如下,取新鲜草菇200克,荠菜50克,瘦猪肉50克,生姜、食盐、橄榄油适量。草菇洗净切片,芥菜洗净切段,生姜切丝,瘦肉剁成末。坐砂锅放入适量清水,倒入姜丝,大火烧开,滴加少量橄榄油,倒入草菇片,加盖焖煮2分钟;开盖加入肉末和荠菜,煮熟即可,加少量食盐调味。中医养生认为,草菇具有消食祛热,补脾益气,清暑热,降血压等功效。草菇含有丰富的维生素C,可预防牙龈出血,促进创伤愈合,而且促进铁的吸收,养血益气;草菇中钾、镁、硒等矿物元素较高,能促进人体新陈代谢,提高机体免疫力;另外草菇中的膳食纤维可以减慢人体对糖类的吸收,抑制餐后血糖的快速升高,是糖尿病患者的良好食品。荠菜有清热和脾、利水消肿等功效。荠菜中维C的含量比柑橘还要高,钙、钾、铁等含量均是大白菜的5倍以上,远高于普通蔬菜,丰富的矿物质能够壮骨养血,增强身体机能,保持年轻活力。另外,荠菜还含有大量的粗纤维和黄酮类物质,能够降血脂、保护心血管、抑癌抗癌,而且抑制毒物的吸收,促进毒物在肝脏的代谢排出,保肝护肝。
答案: 草菇具有消食祛热,补脾益气,清暑热,降血压等功效。

8.2 部署于gradio公共平台




  • 上github
  • 将代码打包或者封装成docker后,用QQ/百度云/U盘传输
  • 学习前后端知识,写个前端界面,买个域名,用flask这样微服务框架快速部署,看情况结合一下内网穿透。



Gradio是MIT的开源项目,GitHub 2k+ star。







进入public URL验证


9.1 模型效果对比

  • 上述表格得分为 F1 值
  • 最开始使用ernie2.0-large-en模型,结果发现好像该模型并不是针对于中文的预训练模型,因此导致效果比较差。
  • bert基本模型较为良好,能够基本完成任务。
  • 可以发现随着bert基线拓展而成的bert-wwm-ext-chinese模型与改良bert后的roberta-wwm-ext-large模型,能够取得较好的效果,随之付出的代价就是模型的体积变大,并且训练速度变迟缓。
  • 由于采用预训练 + 微调的方法,处理数据,因此Epoch过大极易发生过拟合,这也是我们以后应该避免的,尽量做到手工微调。

9.2 项目展望

  1. 数据:

    • 寻找更多优质中医语料数据集,进行简单增强

    • 采用回译等数据增强方法,从无到有的构建文本相似数据集

  2. 项目部署:

    • gradio再优化

    • aistudio沙盒打包

    • flask生成api,使用docker打包flask制作小应用

  3. 模型

    • 将模型微调的几步Epoch结果保存,进行模型平均操作
    • 采用模型Bagging策略,将训练质量好的模型进行融合处理
    • 探寻更多优质模型,针对任务,寻找使用更多医疗数据集训练好的与训练模型
  4. 更多:

    • 学习RocketQA等端到端问答模型,加上检索条件,在机器阅读理解基础上,制作完整的基于检索的问答系统,并可为后续学习基于生成的问答模型打下基础(PS:励志做个类似chatgpt的通用问答模型(bushi))

9.3 项目总结

​ 通过本次项目的实践,让我体验了一次机器阅读理解任务的全流程,从构建自己的数据集到搭建、训练并调优机器阅读理解模型,到实现动转静,完成静态图的推理,并用gradio快速实现可交互的部署,是一次难得的完成项目体验,感谢飞桨,让我有充足的算力,能不断试错,顺利完成此次任务,感谢角灰大帝大佬对此次任务的指导,让我有信心不断去探索、找到更好的实现方式。


  • https://zhuanlan.zhihu.com/p/121787628
  • https://link.zhihu.com/?target=https%3A//tianchi.aliyun.com/competition/entrance/531826/introduction
  • https://aistudio.baidu.com/aistudio/projectdetail/4113678?channelType=0&channel=0
  • https://aistudio.baidu.com/aistudio/projectdetail/5204743?forkThirdPart=1
  • https://zhuanlan.zhihu.com/p/374238080

