src/models/T5.py

# coding: UTF-8
import torch
import torch.nn as nn
from transformers import AutoModel, AutoTokenizer


class Config(object):
    """&#37197;&#32622;&#21442;&#25968;"""

    def __init__(self, dataset, pretrained_name_or_path=None):
        self.model_name = 'T5'
        self.train_path = dataset + '/data/train.txt'  # &#35757;&#32451;&#38598;
        self.dev_path = dataset + '/data/dev.txt'  # &#39564;&#35777;&#38598;
        self.test_path = dataset + '/data/test.txt'  # &#27979;&#35797;&#38598;
        self.class_list = [x.strip() for x in open(
            dataset + '/data/class.txt').readlines()]  # &#31867;&#21035;&#21517;&#21333;
        self.save_path = dataset + '/saved_dict/' + self.model_name + '.ckpt'  # &#27169;&#22411;&#35757;&#32451;&#32467;&#26524;
        self.log_path = dataset + '/log/' + self.model_name
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # &#35774;&#22791;

        self.require_improvement = 1000  # &#33509;&#36229;&#36807;1000batch&#25928;&#26524;&#36824;&#27809;&#25552;&#21319;&#65292;&#21017;&#25552;&#21069;&#32467;&#26463;&#35757;&#32451;
        self.multi_label = False
        self.num_classes = len(self.class_list)  # &#31867;&#21035;&#25968;
        self.num_epochs = 3  # epoch&#25968;
        self.batch_size = 128  # mini-batch&#22823;&#23567;
        self.pad_size = 32  # &#27599;&#21477;&#35805;&#22788;&#29702;&#25104;&#30340;&#38271;&#24230;(&#30701;&#22635;&#38271;&#20999;)
        self.learning_rate = 5e-5  # &#23398;&#20064;&#29575;
        self.encoder_path = './t5_pretrain' if not pretrained_name_or_path else pretrained_name_or_path
        self.tokenizer = AutoTokenizer.from_pretrained(self.encoder_path)
        self.hidden_size = 768


class Model(nn.Module):

    def __init__(self, config):
        super(Model, self).__init__()
        self.encoder = AutoModel.from_pretrained(config.encoder_path)
        self.tokenizer = config.tokenizer
        self.device = config.device
        for param in self.encoder.parameters():
            param.requires_grad = True
        self.fc = nn.Linear(config.hidden_size, config.num_classes)

    def forward(self, x):
        context = x[0]  # &#36755;&#20837;&#30340;&#21477;&#23376;
        mask = x[2]  # &#23545;padding&#37096;&#20998;&#36827;&#34892;mask&#65292;&#21644;&#21477;&#23376;&#19968;&#20010;size&#65292;padding&#37096;&#20998;&#29992;0&#34920;&#31034;&#65292;&#22914;&#65306;[1, 1, 1, 1, 0, 0]
        # ref:https://discuss.huggingface.co/t/t5-classification-using-text2text/504/8
        decoder_input_ids = torch.tensor([self.tokenizer.pad_token_id]).unsqueeze(0).expand(context.size(0), -1).to(
            self.device)
        # outputs:torch.Size([128, 1, 768])
        outputs = self.encoder(context, attention_mask=mask, decoder_input_ids=decoder_input_ids,
                               return_dict=True).last_hidden_state
        # token_ids = torch.argmax(outputs, dim=2)
        # tokens = self.tokenizer.batch_decode(token_ids)

        outputs = self.fc(outputs.squeeze())
        return outputs