hi

2024-12-19 18:44:46 -05:00 · 2024-12-19 18:44:46 -05:00 · 5475e98007
parent d1c214070e
commit 5475e98007
1 changed files with 38 additions and 0 deletions
--- a/python/neural_bag_of_words.py
+++ b/python/neural_bag_of_words.py
@ -0,0 +1,38 @@
 import collections
 import datasets
 import matplotlib.pyplot as plt
 import numpy as np
 import torch
 import torch.nn as nn
 import torch.optim as optim
 import nltk
 nltk.download('punkt')
 nltk.download('averaged_perceptron_tagger')
 import tqdm
 seed = 1234
 validate_size = 0.25
 np.random.seed(seed)
 torch.manual_seed(seed)
 torch.cuda.manual_seed(seed)
 torch.backends.cudnn.deterministic = True
 train_data, test_data = datasets.load_dataset("imdb", split=["train", "test"])
 print(nltk.pos_tag(nltk.word_tokenize("Hello there you stupid fucking whore mr parker")))
 def tokenize(input):
    return {"tokens": nltk.word_tokenize(input["text"])}
 train_data = train_data.map(tokenize)
 test_data = test_data.map(tokenize)
 train_valid_data = train_data.train_test_split(test_size=validate_size)
 train_data = train_valid_data["train"]
 valid_data = train_valid_data["test"]
 print(train_data)
 print(test_data)
 print(valid_data)