Tesis de Licenciatura

Scripts

users_sc.py: Llama a users.py para todas las provincias con los argumentos pasados por parámetro.
users.py: Realiza una búsqueda de usuarios de twitter en la provincia indicada por parámetro.
Corpus.py: Realiza una búsqueda de todos los tweets de cada usuario.
datosUsuarios.py: Separa el conjunto de train de test. Guarda los datos de train en train/ y los de test en test/
textos.py: Tokeniza todos los tweets y arma un listado de palabras por provincia con su cantidad de ocurrencias, fnorm y pvalor del ztest entre la cantidad de ocurrencias de cada palabra entre par de provincias. Separa los conjuntos de palabras por regiones dialectales.
getlines.py: Genera el csv con la columna maxDif que representa la máxima diferencia de frecuencias normalizadas para cada palabra.

Datos

users/ todos los usuarios recolectados con las búsquedas geolocalizadas.
tweets/: todos los tweets, en arrays de json. Datos crudos

Los archivos *_tweets.json tienen los tweets segmentados por provincia. Los archivos .dat indican la cantidad acumulada de tweets según voy agregando usuarios (podemos ignorarlos)

train/ tiene los datos de desarrollo.

train_provincia.csv tiene los tweets reducidos de la siguiente manera:

tweet_id, user_id, text

train_provincia_dict.json tiene el bag of words de los tweets train_provincia_users_dict.json tiene un diccionario de palabras a user_ids (los que usaron dicha palabra)

test/ tiene los datos de validación, pero sólo en formato csv (lo demás no lo hicimos)

Name		Name	Last commit message	Last commit date
Latest commit History 247 Commits
contrastes		contrastes
dataUsuarios/desarrollo		dataUsuarios/desarrollo
ejemplos		ejemplos
latex		latex
listadosDifusion		listadosDifusion
localidades		localidades
notebooks		notebooks
paises		paises
test		test
testEstadisticos		testEstadisticos
train/regiones		train/regiones
users/png		users/png
.gitignore		.gitignore
README.md		README.md
Twitter tokenizer.ipynb		Twitter tokenizer.ipynb
bootstrap.ipynb		bootstrap.ipynb
bootstrap.py		bootstrap.py
bootstrap.r		bootstrap.r
bootstrapTest.ipynb		bootstrapTest.ipynb
bootstrapUsuarios.sh		bootstrapUsuarios.sh
cantidades.py		cantidades.py
cantidadesDataset.csv		cantidadesDataset.csv
conf.py		conf.py
contrastes.py		contrastes.py
coordenadasUsuariosTrain.py		coordenadasUsuariosTrain.py
corpus.py		corpus.py
counterUbicaciones.py		counterUbicaciones.py
datosUsuarios.py		datosUsuarios.py
definitivo.csv		definitivo.csv
filtrar por provincia .ipynb		filtrar por provincia .ipynb
get_lines.py		get_lines.py
graficos.py		graficos.py
guaranismos.py		guaranismos.py
informationValue.py		informationValue.py
iv_helpers.py		iv_helpers.py
ivalues.r		ivalues.r
limitacionesTwitter.ipynb		limitacionesTwitter.ipynb
locations.json		locations.json
mapa.r		mapa.r
muestreoTweets.py		muestreoTweets.py
muestreoUsuarios.py		muestreoUsuarios.py
pais.py		pais.py
provincias.py		provincias.py
prueba.py		prueba.py
read_dicc.py		read_dicc.py
requirements.txt		requirements.txt
sc.sh		sc.sh
sctextos.sh		sctextos.sh
textos.py		textos.py
twitter.sh		twitter.sh
users.py		users.py
users_sc.py		users_sc.py
welchTest.ipynb		welchTest.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Tesis de Licenciatura

Scripts

Datos

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

daleman/tesis

Folders and files

Latest commit

History

Repository files navigation

Tesis de Licenciatura

Scripts

Datos

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages