TOP | Personal Academic Po

Vinay Jogani

VINAY JOGANI

Master of Science in Information Systems, Northeastern University (August 2025)

Former AI/ML Research Assistant at Amal Lab, Northeastern University, Boston

Former Research Data Scientist at Brigham and Women's Hospital, Boston

Passionate about data science, deep learning, computer vision, and their applications in healthcare and finance

Resume

ABOUT ME

I am a data and machine learning professional with expertise spanning the full data lifecycle, from engineering scalable pipelines and databases to building production ML systems and delivering actionable analytics. I hold a Master of Science in Information Systems from Northeastern University (August 2025) and a Bachelor of Technology in Information Technology from Veermata Jijabai Technological Institute.

My experience encompasses both research and production environments. At Brigham and Women's Hospital, I developed NLP pipelines processing clinical trial reports, built statistical models for biomarker discovery, and engineered quantitative finance systems analyzing pharmaceutical market dynamics. As a Research Assistant at Northeastern University's Amal Lab, I architected deep learning models for medical image classification and built distributed computing infrastructure processing large-scale multi-omics datasets using Apache Spark and Dask.

I have strong software engineering foundations from my work at HCL Technologies, where I designed enterprise automation systems significantly reducing manual processes, and from building production-grade applications including a microservices-based Personal Finance API with comprehensive test coverage and a real-time Healthcare Data Pipeline processing patient records using Kafka, Spark, and Airflow.

Proficient in Python (TensorFlow, PyTorch, Scikit-learn, Pandas, NumPy), SQL/NoSQL databases, cloud platforms (AWS, GCP), and MLOps tools (Docker, Kubernetes, MLflow), I excel at building end-to-end solutions, from data infrastructure and ETL pipelines to advanced ML models and interactive analytics dashboards. My work spans statistical analysis, A/B testing, time series forecasting, computer vision, and NLP.

I have presented peer-reviewed technical papers at international conferences on explainable AI, adversarial robustness, and deep learning applications. I am actively seeking opportunities to apply my versatile skill set in building impactful, scalable data and ML solutions across healthcare, finance, and beyond.

EDUCATION

September 2023 - August 2025

Master of Science in Information Systems

View Degree

Northeastern University

Boston, MA

Focused Coursework: Advance Data Science & Architecture, Parallel Machine Learning & AI, LLM w/ Knowledge Graph DB, Natural Language Engineering, AI Generative Modeling with focus in Finance

August 2019 - May 2023

Bachelor of Technology in Information Technology

View Degree

Veermata Jijabai Technological Institute

Mumbai, India

Focused Coursework: Data Structures and Algo, Linear Algebra, Discrete Mathematics, Artificial Intelligence, Machine Learning, Data Architecture, Network Security, Big Data Analysis, Computer Networks, Operating Systems

SKILLS

Programming Languages

Python, SQL, C++, Java, R, JavaScript, MATLAB, Cypher

Deep Learning

CNN, LSTM, GRU, ResNet, DenseNet, EfficientNet, VGG, Vision Transformers, DQN, PPO, Distributed Data Parallel, Multi-GPU Training

Computer Vision

OpenCV, torchvision, scikit-image, Grad-CAM, Image Segmentation, Object Detection

Data Science & Analytics

NumPy, Pandas, SciPy, statsmodels, Statistical Analysis, A/B Testing, Hypothesis Testing, Experimental Design, Time Series Forecasting, Feature Engineering, PCA, t-SNE, UMAP, Causal Inference, Monte Carlo Simulations

Cloud Platforms

AWS (EC2, S3, Lambda), GCP (BigQuery, GCS, Cloud Pub/Sub)

MLOps & Production

MLflow, Docker, Kubernetes, Docker Compose, CI/CD, GitHub Actions, Model Monitoring, Model Versioning, Prometheus, Grafana, Terraform

Automation & Web Scraping

BeautifulSoup, Selenium, UiPath, RPA

Machine Learning & AI

TensorFlow, PyTorch, Keras, Scikit-learn, XGBoost, LightGBM, Stable-Baselines3, OpenAI Gym, Gymnasium, Supervised Learning, Unsupervised Learning, Transfer Learning, Reinforcement Learning, Ensemble Methods, Hyperparameter Optimization (Optuna, GridSearchCV)

Natural Language Processing

BERT, RoBERTa, Transformers (Hugging Face), NLTK, spaCy, CodeT5, VADER, TextBlob, Named Entity Recognition

Explainable AI & Model Security

LIME, SHAP, Adversarial Training, Adversarial Robustness Toolbox

Data Engineering & ETL

Apache Spark, PySpark, Apache Kafka, Apache Airflow, dbt, Hadoop, Dask, ETL/ELT Pipelines, Stream Processing, Batch Processing, Data Orchestration, Great Expectations, Pydantic, Medallion Architecture

Databases & Data Storage

PostgreSQL, MySQL, MongoDB, Neo4j, SQLite, Snowflake, BigQuery, Redis, SQLAlchemy, FAISS, Database Design, Window Functions, CTEs, Indexing

Software Engineering

FastAPI, Flask, REST APIs, Microservices, Git, pytest, Unit Testing, Integration Testing, Async/Await, Exception Handling, Agile/Scrum, Jira

Quantitative Finance

Portfolio Optimization, Options Pricing, Risk Metrics (Sharpe, VaR), Time Series Modeling (ARIMA, GARCH), yFinance, Bloomberg API

PROFESSIONAL EXPERIENCE

Northeastern University

Boston, MA

June 2024 - August 2025

AI/ML RESEARCH ASSISTANT

Engineered Med-SAM medical image segmentation system for multi-modal datasets (MRI, CT, histopathology) with automated preprocessing pipelines and custom data loaders, achieving superior organ and lesion boundary detection through fine-tuned transformer architectures and cross-validation frameworks on clinical datasets
Architected scalable big data infrastructure processing 18TB+ TCGA multi-omics datasets (RNA-Seq, methylation, CNV) using distributed computing frameworks, implementing unsupervised clustering algorithms (K-means++, DBSCAN, hierarchical clustering) and dimensionality reduction (PCA, t-SNE, UMAP) for biomarker discovery across 33+ cancer types
Developed production-ready deep learning classification system achieving 97.28% accuracy on skin cancer detection through comparative analysis of state-of-the-art architectures (ResNet-34, EfficientNet-B1, VGG16, Vision Transformers) with ensemble learning and external validation across Dermofit, BCN20000, and Buenos Aires datasets
Technical Stack: PyTorch, TensorFlow, Keras, Hugging Face Transformers, OpenCV, scikit-learn, pandas, NumPy, Dask, Apache Spark, PySpark

Brigham and Women’s Hospital

Boston, MA

Aug 2024 - Dec 2024

RESEARCH DATA SCIENTIST

Architected comprehensive meta-analysis framework processing ClinicalTrials.gov and PubMed databases using machine learning algorithms (random forests, gradient boosting, ensemble methods) to investigate participant heterogeneity across 10+ years of IBS and psychiatric disease trials with automated data extraction pipelines, implementing statistical modeling (Cox proportional hazards, mixed-effects models) and PostgreSQL database management while maintaining HIPAA compliance and IRB protocol adherence
Engineered clinical trial news analytics pipeline analyzing 10,000+ pharmaceutical reports using transformer-based NLP models (BERT, RoBERTa), sentiment analysis (VADER, TextBlob), and spaCy named entity recognition to identify correlations between Phase 2/3 trial media coverage sentiment and regulatory failure rates
Developed quantitative finance modeling system analyzing market microstructure impacts of clinical trial announcements using yfinance and Alpha Vantage APIs, implementing time-series econometric analysis, stock price volatility patterns, and trading volume anomaly detection through statistical hypothesis testing (t-tests, Mann-Whitney U) and volatility modeling (GARCH, ARCH)
Technical Stack: Python, pandas, scikit-learn, NumPy, SciPy, spaCy, BERT, RoBERTa, Transformers, VADER, TextBlob, statsmodels, yfinance, Alpha Vantage, ClinicalTrials.gov API, PubMed API, REST APIs, PostgreSQL, HIPAA compliance, IRB protocols

HCL Technologies

Noida, India

June 2022 - July 2022

SOFTWARE ENGINEER

Architected enterprise-grade RPA automation system using UiPath Studio integrating web scraping algorithms, API orchestration, and dynamic data extraction pipelines to process travel booking platforms with multi-threaded execution and parameterized input validation (origin/destination cities, travel dates), achieving 85% reduction in manual search processes
Engineered intelligent document processing solution leveraging Regular Expression parsing and OCR technologies within UiPath framework, developing machine learning-enhanced extraction algorithms for structured PDF invoice processing with 95% accuracy across variable document formats, implementing data validation schemas and exception handling for invoice metadata
Designed production-ready automation infrastructure with comprehensive error handling mechanisms and robust logging frameworks using UiPath Orchestrator, supporting scalable workflow architecture for dynamic web content parsing, PDF format variations, and automated Excel report generation with advanced formatting capabilities
Technical Stack: UiPath Studio, UiPath Orchestrator, Regular Expressions, OCR, Web Scraping, API Integration, PDF Processing, Excel Automation, Exception Handling

Technoriya eTechnologies Pvt. Ltd.

Navi Mumbai, India

Dec 2021- Jan 2022

SOFTWARE DEVELOPER

Architected machine learning-powered adaptive assessment engine implementing reinforcement learning algorithms and real-time performance analytics to dynamically adjust examination difficulty levels, achieving 92.31% prediction accuracy in performance-based question recommendation systems through collaborative filtering and behavioral pattern recognition models
Developed full-stack web application infrastructure using JavaScript frameworks and cloud-based architectures with responsive user interfaces, real-time data synchronization, secure authentication protocols, and scalable database management systems supporting concurrent multi-user examination environments with automated grading
Engineered intelligent question difficulty calibration system utilizing statistical modeling techniques (Item Response Theory, Bayesian inference) and historical performance data analysis, implementing machine learning pipelines for continuous model training and validation to personalize assessment experiences
Technical Stack: Python, scikit-learn, pandas, NumPy, Machine Learning, JavaScript, React.js, Node.js, Express.js, MongoDB, PostgreSQL, AWS, RESTful APIs, Authentication, SciPy, statsmodels

DataBit Technologies Pvt. Ltd.

Pune, India

May 2021 - July 2021

DATA ANALYST

Architected comprehensive data preprocessing pipelines implementing statistical techniques for anomaly detection, missing value imputation using MICE, outlier identification through IQR and Z-score methodologies, and duplicate record resolution, ensuring 99.5% data integrity across 100,000+ client records
Engineered machine learning analytics framework deploying ensemble methods (Random Forest, Gradient Boosting), unsupervised clustering algorithms (K-means++, DBSCAN, hierarchical clustering), and supervised learning models (Linear/Polynomial Regression, K-Nearest Neighbors) to extract actionable business intelligence patterns, achieving statistical significance (p<0.05) in predictive model performance
Developed end-to-end analytics solutions implementing feature engineering techniques, dimensionality reduction (PCA, t-SNE), cross-validation frameworks, and model evaluation metrics (ROC-AUC, precision-recall curves, confusion matrices), creating automated reporting dashboards using Tableau and Power BI with MySQL database integration for stakeholder decision-making
Technical Stack: Python, pandas, NumPy, scikit-learn, matplotlib, seaborn, SciPy, statsmodels, Machine Learning, Statistical Analysis, Tableau, Power BI, Data Visualization, SQL, MySQL

Navlakhi

Mumbai, India

July, 2020

BACK END PROGRAMMER

Architected comprehensive fee payment oversight module implementing secure transaction processing architecture using PHP backend frameworks and MySQL database optimization with indexed queries and stored procedures, developing RESTful API endpoints for real-time balance monitoring, transaction validation, and automated CRUD operations with encrypted data handling
Engineered full-stack student fee management system integrating server-side PHP logic with responsive frontend interfaces using JavaScript, HTML5, and CSS3, implementing asynchronous payment processing workflows and session management protocols ensuring seamless user experience across desktop and mobile platforms
Developed scalable payment gateway integration system with automated payment reminders, installment processing algorithms, and real-time dashboard updates, integrating secure payment streams while maintaining PCI DSS compliance standards and implementing comprehensive error handling for transaction failures
Technical Stack: PHP, MySQL, JavaScript, HTML5, CSS3, RESTful APIs, Payment Gateway APIs, Session Management

TECHNICAL PAPERS

Technical Papers

Analysis of Explainable Methods on Medical Image Classification

Paper Link

Third International Conference on Advances in Electrical, Computing, Communications and Sustainable Technologies (ICAECT 2023) affiliated to IEEE, Published in May 2023

Conducted comprehensive comparative analysis of Explainable AI methodologies for lung cancer classification using deep convolutional neural networks (VGG-16, ResNet-50), implementing gradient-based attribution techniques (Grad-CAM, Integrated Gradients) and perturbation-based interpretability methods (LIME) on histopathology image datasets
Engineered systematic evaluation framework measuring computational efficiency and interpretability effectiveness across multiple XAI approaches, implementing performance benchmarking protocols with execution time analysis and memory utilization profiling for optimal XAI method selection in clinical diagnostic workflows
Developed reproducible research methodology with rigorous experimental design for medical AI interpretability assessment, implementing cross-validation protocols, statistical significance testing, and comprehensive ablation studies for transparent machine learning systems in healthcare applications
Technical Stack: TensorFlow, Keras, PyTorch, VGG-16, ResNet-50, Grad-CAM, LIME, Computer Vision, Medical Image Processing, Statistical Analysis, NumPy, SciPy, pandas

Intrusion Detection: A Deep Learning Approach

Paper Link

2023 Second International Conference on Electrical, Electronics, Information and Communication Technologies (ICEEICT 2023), Published in April 2023

Architected novel hybrid intrusion detection system combining deep learning architectures (CNN feature extraction layers, LSTM temporal sequence modeling) with classical machine learning classifiers (Support Vector Machine with RBF kernel), implementing ensemble learning methodology to achieve 97.29% accuracy on multi-class network attack classification, outperforming traditional IDS approaches by 15+ percentage points
Engineered comprehensive comparative analysis framework evaluating traditional machine learning algorithms (Random Forest, Naive Bayes, Decision Trees) against deep learning architectures (CNNs, LSTMs, hybrid models) across multiple cybersecurity datasets, implementing rigorous statistical evaluation protocols with cross-validation, ROC-AUC analysis, and computational complexity assessment
Developed advanced data preprocessing pipeline implementing Principal Component Analysis for dimensionality reduction, feature scaling normalization techniques, and statistical feature selection algorithms, optimizing computational efficiency while maintaining detection accuracy above 95% for real-time network security monitoring
Technical Stack: Deep Learning, TensorFlow, Keras, Machine Learning, scikit-learn, SVM, CNN, LSTM, PCA, Feature Engineering, Cybersecurity Datasets (NSL-KDD, CICIDS2017, UNSW-NB15), Statistical Analysis, NumPy, pandas, SciPy

Adversarial Attacks and Defences for Skin Cancer Classification

International Conference for Advancement in Technology (ICONAT 2023) affiliated to IEEE, Published in April 2023

Paper Link

Architected comprehensive adversarial attack evaluation framework implementing gradient-based attack methodologies (Projected Gradient Descent, Fast Gradient Sign Method) against deep CNN architectures for dermatoscopic skin cancer classification, conducting systematic vulnerability assessment across multiple attack perturbation budgets and demonstrating critical security vulnerabilities in medical AI diagnostic systems
Engineered robust adversarial defense mechanisms implementing PGD-based adversarial training protocols with multi-step gradient ascent optimization, data augmentation strategies, and ensemble defense techniques, achieving 27.73 percentage point improvement in model robustness against white-box attacks while maintaining baseline classification performance on clean datasets
Developed end-to-end adversarial robustness evaluation pipeline with automated attack generation, defense validation protocols, and comprehensive performance benchmarking across multiple skin cancer datasets, implementing statistical significance testing and confidence interval analysis for medical AI security
Technical Stack: Deep Learning, CNN Architectures, Adversarial Machine Learning, Attack Methods (PGD, FGSM), Adversarial Training, Data Augmentation, Medical Imaging, Statistical Analysis

Image Captioning Using Transformer: VISIONAID

Paper Link

International Research Journal Of Engineering and Technology (IRJET), Published in October 2022

Architected novel image captioning system "VisionAid" implementing Swin Transformer architectures with hierarchical shifted window attention mechanisms, addressing internal covariate shift through batch normalization techniques and geometric-aware self-attention modules, achieving superior contextual understanding and caption accuracy compared to traditional CNN-RNN approaches
Engineered comprehensive comparative analysis framework conducting systematic literature review of transformer-based image captioning methodologies, implementing rigorous evaluation protocols across multiple benchmark datasets (MSCOCO, Flickr30k), identifying critical performance bottlenecks in existing models through statistical significance testing and ablation studies
Developed innovative attention mechanism architectures integrating multi-head self-attention with geometric spatial reasoning capabilities, implementing advanced word embedding techniques (positional encoding, semantic embeddings) and caption diversity enhancement algorithms through beam search optimization and nucleus sampling strategies with quantifiable improvements in BLEU, METEOR, and CIDEr evaluation metrics
Technical Stack: Transformer Architectures, Swin Transformer, Deep Learning, Computer Vision, Natural Language Processing, Multi-Head Attention, Word Embeddings, Positional Encoding, Evaluation Metrics (BLEU, METEOR, CIDEr), Benchmark Datasets (MSCOCO, Flickr30k)

PROJECTS

Projects

Healthcare Data Pipeline: Real-Time Analytics & Enterprise Data Engineering Platform

October 2025

Architected production-grade data pipeline processing 10M+ patient records with dual processing paradigms: real-time event streaming via Apache Kafka handling 500+ events/minute with Spark Structured Streaming using 5-minute tumbling windows and stateful aggregations, plus batch ETL via Spark jobs implementing incremental processing with date partitioning achieving 70% processing time reduction
Engineered enterprise data transformation framework with dbt implementing medallion architecture (staging, intermediate, marts layers) across 31 models including SCD Type 2 dimension tables for historical tracking, 50+ data quality tests with Great Expectations validation suites maintaining 99%+ pass rates, and incremental materialization strategies reducing full-refresh times by 85%, orchestrated via Apache Airflow with complex DAG dependencies and workflow automation
Implemented robust data quality and observability infrastructure with Spark-based validation jobs checking completeness, uniqueness constraints, referential integrity across 6 source tables, and data freshness monitoring, integrated with Prometheus metrics collection and Grafana dashboards tracking pipeline throughput, processing latency, and data quality scores with automated alerting
Designed cloud-native deployment architecture with Docker Compose and Kubernetes containerization, Terraform infrastructure-as-code provisioning Snowflake data warehouse and GCP resources (BigQuery, GCS), PostgreSQL for metadata management, automated installation scripts with Make commands, and comprehensive testing suite with pytest demonstrating enterprise DevOps/DataOps practices with CI/CD
Technical Stack: Python, Apache Kafka, Apache Spark, PySpark, Structured Streaming, Apache Airflow, dbt, PostgreSQL, Snowflake, BigQuery, GCP, GCS, Great Expectations, Docker, Docker Compose, Kubernetes, Terraform, Prometheus, Grafana, SQL, pytest, Make, CI/CD, ETL, Stream Processing, Batch Processing, Medallion Architecture

Vinay Jogani

VINAY JOGANI

ABOUT ME

EDUCATION

September 2023 - August 2025

August 2019 - May 2023

SKILLS

PROFESSIONAL EXPERIENCE ​

June 2024 - August 2025

Aug 2024 - Dec 2024

June 2022 - July 2022

Dec 2021- Jan 2022

May 2021 - July 2021

July, 2020

TECHNICAL PAPERS

Analysis of Explainable Methods on Medical Image Classification

Intrusion Detection: A Deep Learning Approach

Adversarial Attacks and Defences for Skin Cancer Classification

Image Captioning Using Transformer: VISIONAID

PROJECTS

CERTIFICATES

PROFESSIONAL EXPERIENCE