Hi there, I am Nhlakanipho Ngubo, a Data Engineer

About Me

Click the CV image to view my CV

Passionate about building scalable ETL pipelines and transforming raw data into actionable insights, I specialize in web scraping, data wrangling, and database integration. Using Pandas, I clean and structure messy datasets, enabling reliable workflows and performance predictions. Whether containerizing MongoDB with Docker, crafting REST APIs with Flask and SQLAlchemy, or optimizing data pipelines, I thrive on solving complex data challenges. Rooted in Agile methodologies, I bring curiosity, innovation, and a growth mindset—ready to drive smarter, data-driven decisions.

Latest Projects

Click any image to view the corresponding project repository

ETL: Top Banks

Specifications

Programming Language:

Python

Database:

SQLite

Development Environment:

Jupyter Notebook

Frameworks / Libraries:

Pandas
Numpy
BeautifulSoup
Requests

Description

The Top Banks ETL pipeline automates financial data extraction, transformation, and storage. It scrapes bank rankings, converts market cap values, adds currency conversions (GBP, EUR, INR), and loads the refined data into a CSV file and SQLite database for seamless querying. Designed for accuracy and scalability, it transforms raw data into actionable insights for efficient analysis and informed decision-making.

Flask: CompTrack API

Specifications

Programming Language:

Python

Database:

SQLite

Frameworks / Libraries:

Unittest
Flask
Flask-SQLAlchemy

Description

CompTrack API streamlines the collection and organization of computer specifications, enabling efficient data management and integration into analytics pipelines. Built for precision and scalability, it transforms raw hardware data into actionable insights, empowering smarter resource management and continuous innovation.

MongoDB: Visitor Admin

Specifications

Programming Language:

Python

Database:

MongoDB

Containerization:

Docker

Frameworks / Libraries:

Unittest
Pymongo
Bson
Mongomock

Description

Visitor Admin securely captures and stores visitor credentials in a robust MongoDB database. It ensures efficient data collection, organized storage, and seamless retrieval, empowering organizations to manage critical data reliably and confidently. Designed for scalability, it lays the foundation for advanced workflows.

Pandas: Data Wrangling

Specifications

Programming Language:

Python

Development Environment:

Jupyter Notebook

Frameworks / Libraries:

Pandas

Description

Data Wrangling transforms messy datasets into clean, structured formats using Pandas, ensuring reliable workflows. By analyzing learners' personality scores and department choices, it identifies "High risk" and "Low risk" learners, enabling performance predictions and guiding proactive actions for mismatches. This process turns raw data into actionable insights, driving smarter decisions.

PostgreSQL: Shop Database

Specifications

Query Language:

Database:

PostgreSQL

Containerization:

Docker

Description

The Shop Database is a scalable relational database built with PostgreSQL, designed to streamline data management through efficient modeling and optimized querying. It ensures data integrity with primary and foreign keys, supports analytics workflows and ETL processes, and applies clean coding practices for maintainability and scalability.

Volunteering

Data Entry And Educational Content Management | Umuzi Academy | April 2025 - Present

Transferred and organized learning materials from Google Drive to Google Classroom to support remote education delivery. Wrote clear and concise task headings and descriptions to enhance learner comprehension and navigation. Ensured that content uploads were accurate, timely, and aligned with course structure.

Key Contributions

Maintained consistent file organization standards to reduce educator workload.
Developed descriptive summaries for assignments, improving clarity and learner engagement.
Supported educators in streamlining course content distribution across digital platfoms.

Technologies I Use

Visual Studio Code

GitHub

HTML

CSS

Rabbitmq

Git

Certificates

Click any image to view the corresponding Certificate

National Certificate: Business Analysis Support Practice NQF Level 5

Business Analysis Support Practice Certificate

Bringing together analytical thinking and creative problem-solving to research technical challenges and develop effective solutions within consulting environments. Business needs are translated into clear, actionable specifications while troubleshooting is conducted with precision. Adaptable communication skills and a structured approach support collaborative Data Engineering, optimizing pipelines and integrating solutions for meaningful results.

IBM Certificate: Python for Data Science, AI, and Development

Built a strong foundation in Python with a focus on critical data structures, programming logic, and core libraries used in Data Science workflows. Applied these skills to manipulate and analyze datasets, and to develop basic data-driven applications. Gained hands-on experience with essential tools such as pandas, and numpy, reinforcing my readiness to contribute to data engineering tasks such as data wrangling, transformation, and integration within ETL pipelines.

IBM Certificate: Python Project for Data Engineering | Top Banks

Python project for Data Engineering IBM Certificate

Developed a data pipeline for banking sector analysis, extracting financial data via APIs and web scraping. Transformed datasets across formats, applied structured logging for ETL tracking, and prepared analysis-ready data for repository loading. This project showcases practical Python-based Data Engineering skills, scalability in pipeline design, and initiative in applying industry-relevant techniques.

Additional Skills

Reviewed 111+ Pull Requests, ensuring high coding standards.

Completed 46+ projects, demonstrating expertise in scalable data solutions.

Solved 100+ problems across multiple coding platforms, sharpening problem-solving skills.

Experienced in Agile workflows, leading peer learning through POD sessions, and creating clear documentation for seamless project onboarding.

Contact Me

Looking for ETL expertise, database integration, or automation? Let's connect and create impactful data solutions!

Hi there, I am Nhlakanipho Ngubo, a Data Engineer

About Me

Latest Projects

ETL: Top Banks

Specifications

Description

Flask: CompTrack API

Specifications

Description

MongoDB: Visitor Admin

Specifications

Description

Pandas: Data Wrangling

Specifications

Description

PostgreSQL: Shop Database

Specifications

Description

Volunteering

Data Entry And Educational Content Management | Umuzi Academy | April 2025 - Present

Key Contributions

Technologies I Use

Visual Studio Code

GitHub

HTML

CSS

Rabbitmq

Git

Certificates

National Certificate: Business Analysis Support Practice NQF Level 5

IBM Certificate: Python for Data Science, AI, and Development

IBM Certificate: Python Project for Data Engineering | Top Banks

Additional Skills

Contact Me

nhlakanipho.ngubo@umuzi.org:

mpilongubo07@gmail.com:

LinkedIn Profile: