OCR - 괴물 클럽 | 기상천외한 아이디어를 코드로 구현하는 곳

OCR

지능형 텍스트 자동 처리 기술 (이어짐)

자동 텍스트 처리 시스템 프로젝트 저장소: https://github.com/jiangnanboy/AutoText 본 도구는 문서 오류 보정, 이미지 내 텍스트 추출(OCR), 표 구조 인식 등 주요 기능을 제공합니다. 주요 기능 문장 오류 수정 이미지 기반 텍스트 인식 표 형식 구조 분석 향후 개선 방향 연락처 및 라이선스 정보 오류 보정 기능 jcorrector 라이브러리 기반으로 다양한 오류 정정 ...

7월 1일 17:29에 게시됨

AI 기반 부동산 3D 가상 전시실 자동 생성 시스템

### 신속한 체험 방법 InsCode(快马) 플랫폼에 접속: https://www.inscode.net 다음 내용을 입력창에 복사하여 붙여넣기: 부동산 중개업자가 평면 설계도를 기반으로 360도 가상 전시실을 자동 생성하는 시스템을 개발하고자 합니다. 이 시스템은 건설 중인 주택이나 공사 중인 실 거주 공간의 평면도를 통해 고객이 몰입감 있게 경험할 수 있는 3D 가상 전시실을 제공 ...

6월 18일 23:47에 게시됨

PP-DocLayoutV3 다중 시나리오 적용: 신문 레이아웃 분할, 고전 수평 배치 변환, 연구 보고서 차트 위치 확인

PP-DocLayoutV3는 다양한 실무 환경에서 활용 가능한 문서 레이아웃 분석 도구입니다. 이 글에서는 신문 페이지를 자동으로 분할하고, 고전 문헌을 현대식 수평 배치로 전환하며, 연구 보고서의 차트를 정확히 추출하는 방법을 소개합니다. 1. PP-DocLayoutV3란? 문서의 구조를 이해하는 것은 매우 복잡한 작업일 수 있습니다. 예를 들어, 한 장의 신문은 여러 열로 구성된 ...

6월 18일 00:44에 게시됨

JSTOR에서 18세기 원시 문서 검색을 위한 Perplexity 기반 고급 검색 및 OCR 검증 전략

Perplexity와 JSTOR의 의미론적 검색 진화 인문학 연구는 과거 마이크로필름과 카탈로그에 의존했으나, JSTOR 플랫폼은 1995년 이후 약 1,400만 페이지의 학술 자료를 디지털화하며 변화를 주도했습니다. 최근에는 Perplexity AI가 이 플랫폼의 검색 방식을 재정의하고 있습니다. 단순 키워드 매칭이 아닌 자연어 쿼리를 통해 의미적 맥락을 파악하여 JSTOR 내부 메타데이 ...

6월 17일 01:40에 게시됨

차량 번호판 인식의 핵심: 문자 템플릿 라이브러리 설계 및 실전 적용

차량 번호판 인식 기술은 스마트 교통 시스템의 핵심 구성 요소로, 차량 번호를 자동으로 식별하여 효율적인 교통 관리를 실현한다. 문자 템플릿은 인식 과정의 핵심 자원으로, 숫자, 알파벳 및 각 성·직할시 약칭의 표준 이미지 패턴을 포함하며 문자 매칭과 인식 단계에 폭넓게 활용된다. 본 프로젝트는 번호판 인식 흐름을 중심으로 이미지 수집, 전처리, 번호판 검출, ...

6월 3일 19:09에 게시됨

Python pdfplumber를 활용한 PDF 텍스트 및 테이블 데이터 정밀 추출 가이드

PDF 문서에서 데이터를 추출할 때 테이블 구조가 무너지거나 텍스트 단락이 뒤섞이는 문제를 자주 겪게 됩니다. PyPDF2나 pdfminer와 같은 기존 라이브러리는 복잡한 레이아웃, 특히 테이블 처리에 한계가 있어 데이터 분석이나 자동화 작업 시 효율이 떨어집니다. 이를 보완하기 위해 pdfplumber가 등장했습니다. 이 라이브러리는 PDF의 시각적 레이아웃을 정밀하게 복원 ...

6월 1일 21:08에 게시됨

PaddleOCR-VL-0.9B 완벽 가이드: 초경량 문서 인식의 새로운 기준

핵심 요약 (TL;DR) 0.9B(9억) 파라미터 모델이 글로벌 OmniBenchDoc V1.5 순위 1위 달성 (종합 점수: 90.67) GPT-4o, Gemini 2.5 Pro, Qwen2.5-VL-72B 등 대형 멀티모달 모델을 능가하는 성능 한국어, 영어, 일본어, 아랍어, 러시아어 등 109개 언어 지원 복잡한 문서 레이아웃, 표, 수식, 필기 노트 정확하게 인식. QR 코드 및 도장 요소 별도 추출 가능 MinerU 2.5 대비 ...

6월 1일 11:22에 게시됨

EasyOCR 기술 심층 분석: 사용하기 쉬운 광학 문자 인식 도구

개요 EasyOCR는 JaidedAI가 개발한 오픈소스 OCR(Optical Character Recognition, 광학 문자 인식) 라이브러리로, PyTorch 딥러닝 프레임워크를 기반으로 구현되었습니다. 이 프로젝트는 GitHub에서 29,000개 이상의 스타를 받았으며, 112명의 기여자와 16,900개 이상의 프로젝트에서 채택되어 커뮤니티에서 널리 인정받고 있음을 보여줍니다. EasyOCR의 가장 큰 특징은 바 ...

5월 20일 02:26에 게시됨

인기 태그