2017년 3월 20일 월요일

Optical Structure Recognition

Optical Structure Recognition on the Web (OSRW)


Optical Structure Recognition (광학분자구조인식, OSR)은 저널 논문, 특허, 도서, 잡지 등에 보이는 분자구조의 그래픽 표현을 이미지 인식을 통하여 컴퓨터에서 처리 가능한 분자구조 포맷 (SMILES, SDF 등)으로 전환시켜 주는 것을 말한다. 그러므로 이미지 (GIF, JPG, PNG, TIFF 등) 뿐만 아니라 이미지로 전환될 수 있는 다른 자료 (SVG, PDF 등)들도 OSR의 입력자료로 사용될 수 있다. OSRW는 HTML5 기반으로 만들어졌으므로 사용하기에 편리한 Drag & Drop을 지원한다. 즉, 로컬 컴퓨터 폴더에서 이미지나 PDF 파일을 끌어 OSRW 입력란에 떨어뜨리면 자동으로 분자구조 인식이 진행된다. 또한 웹 브라우저에서 이미지 자체를 끌어오거나 단순히 이미지, PDF 등의 링크만을 끌어와도 된다. OSRW의 이미지 입력란을 마우스로 클릭하거나 모바일 디바이스에서 터치하면 이미지 PDF 파일을 선택하여 업로드 할 수 있다. 스마트폰이나 패드에서는 카메라 촬영을 통해 사진을 업로드 할 수도 있다. Backend (실제 이미지를 분석하는 프로그램)로는 NCI에서 개발한 OSRA (https://cactus.nci.nih.gov/osra/ 참조) 가 사용된다. 분자구조 인식결과는 입력자료의 화질이나 분자구조 표현 스타일 (원자기호의 폰트 종류/사이즈, bond의 두께 등)에 따라서 크게 달라지며 카메라에서 직접 촬영한 사진은 밝기나 명암 등의 이유로 해독률이 낮은 편이다. 어떤 광학 분자구조 인식 프로그램에서도 결과는 100% 정확할 수 없다. 인식결과가 맞는지는 사용자가 직접 확인해야 한다. 그럼에도 불구하고 OSRW를 사용하면, 분자구조를 다시 그려야 하는 불편한 경우, 번거로움과 수고로움을 덜어줄 수 있을 것이다.

Tests with Sample Images and Input Files


OSRW 인터페이스


Options


Default:OSR에 앞서 컬러 색상을 threshold 35%를 적용하여 black/white image로 바꾼다.
Linear:OSR에 앞서 이미지를 linear grayscale (Rec709Luminance)로 바꾼다. Red color가 포함된 이미지에 효과가 있을 수 있다.
Non-linear:OSR에 앞서 이미지를 non-linear grayscale (Rec709Luma)로 바꾼다.
OSRA이 사용하는 default B/W threshold를 override하기 위한 용도로서 희미한 이미지의 경우 0.2와 같이 낮은 값을, 어두운 이미지의 경우 0.5 이상의 높은 값을 선택할 수 있다.
사이즈가 너무 큰 이미지의 경우 오히려 구조인식이 더 잘 안되는 경우가 있다 (예를 들면 fragment 구조들이 많이 생성될 수 있다). 이런 경우 Resize를 적용하여 이미지 사이즈를 축소해 볼 수 있다.
입력 자료가 PDF 파일인 경우 페이지를 선택할 수 있도록 Page 리스트가 활성화된다. 페이지를 선택한 후 Submit 버튼을 눌러 OSR을 요청한다.

Tips


Red color가 포함된 이미지의 경우 Black/White 전환시 너무 밝은 경향이 있어 구조 인식이 잘 안되는 경우가 있다. 이런 경우 Grayscale 옵션을 Linear로 선택하여 Red를 더 어둡게 하면 인식이 잘 되는 경우가 있다.
OSRW는 Drag & Drop에 기반하여 작동하므로 브라우저가 HTML5를 지원해야 하며 최신 버전의 Internet Explorer 및 Edge, Chrome, Firefox 및 Safari에서 테스트하였다. 구형 버전의 웹 브라우저에서는 정상적으로 작동되지 않을 것으로 생각된다. 만일 OSR 인터페이스가 작동되지 않는다면 최신 버전의 브라우저에서 시도해 보기 바란다.

댓글 없음:

댓글 쓰기